管理统计学第三章样本数据特征.ppt
《管理统计学第三章样本数据特征.ppt》由会员分享,可在线阅读,更多相关《管理统计学第三章样本数据特征.ppt(55页珍藏版)》请在三一文库上搜索。
1、第第3章章样本数据特征的初步样本数据特征的初步分析分析第第3 3章章 样本数据特征的初步分析样本数据特征的初步分析第第3.1节节 样本数据结构的基本特征:频次样本数据结构的基本特征:频次与频率与频率第第3.2节节 观察刻度级样本数据结构的茎叶观察刻度级样本数据结构的茎叶图与直方图方法图与直方图方法第第3.3节节 样本数据的位置特征:对数据中样本数据的位置特征:对数据中心的描述心的描述第第3.4节节 样本数据的离散特征样本数据的离散特征第第3.5节节 样本数据特征的综合表达:箱形样本数据特征的综合表达:箱形图图第第3.1节节 样本数据结构的基本样本数据结构的基本特征:频次与频率特征:频次与频率一
2、个误区一个误区:聚焦于数据值(样本值)及其变化:聚焦于数据值(样本值)及其变化另一个重要问题另一个重要问题:相同值出现的:相同值出现的频次、频率频次、频率。这是这是数据数据集合的最基本的结构特征。集合的最基本的结构特征。本节讨论这一结构特征:本节讨论这一结构特征:频次频次(Frequency)与与频率频率(Percentage,或,或Relative Frequency)两个紧密相关的不同的概念:两个紧密相关的不同的概念:1)样本数据自身(不论什么测度级的数据)样本数据自身(不论什么测度级的数据)2)同一个数据值(样本值)出现的次数(频次)同一个数据值(样本值)出现的次数(频次)。3.1.1
3、频次与频率的基本概念频次与频率的基本概念频次频次:在一个数据集合中,同一个数据:在一个数据集合中,同一个数据值(样本值)出现的次数。值(样本值)出现的次数。频率频率:某样本值的频率:某样本值的频率=该样本值出现的该样本值出现的频次频次/n(该数据集合的数据总个数)(该数据集合的数据总个数)一个例子(下页)一个例子(下页)例例3.1.1从某城市抽出来的从某城市抽出来的30个商店中,查出个商店中,查出某商品的价格数据:某商品的价格数据:9.98 10.02 10.00 10.04 10.01 9.99 10.05 10.04 10.06 10.0110.03 9.99 9.97 9.93 10.0
4、1 10.03 10.03 10.02 10.05 9.999.95 9.96 9.98 10.00 9.97 10.01 10.00 9.99 9.98 10.00 (感觉如何?(感觉如何?乱!乱!)排序:最基本的整理。排序:最基本的整理。9.93 9.95 9.96 9.97 9.97 9.98 9.98 9.98 9.99 9.99 9.99 9.99 10.00 10.00 10.00 10.00 10.01 10.01 10.01 10.01 10.02 10.02 10.03 10.03 10.03 10.04 10.04 10.05 10.05 10.06简单之至?简单之至?认为
5、容易的,可以试试手工对认为容易的,可以试试手工对300个数据排序个数据排序简单:基于软件。简单:基于软件。基于排序,能够简单统计频次:基于排序,能够简单统计频次:价格(元)价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次数:次数:1 0 1 1 2 3 4 4 频率频率%3.33 0 3.33 3.33 6.67 10.00 13.33 13.33价格(元)价格(元)10.01 10.02 10.03 10.04 10.05 10.06次数:次数:4 2 3 2 2 1频率频率%13.33 6.67 10.0 6.67 6.67 3.33故意故意增
6、加增加了了“9.94元元”这个刻度这个刻度排成一行,看清楚了频率结构特征。排成一行,看清楚了频率结构特征。今后,统计频次、频率,都由机器完成。今后,统计频次、频率,都由机器完成。上例是刻度级的数据,下面看一个名义级数据上例是刻度级的数据,下面看一个名义级数据的例子。的例子。例例3.1.3 抽样调查后,得到客户家具的基色调抽样调查后,得到客户家具的基色调的数据:的数据:R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、WR、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、
7、R、W其中,其中,R表示暗红色,表示暗红色,Y表示淡黄褐色,表示淡黄褐色,G表示表示浅绿色,浅绿色,W表示白色,表示白色,B表示黑色。表示黑色。统计出各个颜色出现的频率如下:统计出各个颜色出现的频率如下:家具基色家具基色 BGRWY合计合计基色频次基色频次 16851030基色频率基色频率 3.3320.026.716.733.3100当然,也可以统计出顺序级数据集合的当然,也可以统计出顺序级数据集合的频次与频率结构。频次与频率结构。3.1.2 观察样本数据基本特征(频次与观察样本数据基本特征(频次与频率)的图形方法频率)的图形方法1.表示频次与频率的饼图(表示频次与频率的饼图(Pie Cha
8、rt)每个不同的样本值所占据的圆心角的大小每个不同的样本值所占据的圆心角的大小由下式计算:由下式计算:在圆圈中,给每个不同的样本值一个与其在圆圈中,给每个不同的样本值一个与其频次(或频率)相当的圆心角:频次(或频率)相当的圆心角:某样本值对应的圆心角某样本值对应的圆心角=该样本值的该样本值的频率频率360家具基色调(名义级数据)家具基色调(名义级数据)某单位职工文化程度的结构(顺序级数据)某单位职工文化程度的结构(顺序级数据)2.表示频次与频率的表示频次与频率的条形图条形图图见下页。图见下页。非常简单:非常简单:1)横坐标横坐标:样本数据的不同值。:样本数据的不同值。顺序级以上,横坐标上的样本
9、数据应从小到大顺序级以上,横坐标上的样本数据应从小到大排列。若是刻度级的,则在排序中,要注意长排列。若是刻度级的,则在排序中,要注意长度的刻度,保持一致的比例。度的刻度,保持一致的比例。2)纵坐标纵坐标:相应样本值出现的频次或频率。:相应样本值出现的频次或频率。某商品在某商品在30个商店的价格例(注意间距)个商店的价格例(注意间距)某科室职工文化程度例(有顺序,无间距)某科室职工文化程度例(有顺序,无间距)家具基色调例(横坐标的色彩无顺序关系)家具基色调例(横坐标的色彩无顺序关系)3.1.3 样本数据集合的基本特征的延伸:样本数据集合的基本特征的延伸:累积频率累积频率(Cumulative P
10、ercentage)1.累积频率的概念(简单)累积频率的概念(简单)设设X1X2Xm,是样本数据集合中的,是样本数据集合中的不不重复重复的样本值(的样本值(mn样本个数)。样本个数)。若把样本值小于等于某个样本数据若把样本值小于等于某个样本数据Xi的频率值,的频率值,都累加起来,就得到都累加起来,就得到“小于等于小于等于Xi”的累积频的累积频率。率。2.表格法表格法表示累积频率(以价格问题为例):表示累积频率(以价格问题为例):价格(元)价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次数:次数:1 0 1 1 2 3 4 4 频率频率%3.33 0
11、 3.33 3.33 6.67 10.00 13.33 13.33累积频率累积频率%3.33 3.33 6.67 10.00 16.67 26.67 40.00 53.33价格(元)价格(元)10.01 10.02 10.03 10.04 10.05 10.06次数:次数:4 2 3 2 2 1频率频率%13.33 6.67 10.0 6.67 6.67 3.33累积频率累积频率%66.67 73.33 83.33 90.00 96.67 100.00讨论:顺序级数据能够计算累积频率吗?讨论:顺序级数据能够计算累积频率吗?名义级数据能够计算累积频率吗?名义级数据能够计算累积频率吗?为什么?(答
12、案见教材第为什么?(答案见教材第72页)页)3.累积频率的累积频率的条形图条形图表示表示把条形图的把条形图的纵坐标纵坐标改成改成累积频率累积频率即可。即可。商品价格例:商品价格例:第第3.2节节 观察观察刻度级刻度级样本数样本数据结构的据结构的茎叶图茎叶图与与直方图直方图方法方法3.2.1茎叶图(茎叶图(Stem-and-Leaf Plot)的概)的概念与作法念与作法1.概念概念“茎茎-叶叶”的含义:按照某规则,把所有的样的含义:按照某规则,把所有的样本值分成本值分成“茎节茎节”和和“叶叶”两个部分。表达为:两个部分。表达为:“茎节茎节叶叶”的形式。的形式。“茎节茎节”末位上的末位上的1所代表
13、的所代表的实际值实际值,就是,就是“茎节茎节”的的宽度宽度。例如,可用茎叶法,把例如,可用茎叶法,把123表达为表达为1.23(此时,茎节宽(此时,茎节宽=100)此时,此时,123(样本值)(样本值)=1.23(茎叶表达)(茎叶表达)100(茎节宽)(茎节宽)问:若茎节宽度为问:若茎节宽度为10,如何表达,如何表达123?2.例题与茎叶图的作法例题与茎叶图的作法例例3.2.1 某班级男生的身高(厘米)某班级男生的身高(厘米)171 182 175 177 178 181 185 168 170 175 177180 176 172 165 160 178 186 190 176 163 18
14、3问:若以问:若以100cm为茎节宽?茎节是多少?对吗?为茎节宽?茎节是多少?对吗?结论结论:样本数据集合中的:样本数据集合中的“茎节茎节”必须是有变化必须是有变化的的茎节宽应为茎节宽应为10cm把所有的数据都表达为把所有的数据都表达为“茎节茎节叶叶”形式后,把形式后,把相同茎节的数据合并为相同茎节的数据合并为“茎节茎节叶叶1叶叶2”形形式(叶,要从小到大排列),再把式(叶,要从小到大排列),再把不同的茎节不同的茎节从从小到大纵向排列,就得到小到大纵向排列,就得到茎叶图茎叶图:茎茎 叶叶16 0,3,5,817 0,1,2,5,5,6,6,7,7,8,818 0,1,2,3,5,619 0进一
15、步策略(并注明频次)为:进一步策略(并注明频次)为:频次频次 茎茎 叶叶 4 16 0,3,5,8 11 17 0,1,2,5,5,6,6,7,7,8,8 6 18 0,1,2,3,5,6 1 19 0这就是身高数据集合的茎叶图。这就是身高数据集合的茎叶图。问:如果有的茎节右边的叶子太多了,怎么办问:如果有的茎节右边的叶子太多了,怎么办?把把“茎节茎节”砍短一点。砍短一点。例如,把每个茎节分成两段(例如,把每个茎节分成两段(L、H),有),有频次频次 茎茎 节节 2 16L 03 2 16H 58 3 17L 012 8 17H 55667788 4 18L 0123 2 18H 56 1 1
16、9L 0“茎节长度茎节长度”的概念:茎节长度的概念:茎节长度=允许覆盖最允许覆盖最大值大值-允许覆盖最小值允许覆盖最小值+1上例中的茎节长度为上例中的茎节长度为5(cm):):04,59上例中的上例中的L、H可以省略。可以省略。事实上,上例的茎节是不必砍短的,事实上,上例的茎节是不必砍短的,叶并不多叶并不多注意注意:茎节砍短时,要注意茎节等长的原则:茎节砍短时,要注意茎节等长的原则3.2.2 直方图(直方图(Histogram)的)的概念与作法概念与作法1.条形图的弱点,当刻度级的数据的精度相对高,使条形图的弱点,当刻度级的数据的精度相对高,使得不重复的数据量非常大时,反而让人看不清数据集得不
17、重复的数据量非常大时,反而让人看不清数据集合的结构。例如,身高问题合的结构。例如,身高问题 看不清分布的规律看不清分布的规律如果我们如果我们对数据适当分组对数据适当分组,再用矩形的高度来表示,再用矩形的高度来表示各组的数据的个数或频率,就有(可看到清楚的分各组的数据的个数或频率,就有(可看到清楚的分布规律):布规律):这就是直方图。各区间长度是这就是直方图。各区间长度是5cm,起点是,起点是157.5cm,终点时,终点时192.5cm。2.直方图:适用于直方图:适用于大量不重复样本值大量不重复样本值的数的数据集合。据集合。在绘制直方图时,如何对数据分组,在绘制直方图时,如何对数据分组,如何确定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 统计学 第三 样本 数据 特征
