第3章样本数据特征的初步.ppt

资源ID：2549616 资源大小：698.51KB 全文页数：64页
资源格式： PPT 下载积分：8元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要8元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

第3章样本数据特征的初步.ppt

第3章样本数据特征的初步分析,管理统计学谢湘生广东工业大学管理学院,提示,如何将你收集的数据中的信息概括或集中起来,3.1 样本数据结构的基本特征：频次与频率,3.1.1 频次与频率的基本概念,频次(Frequency)：在样本数据集合中，同样的数据值（样本值）出现的次数。频率(Percentage或Relative Frequency) 某样本值的频率=该样本值出现的频次/该数据集合的数据总数,频次与频率的概念适用于所有测度级别的数据,例 3.1.1,某商品在抽样商店的单价（单位：元）,某商品在不同商店价格排序结果,某商品价格出现的频次、频率统计表,例 3.1.2,某单位16人受教育程度,某单位职工受教育程度的结构,例 3.1.3,家具基色调出现的频次,数据集合中所有取值不同的数据出现的频率，称为该数据集合的频率分布,3.1.2 观察样本数据基本特征（频次和频率）的图形方法,1. 表示频次和频率的饼图(Pie Chart),用饼图表示适用于所有测度等级的数据。但是要求不同的样本值的个数（即不重复的样本值个数）不是太多。,表示频次和频率的饼图的绘制方法,（1）画一个适当大小的圆，然后在圆中对每一个不同的样本数据值画一个具有适当圆心角的扇形。,（2）每一个不同样本值所占据扇形的圆心角的大小由下式计算：,某样本值对应的圆心角的大小=该样本值的频率×3600,某商品标不同价格的商店数（频次）,某单位职工受教育程度的比例（频率）,家具基色调使用比例（频率）,饼图主要用于表示分类变量的频率（或频次）结构，但须注意分类变量不重复的取值不能太多。,用SPSS作的饼图,未经编辑,经过编辑,2. 表示频次和频率的条形图,表示频次和频率的条形图的构成是,（1）横坐标表示样本数据的不同取值。如果样本数据的测度是顺序级以上的，横坐标上的样本数据就应该从小到大排列。如果是刻度级的数据，还应注意各数据刻度保持一致的比例。（2）纵坐标表示相应样本值出现的频次或频率,条形图常用于表示分类变量数据集合的频次（或频率）结构，但分类变量不重复的取值也不能太多。,注: 利用Excel作图, 对颜色进行了编辑.,3.1.3 样本数据集合的基本特征的延伸：累积频率(Cumulative Percentage),1.累积频率的概念与表格表示,对数据测度在顺序级以上的样本数据，设x1 x2 xm, 是样本数据集合中的不重复的样本值。m n, n是样本数据集合中样本值的总个数。若把样本值小于等于某个样本数据xi的频率(Percentage)都累加起来，就得到“小于等于xi”的累积频率。,商品价格 xi的累积频率,受教育程度xi的累积频率,3.2 观察刻度级样本数据结构的茎叶图与直方图方法,3.2.1茎叶图(Stem-and Leaf Plot)的概念与作法 1. 茎叶图的基本概念与适用范围,茎叶图适用于刻度级的样本数据，不适用于名义级的样本数据。顺序级的样本数据本质上是半定量的。如果一定要用茎叶图来表示，也是可以的，但它不能比条形图提供更多的信息。,茎叶的基本含义是，按照某个一致的规则，把所有的样本值分成“茎节”和“叶”两个部分。“茎节”在左，“叶”在右。“茎节”、“叶”之间用小数点隔开。,例如若对某个样本数据集合，规定样本的百位数开始，左边的数字为“茎节”（这时称“茎节”的宽度为100），其余右边的数字则为“叶”。若912、634、123、1021分别是该集合中的样本数据，则,明显地，样本值=茎节.叶×茎节的宽度,将所有的样本数据的不同“茎节”按从小到大的顺序连接起来，就构成了该样本数据集合的“茎”。样本数据“茎节”的宽度就是样本数据集合的“茎”的宽度。确定“茎节”宽度的原则：样本数据集中，“茎节”必须是有变化的。,2.茎叶图的基本作法,（1）依据样本数据集合中数字的大小，确定“茎”的数字位和“叶”的数字位；（2）把样本数据集合中的所有样本数据，分成“茎节”、“叶”两部分；（3）把样本数据集合中的所有“茎节”，从小到大，从上到下纵向排列，并在“茎节”后标出小数点，小数点纵向对齐；（4）依次将数据集合中的所有“茎节”相同的数据取出来，把这些数据的“叶”，按从小到大的顺序，排列在这个“茎节”后小数点的右边，直到这个样本数据集合中的所有数据处理完。,例 3.2.1,171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183,某班级男生的身高数据（单位：厘米）,频次茎 & 叶 2 16 . 03 2 16 . 58 3 17 . 012 8 17 . 55667788 4 18 . 0123 2 18 . 56 1 19 . 0 茎宽度: 10 茎节长度： 5,茎节长度=允许的最大叶值允许的最小叶值+1 每个茎节长度都应相等,“L”子茎节（低段子茎节）,“H”子茎节（高段子茎节）,为了避免“叶”过长，还可将茎节再分为几个(通常是2个)子茎节。,3.2.2 直方图(Histogram)的概念与作法,1 直方图的基本概念与适用范围,所谓直方图就是将样本数据集合（对应着横轴的一个区间）分成若干组，（通常是采用等分上述区间的方法进行分组），然后计算出每组所含样本数据的个数（频次）或每组所含样本数据个数占总个数的比例（频率），并将这一结果在直角坐标系中表示出来。,与条形图的区别：条形图不对样本数据分组，而直方图必须对样本数据分组。因此条形图适合不重复的样本较少的情形，直方图可用于不重复样本数据较多的情形。条形图可以看成直方图的特例。,2. 数据分组,数据分组一般采用等区间长度的原则。,数据分组一般先确定各组区间的长度，然后用下式确定组的个数：,其中R表示用四舍五入法，对括号中的数字取整。,也可先确定组的个数，然后再来确定区间的长度。但这种做法相对较少使用。,确定分组区间长度的方法,以某个量纲单位为初始区间长度(d),区间个数合适？,多了,dkd,结束,少了,选择k:k1,dhd,选择h:0h1,合适,其中k，h的选择应注意，要使最终得到的区间长度便于在坐标轴上标示出来。,确定分组区间起点位置的方法,首先把样本数据集合中的最小数据y以取定的量纲为单位取整y；取满足kd1个量纲单位的最大整数k，并以y+0，y+d，···，y+kd为备选的最小分组区间中点的位置；选出上述备选中点坐标中与y的差的绝对值最小者，并以该点为最小分组区间的中点。再由d值的大小可确定该区间的起点。,注：若某个数据恰好位于两个分组区间的分界点上，则习惯上将其划归右边的区间,关于直方图的几个概念,组中值：就是一个分组区间中心位置的坐标x： x =（组上界+组下界）/ 2 组频次：组内包含的样本数据的个数组频率：组频次 / 样本数据集合中数据的个数,绘直方图：,（1）在横轴上，从小到大依次标出分组区间的边界；,（2）沿纵轴方向，依据各区间的组频次或组频率的大小，分别绘制不同高度的矩形。,身高频次条形图,身高频次直方图,Excel的直方图,R语言中的直方图,SAS中的直方图,3.3 样本数据的位置特征：对数据中心的描述,样本数据集合的另一重要特征，就是样本数据集合中心所处的位置，它在一定程度上反映了样本集合的位置。样本数据集合中心通常用下面三个概念刻画。样本中位数样本众数样本均值,3.3.1 样本众数(Sample Mode),样本众数的定义1及例子,样本众数的定义1: 样本数据集合中出现频次最高的那个样本值，称为样本众数，简称为众数。,按此定义，对给定的样本数据集合，样本众数可能不唯一。若样本众数是唯一的，称为单一众数，否则称为复众数。,例如某单位职工受教育程度的结构为（顺序级数据）,则对应的样本数据集合的众数为“大学”。,家具基色调出现的频次（名义级数据）,则对应的样本数据集合的众数为“Y（即淡黄褐色）”。,某商品价格出现的频次（刻度级数据）,对应的样本数据集合的众数为9.99、10.00和10.01（复众数）,样本众数定义2及例子,样本众数的定义2：对刻度级的样本数据集合，其直方图中，最高的矩形（即直方图中的峰peak)对应的数据区间，称为该数据集合的众数区间，简称为众数。,如右图表示的数据集合的众数区间为,1752.5(厘米),众数区间也有单一众数区间与复众数区间之分。,3.3.2 样本中位数(Sample median),设对样本集合中所有数据的排序结果为x1 x2 xn, n为样本容量，则在上述排序的序列中，处于“正中间位置”上的数据，称为样本中位数。,当样本数据集合中的所有数据排序后，正中间位置的数据即中位数Me按下式确定：,正中间位置：,数据集合（已经排序）,17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为Me=x4=17.5,数据集合（已经排序）,16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为,对名义级数据，不考虑中位数；对顺序级数据，只在样本容量n为奇数时，考虑中位数。,3.3.3 样本均值(Sample Mean),样本均值仅适合于刻度级数据。,样本数据集合的样本均值（又称为样本平均值），是把样本数据集合中所有数据加起来，然后再除以样本数据集合中样本个数（样本容量）所得到的结果。样本均值的数学定义为：,式中， x1 , x2 , , xn, n为样本容量,均值、中位数与众数的区别,*中位数的使用是有条件的。,有一个叫做萨姆的工人到吉斯莫先生的工厂应聘，吉斯莫对他说：我们这里报酬不错，平均薪金每周300元。你在学徒期间每周得75元，不过很快就可以加工资。萨姆感到工资水平不低，自己好好干，至少可以很快接近平均工资，便应约上班了。但不久，萨姆就觉得上当了。因为他发现竟然没有一个工人的工资多于100元。吉斯莫先生是否骗了萨姆？,中位数,众数,数据中心与数据分布形状的关系,众数,中位数,均值,左偏分布,右偏分布,对称分布,3.4 样本数据的离散特征,3.4.1 对样本数据的离散特征的点状描述：极值、四分点和百分位点 1. 极大值(maximum)与极小值(minimum),极大值是数据集合中的最大值。极小值是数据集合中的最小值。这两个样本值从一定视角反映了样本数据集合中样本值的离散程度，是一种最粗糙的测度。极值的概念适用于顺序级以上的数据。,2. 下四分点(Lower Quartile)与上四分点(Upper Quartile),（1）概念,下四分点将排序以后的数据集合，分为左右两部分，使左边部分包含25%的样本总个数，右边部分包含75%的样本总个数。,上四分点将排序以后的数据集合，分为左右两部分，使左边部分包含75%的样本总个数，右边部分包含25%的样本总个数。,上、下四分点在一定意义上反映了样本数据的离散程度。,（2）下、上四分点的位置,正中间位置：,下四分点的位置：,上四分点的位置：,（3）下、上四分点的值,当下、上四分点位置为整数时，相应整数位置上的样本值就分别为下四分点Q1的值和上四分点Q3的值。当上述位置计算结果不为整数时，下、上四分点位置不是整数时，下、上四分点的值分别由下两式确定,Q1 = Q1位置左边的样本值 +（Q1位置右边的样本值 - Q1位置左边的样本值）× 0.25,Q3 = Q3位置左边的样本值 +（Q1位置右边的样本值 - Q1位置左边的样本值）× 0.75,例 3.4.1 考虑如下的样本数据集合,99.8，99.9，100.1，100.2,n=4，下四分点、中位数、上四分点的位置分别为,(4+1) × 0.25=1.25,(4+1) × 0. 5=2.5,(4+1) × 0.75=3.75,Q1的位置,Q2的位置,Q3的位置,现计算下、上四分点Q1、Q3的值和中位数Q2的值.,由前面给出的中位数的计算公式，有,类似地，由下、上四分点的计算公式，得,由于本例中需要对数据进行计算才可得到下、上四分点以及中位数，因此该计算仅适合于刻度级数据。反之若n+1可以被4整除，则得到的下、上四分点及中位数位置是整数，于是下、上四分点以及中位数就是相应位置的样本数据。见例3.4.2。这时这些概念也适合顺序级数据。,3. 上、下百分位点(Percentile),仿照上、下四分点的概念，不难给出上、下十分点的概念。,下十分点把经过排序后的样本数据集合，分成左右两部分，使左边部分包含10%的样本数据，右边包含90%的样本数据。,上十分点把经过排序后的样本数据集合，分成左右两部分，使左边部分包含90%的样本数据，右边包含10%的样本数据。,上、下十分点也在一定意义上反映了样本数据的离散情况。进而可以定义任意小于50%的上下百分点，并借此反映一定意义上的样本数据的离散情况。,3.4.2 对样本数据离散特征的区间描述：极差、四分位距与离差,由于需要涉及样本数据的加减运算，因此区间描述仅适合于刻度级数据。,1. 级差(Range),级差（R）被定义为样本数据的极大值与极小值的差，即,R = 极大值 - 极小值,它反映了样本数据在数轴上的分布范围。,样本离差被定义为每个样本xi与样本均值之差：,2. 四分位距(Interquartile Range),四分位距(Iqr)指的是样本排序后的上四分点与下四分点的差：,Iqr = Q3 - Q1,它反映了样本数据集合中样本值处于中间的一半数据的分布范围。,3. 样本离差(Sample Deviations)与离差平方和(Sum of Squared Deviations),样本离差又称为样本中心化数据。常用离差平方和的方式来反映样本数据对均值总偏离的情况。,3.4.3 离散状况的统计描述：样本方差(Sample Variance),样本方差s2定义为离差平方和与n 1的比值，即,它反映了样本数据对均值偏离的平均情况。也常用样本标准差(Standard Deviations)s来反映样本数据对均值偏离的平均情况。,补充：斜度(Skewness),偏斜度的计算公式定义如下：,式中：s 为样本的标准偏差。,若数据分布完全对称，则斜度为零。但数据分布如果偏左分布，则斜度为正；否则当数据偏向右分布时，斜度为负。,补充：峰度(Kurtosis),峰值的计算公式如下：式中： S 为样本的标准偏差。,峰度的计算公式如下：式中：s 为样本的标准偏差。,正态分布的峰度为0。一组数据的峰度为正，则该组数据的直方图的平滑曲线的峰比对应的正态曲线高；反之，若峰度为负，则较正态曲线的峰要低。,某班级男生身高数据的描述性统计结果（数据见p81，或教材所附数据文件“CH3CH4茎叶直方箱男生身高22.sav”）,3.5 样本数据特征的综合表述：箱形图,箱形图简明地综合表达了样本数据的中心和离散两方面的特征，它虽不如茎叶图和直方图那么详细，但能扼要地显示出样本数据中心、范围、分布的主要特征（如偏斜程度）等。由于涉及长度概念，因此箱形图仅适用于刻度级数据。,箱形图的基本构造,下四分点,上四分点,中位数,四分位距,矩形箱体,极小值,极大值,胡须,修正的箱形图,四分位距,矩形箱体,外围点范围,非外围点范围,1.5倍四分位距,箱形图的例子1,某班级男生身高的数据,171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183,箱形图的例子2,设上述班级新转来一个身高213厘米的巨人。于是现在的身高数据是,171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183 213,

注意事项

本文（第3章样本数据特征的初步.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。