第3章数据分布特征的描述.ppt
《第3章数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《第3章数据分布特征的描述.ppt(63页珍藏版)》请在三一文库上搜索。
1、统计学,毛春元 主讲,3-2,第三章 数据分布特征的描述,第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度,3-3,第一节 统计变量集中趋势的测定,一、测定集中趋势的指标及其作用 二、数值平均数 三、众数与中位数,3-4,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。,测度集中趋势的指标有两大类: 数值平均数是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; 位置代表值根据数据所处位置直
2、接观察来确定的代表值,主要有众数和中位数。,3-5,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响, 在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。,3-6,二、数值平均数,(一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数 把每项数据直接加总后除以它们的项
3、数。 通常用于对未分组的数据计算算术平均数。 计算公式:,3-7,例 3-1,解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):,若采用简单平均:,分组数据不能简单平均 !因为各组变量值的次数不等!,3-8,2加权算术平均数,加权算术平均数的计算公式:,正确的计算是:,加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi ).,3-9,权数(fi ,也称权重),权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。 可以是绝对数形式,也可以是比重形式(如频率)来表示。 事实上比重权数更能够直接表明权数的权衡轻重作用的实质。 当权数完全
4、相等(f1 =f2 = fn)时,加权算术平均数就成了简单算术平均数。,3-10,3由组距数列计算算术平均数,要点: 各组变量值用组中值来代表。 假定条件是各组内数据呈均匀分布或对称分布。 计算结果是近似值 .,解:平均使用寿命为:,3-11,4对相对数求算术平均数,由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。,权数的选择必须符合该相对数本身的计算公式。 权数通常为该相对数的分母指标。,3-12,5算术平均数的主要数学性质,(1)算术平均数与变量值个数的乘积等于各个变量值的总和。,(2)各变量值与算术平均数的离差之总和等于零。,(3)各变量值与算术平均数的离差平方之总和
5、为最小。,3-13,(二)调和平均数(Harmonic mean),调和平均数也称为倒数平均数。 各变量值的倒数(1/xi)的算术平均数的倒数. 其计算公式为:,3-14,(续),社会经济统计中所应用的调和平均数通常是加权算术平均数的变形, 已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算术平均数通常可变形为调和平均数形式来计算。 【例3-4】解:,3-15,(三)几何平均数(Geometric mean),几何平均数 n个变量值连乘积的n次方根。 简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。 主要用于计算现象的平均发展速度, 也适用于对某些具有环比
6、性质的比率求平均.,3-16,【例3-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。 解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:,例:某笔投资的年利率是按复利计算的。25年的年利率分配是:1年为3%,4年为4%,8年为8%,10年为10%,2年为15%。求平均年利率? 解: 问:如果是按单利计算呢?,3-18,三、众数与中位数,(一)众数(Mode) 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 如表3-2
7、中年龄的众数值MO25。 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 可用来测度定性变量的集中趋势; 销售量最大的产品颜色是“白色”,则有M0“白色” 可以度量定量变量的集中趋势。 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。,3-19,组距数列中众数的确定,先找到众数组。 在等距数列中,众数组就是次数最多的组; 在异距数列中,众数组应是频数密度最大的组。 根据众数组与其相邻两组的次数差来推算。 其近似公式为:,下限公式:,上限公式:,3-21,(二)中位数(Median),中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数 若数据项数是奇
8、数,则正好位于中间的数值就是中位数; 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me =1500。 若数据项数是偶数,则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。,3-22,由组距数据计算中位数,先确定中位数组,即中间位置(用f/2来计算)所在的组。 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。 计算公式为:,下限公式:,上限公式:,例:某地区某年农民年收入的分布数列:,解:众数所在组是700800,代入公式:
9、讨论:1)众数组的次数与相邻组的次数相等,则Mo=? 2)众数组下限前一组次数小于上限,则Mo偏向上限还是下限?相反又如何?,2)中位数的位置为3000/2=1500,240+480+1050正好大于1500,中位数所在组是第三组,3-26,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。 十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。 百分位数是将数据由小到大排序后,位于全部数据1/100位置上的数值。 中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。 分位数与其它指标结合,可以更详细地反映数据的分布特征。,3-
10、27,箱线图(boxplot),箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。 利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。,3-28,(三)众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件: (1)数据项数众多; (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和
11、定量数据,众数适用于所有形式(类型、计量层次)的数据,3-29,(续),4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。,3-30,算术平均数和众数、中位数的数量关系,在对称分布中,三者相等.即: 均值 = Me =Mo;,在左偏分布中,一般有: 均值MeMo,在右偏分布中,一般有:Mo Me 均值。,皮尔生经验公式:在轻微偏态时,三者的近似关系:,3-31,第二
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 描述
链接地址:https://www.31doc.com/p-2254702.html