《第三章数据的描述性分析.ppt》由会员分享,可在线阅读,更多相关《第三章数据的描述性分析.ppt(26页珍藏版)》请在三一文库上搜索。
1、,第三章 数据的描述性分析,本章将讨论的是数据的总量和相对关系的测度,数据的集中趋势、离散趋势及其形态的测度。,一、绝对数和相对数 二、集中趋势的测定 三、离散趋势的测定 四、数据的形态测定,主要内容,一、绝对数和相对数,(一)绝对数,绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。,(3)是计算相对指标和平均指标的基础。,作用,概念,例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。,(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力,(2)是进行经济核算和经济活动分析的基础,分类,按反映总体的内容分,按反映的时间状态分,按
2、计量单位分,变量总值 单位总数,时期数 时点数,实物量 价值量,相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。,种类,计划完成相对数,结构相对数,比较相对数,强度相对数,动态相对数,(二)相对数,概念,五种相对数指标的比较,不同时期 比 较,动 态 相对数 注: 又称发展速度,强 度 相对数 注: 复名数 有正逆指标,不同现象 比较,不同总体 比较或者同一总体的两个不同部分,比 较 相对数,同一总体中,部分与总体 比 较,实际与计划 比 较,结 构 相对数,计划完成 相对数 注: 有正逆指标,同一
3、时期比较,同类现象比较,(1)正确选择对比的基数; (2)必须注意统计的可比性; (3)相对指标要与总量指标相结合。,应用原则,二、集中趋势的测定平均数,概念,表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。,数据集中区,变量x,常用的几种平均数,概 念 计算 公 式 特 点,优点:容易理, 便于计算 灵敏度高 稳定性好 和 缺点:易受极值影响 在偏斜分布和U形分布中, 不具有代表性,1. 算术平均数 ( ),一个变量的所有观察值相加,再除以观察值的个数,简单:,加权:,权数解释,权数(Weighted),是分布
4、数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。,(1),(2),(3),X,4,5,6,合计,频数,频率(%),10,20,10,25.0,50.0,25.0,40,100.0,X,4,5,6,合计,频数,频率(%),20,40,20,25.0,50.0,25.0,80,100.0,X,4,5,6,合计,频数,频率(%),20,10,10,50.0,25.0,25.0,80,100.0,=5,=5,=4.75,频率分布变了,均值也变。因此,严格地说, 权数应指频率。,算术平均数的变形,数学上称其为调和平均数,只是用这种形式时,变量的取值不
5、能为0。,求某种商品三种零售价格的平均价格,调和平均,价格(元),3.3,2.5,2.0,合计,销售额(元),10,10,10,30,常用的几种平均数,概 念 计算 公 式 特 点,优点:灵敏度高 受极值影响小于 和 适宜于各比率之积为总比率的变量求平均 缺点:有“ 0”或负值时不能计算 偶数项数列只能用正根,2. 几何平均数 ( ),几个变量值连乘积的n次根,简单:,加权:,概 念 计算 公 式 特 点,3. 中位数 (Me),是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数,上限公式:,下限公式:,优点:容易理解, 不受极值影响 适宜于开口组资料和些不能用数字测定
6、的事物 缺点:灵敏度和计算功能差 间断数Me,常用的几种平均数,常用的几种平均数,概 念 计算 公 式 特 点,4. 众数 (Mo),是一种位置平均数,是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。,上限公式:,下限公式:,优点:容易理解, 不受极值影响 缺点:灵敏度和计算功能差 稳定性差 具有不唯一性,25,30,35,40,45,50,5,10,15,f (人数),月收入:元,36.11,d1,d2,55,位置平均数与算术平均数的关系,1.众数适用于所有的定性数据和定量数据 中位数适用于定性数据中的定序数据和定量数据 算术平均数只适用于定量数据,2.定量数据:若
7、是钟形分布,三种集中趋势指标一般 都可适用。而对J形分布,反J形分布和U形分布,中位数和算术平均数没有任何意义。,3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息 。,4.对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:,X,f,X,f,X,f,(对称分布),正偏态分布(右),负偏态分布(左),1,2,1,2,应用平均指标的原则,1必须是同质的量方可平均;,2总平均数与组平均数结合分析;,3集中趋势与离散趋势结合分析,三、离散趋势的测定,概念,标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。,(1)反映变量分布的离散趋势;,(3)是对事物
8、发展均衡性的量度。,(2)是对平均数的代表性程度的量度;,作用,常用的几种标志变异指标,概 念 计 算方法 特 点,是非众数组所占比重,1异众比率,如百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。,异众比率是反映定名数据离散趋势的唯一指标,这个指标越小,说明数据的离散程度越小,集中程度越大,常用的几种标志变异指标,概 念 计 算 特 点,数列中最大值 与最小值之差,2极差 (R),R=最大值-最小值R=最大组的上限-最小组的下限,优点:容易理解, 计算方便 缺点:不能反映全部数据分布状
9、况,3四分位差,(M3- M1)/2,在反映数据的离散程度方面比全距较为准确,但仍显粗略,是一批数据中的第三四分位数与第一四分位数之差的二分之一,常用的几种标志变异指标,概 念 计 算 特 点,4平均差 (AD),各标志值与 均值离差绝 对值的算术 平均,简单:,加权:,优点:反映全部数据分布状况 缺点:取绝对值 数字上 不尽合理,所有观察值与平均数离差平方平均数的平方根,亦称均方差。标准差的平方即为方差。,5方差(2 s2) 和 标准差( s),优点:反映全部数据分布状况,数字上合理。 缺点:受计量单位和平均水平影响,不便于比较,简单:,加权:,概 念 计 算 特 点,6标准差系 数 (V)
10、,标准差与均值之商,是无量 纲的,两列数据的分布进行离散程度的比较,当它们的平均数不等、计量单位不同时则应消除平均数不同和计量单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势,方差(2)和标准差()是应用最广的标志变异指标,常用的几种标志变异指标,四、数据的形态测定,偏度:是测定数据分布的偏斜程度的指标.。,定义M=(X-A)k/n为变量X关于A的k阶矩。,当A=0,即以原点为中心,上式称为“K阶原点矩”。,K=1,2,3时,有:,一阶原点矩M1=(X-0)1/n=X/n 二阶原点矩M2=(X-0)2/n=X2/n 三阶原点矩M3=(X-0)3/n=X3/n,当A= ,即以 为
11、中心,上式称为“K阶中心矩”。,K=1,2,3时,有:,一阶中心矩 二阶中心矩 三阶中心矩,所以,m3可以测定偏度。为消除量纲,转变为系数,再除以3。,0正偏态,峰度:是用来反映数据分布曲线顶端的尖峭或扁平程度的指标。,3尖顶曲线,注:在EXCL等软件中输出的峰度是在此基础上再减3。,五数概括 :即最小值xmin 、最大值xmax 、第一四分位数M1、中位数Me和第三四分位数M3,五个数之间的关系,确定数据分布形态的方法:,数据是完全对称 :,数据是不对称 :,最小值xmin到中位数的距离等于中位数到最大值xmax的距离 。,从xmin到M1的距离等于M3到xmax的距离。,从xmax到中位数的距离大于中位数到xmin的距离。,从M3到xmax的距离大于从从xmin到M1的距离。,右偏分布,从xmin到中位数的距离大于中位数到xmax的距离。,从xmin到M1的距离大于M3到xmax的距离。,左偏分布,箱线图:是基于五数概括的图示方式,使得集中趋势、离散趋势和偏态更为直观。,
链接地址:https://www.31doc.com/p-2557208.html