第5章方差分析.ppt
《第5章方差分析.ppt》由会员分享,可在线阅读,更多相关《第5章方差分析.ppt(56页珍藏版)》请在三一文库上搜索。
1、中央财经大学统计学院,第5章 方差分析 Analysis of Variance (ANOVA),5.1 方差分析简介 5.2 单因素方差分析 5.3 双因素方差分析,中央财经大学统计学院 2,学习目标,掌握方差分析中的基本概念; 掌握方差分析的基本思想和原理; 掌握单因素方差分析的方法及应用; 初步了解多重比较方法的应用; 了解双因素方差分析的方法及应用。,中央财经大学统计学院 3,5.1 方差分析中的基本概念和假设,中央财经大学统计学院 4,为什么要进行方差分析?,为了比较四个专业的起薪,我们从某高校四个专业的毕业生中分别随机选择6人调查他们的起薪。如何根据样本数据比较不同专业毕业生的平均
2、起薪?,中央财经大学统计学院 5,要研究的问题,总体1,1(专业=1),总体2,2 (专业=2),总体3,3(专业=3),总体4,4(专业=4),中央财经大学统计学院 6,各个总体的均值相等吗?,中央财经大学统计学院 7,研究方法:两样本的t检验?,用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题需要进行6次t检验 在整体检验中犯第一类错误的概率显著增加: 如果在每次t检验中犯第一类错误的概率等于5%,则在整体检验中等于1-(1-0.05)6=0.2649,中央财经大学统计学院 8,方差分析可以用来比较多个均值,方差分析(Analysis of variance,ANOVA)的主要
3、目的是通过对方差的比较来检验多个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时与t检验等价。 20世纪20年代由英国统计学家费希尔(R. A. Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。,中央财经大学统计学院 9,5.1.1 方差分析中的几个基本概念,因变量:我们实际测量的、作为结果的变量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素(factor)。 因素的不同表现,即每个自变量的不同取值称为因素的水平。,中央财经大学统计学院 10,5.1.1 基本概
4、念,方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方差分析。 研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。,中央财经大学统计学院 11,5.1.1 :固定效应与随机效应模型,固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。 随机效应模型:因素的水平是从多个可能的水平中随机选择的。 固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都是固定效应模型。,中央财经大学统计学院 12,5.1.2:方差分析中的基本假设,(1)在各个总体中因变量都服从正态分布; (2)在各个
5、总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。,中央财经大学统计学院 13,(1)正态性的检验,各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*,中央财经大学统计学院 14,(2)等方差性的检验,经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.832 Levene检验 *,中央财经大学统计学院 15,(3) 其它说明,方差分析对前两个假设条件是稳健的, 允许一定程度的偏离。 独立性的假设条件一般可以通过对数据搜集过程的控制来保证。 如果确实严重偏离了前两个假设条件,则需要先对数据进行数学变换,也
6、可以使用非参数的方法来比较各组的均值。,中央财经大学统计学院 16,5.2. 单因素方差分析,5.2.1 单因素方差分析模型 5.2.2方差分析的基本原理 5.2.3 单因素方差分析的步骤 5.2.4 方差分析中的多重比较,中央财经大学统计学院 17,5.2.1 单因素方差分析模型,单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在起薪的例子中,设张三的专业代码为1,则 张三的起薪 =专业1的平均起薪 +随机因素带来的影响 =总平均起薪 +专业1的平均值与总平均值之差 + 随机因素带来的影响,中央财经大学统计学院 18,5.2.2 :总变差(离差平方和)的分解,SSTSSASSE
7、,中央财经大学统计学院 19,5.2.2 :组间方差和组内方差,各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r,中央财经大学统计学院 20,5.2.2 :组间方差和组内方差,中央财经大学统计学院 21,5.2.2 :方差分析的基本思想,组间方差,如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平
8、对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。,F=,中央财经大学统计学院 22,1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设: 零假设:各总体的均值之间没有显著差异,即 备择假设:至少有两个均值不相等,即,5.2.3 :方差分析的步骤,中央财经大学统计学院 23,5.2.3 :方差分析的步骤,3.根据样本计算F统计量的值。,方差分析表,中央财经大学统计学院 24,5.2.3 :方差分析的步骤,4.确定决策规则并根据实际值与临界值的 比较,或者p-值与的
9、比较得出检验结论。 在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布,中央财经大学统计学院 25,起薪的例子(1),1、根据前面的分析,数据符合方差分析的假设条件。 2、提出零假设和备择假设: H0:1234, H1:1、2、3、4不全相等。,在起薪的例子中,设显著性水平a= 0.05,试分析专业对起薪的影响已否显著 。,中央财经大学统计学院 26,起薪的例子(2),3、计算F统计量的实际值和p值。下面是SPSS计算的方差分析表。由于 ,因此拒绝零假设。,中央财经大学统计学院 27,例2 热带雨林 (1),各水平下的样本容量不同时单因素方差分析的方法也完
10、全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。,一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。,中央财经大学统计学院 28,例2 热带雨林 (2),1、正态性检验:直方图,中央财经大学统计学院 29,例2 热带雨林 (3),同方差性检验:最大值与最小值之比等于33.19 / 4.81=1.34,明显小于4,因此可以认为是等方差的。,中央财经大学统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析
链接地址:https://www.31doc.com/p-2979944.html