假设的检定两个变量的相关.ppt
《假设的检定两个变量的相关.ppt》由会员分享,可在线阅读,更多相关《假设的检定两个变量的相关.ppt(76页珍藏版)》请在三一文库上搜索。
1、第十章,假设的检定 两个变量的相关,第一节,两个定类变项,定类或定序ppt上考至少考一个例题 定距,倘若要研究X与Y这两个变项是否相关,则在抽取了一个随机样本以后便首先运用前面所介绍的方法,简化样本中的资料,从而计算X与Y的相关程度和方向。但是,即使在样本中X与Y是相关的,却可能是由抽样误差所引起,不一定是在总体中也相关。由于我们所关心的是总体的情况不是样本的情况,因此,需要作统计推论,本章的目的是介绍怎样运用样本的资料来检定假设,在总体中X与Y是相关的。 在介绍计算相关系数时,我们强调要特别注意变项的测量层次,同样,在选用相关的检定法时,也要特别注意该检定法所要求的测量层次。,一、交互分类表
2、中变量的相互独立性 研究定类变量之间的关系,实际上就是通过条件分布的比较进行的,下面我们首先通过条件分布表来看一看两变项的相互独立性。,问题是,如何进行比较呢?,根据上表中的每一行,可以比较三代人的喜爱是否有所不同,首先对戏曲来说,三代人的百分比分别是:0.740.250.04; 歌舞为:0.180.500.61; 球赛为:0.080.250.35。 可见,随着代际的年轻化,对戏曲喜爱逐渐下降,而歌舞和球赛越来越受到欢迎,从而得出节目的喜爱与代际相关的结论,也就是变量Y(节目的喜爱)与变量X(代际)是有关的。相关系数计算结果是否如此?,现在设想,如果统计的结果显示,三代人的百分比是不变的,即:
3、 戏曲:0.74、0.74、0.74 歌舞:0.18、0.18、0.18 球赛:0.08、0.08、0.08 那么,又该作出什么结论呢?,显然,如果选择“喜爱节目”的比例对于三代人都是一样的话,那就表示变量“节目”与变量“代际”之间没有关系的,这种情况称变量之间是相互独立的。如果变量间是相互独立的话,通过上例可以看出,必须存在变量的条件分布和它的边缘分布相同。,即:,用一个通式来表示 ,即:,(i=1,2 r,j=1,2 c),上式分子分母均乘以N:,可见,如果交互类表中的变量是相互独立的,边缘分布和条件分布存在以下关系。,二、交互分类表的原假设,交互分类表检验是将总体中变量间无关系,或相互独
4、立作为检验的原假设。即: H0:变量x与变量y无关(总体) H1:变量x与变量y有关(总体) H0:pij =pi*.p*j (i=1,2c;j=1,2r) 由于pi和pj是总体的边缘分布,一般都是未知的,因此,可以用样本中的边缘频率分布作为它的点估计值: 列边缘: i=1,2c 行边缘: j=1,2c 这里小写字母ni,nj,n表示样本频次。,三、交互分类表检验的统计量X2,运用统计量2来进行检验。2检验要求:1)样本是用随机方法抽取的;2)两个变量都是有定类的性质。 交互分类检验的程序和单变量检验是相同的:确定原假设;选择适当的统计量,定出显著性水平后根据样本值进行判断。 交互分类表统计量
5、的确定是通过在原假设成立的条件下,用总体和样本一系列值的比较来进行的,具体步骤是:,求出列联表中各格的期望频次,1)原假设:H0:pij=pi*.p*j 用样本的边缘和求出pi*和p*j,(式中的第二个符号是根据原假设H0得来的。 第三个近似是根据边缘频率分布的点估计值得来的。),Eij=npij=np*i.p*j,于是,在原假设H0成立条件下的期望频次交互分类表有下表1:,不仿设想,在H0成立的条件下,作无数次抽样,每次抽样可得到一个实例的频次交互分类表,如下表2:,比较表1和表2,可以想象如果总体中H0为真的话,那么实例频次列联表的格值和期望频次列联表中的格值相差不多的可能性较大。反之,如
6、果两表的格值差距很大。 上述的讨论可用以下的统计量来表示:,分子取平方是为了取其绝对差值,而分母Eij是为了平衡Eij数值本身的大小,否则,如果Eij本身数值很小的话,则即使(nij-Eij)2与Eij 相比已经很大,但在总平方和中仍然是微不足道。,上述统计量,经过数学计算可知,当n很大,每格Eij都不太小,服从自由度K=(r-1)(c-1)的2分布。 注意,下面就交互分类表的统计量进行讨论: 1.对于22表,由于格数过少,为减少偏差,要作连续性修正,尤其在有某一个或多个格的预期次数等于或小于5时必须修正:,2.以上2检验的讨论,也适用于单变量二项总体或多项总体的假设检验。,(1)二项总体。
7、在单总体假设检验中,曾谈到对于大样本总体成数的假设检验,可用: Z= 作为总体成数的原假设 H0:P=P0的统计量。,但是通过列联表的讨论,可引出另一件与2等价的检验方式:改H0:P=P0(P0为总体成数)。 于是对于样本容量为n的抽样,其理论上期望频次为:E1=np0 而理论上非期望出现的频次为:E2=n(1-p0)。 与此同时,相对应的实际观测值为n1和n2(n1+n2=n)。 引用2检验有: 可以证明,当n较大时,2分布近似地为自由度K=1的2分布,根据连续修正,上述2为:,(2)多项总体,多项分布是单项二项分布的自然扩展,如果变量A共有R类:A1、A2、Ar。 设总体种各类的概率为:P
8、1、P2、Pr。于是总体的原假设H0为:H0:Pi=Pi0 (i=1,2r) 对于样本容量为n的抽样,其理论是期望频次分布为:Ei=npi0。 与此同时,相对应的各类实际观测值为:n1、n2nr。 则2值为: 可以证明, 2近似地满足自由度K=r-1的2分布。,3. 使用统计量2对RC表进行检验,每一格值的Eij要保持在一定数目上。,如果其中有的格值Eij过小,在计算 值时,2值的波动就会过大。 Eij应该取多大,根据要求的精确程度不同,不同研究者给出的限制不同。 对于二项总体,要求np5,n(1-p)5。也就是如果只有两个格值的话,必须要求所有Eij5。 有的研究者认为Eij5的要求适合所有
9、rc的交互分类表。但也有人认为对于rc 交互分类表,Eij3就可以了。另外,还有人指出Eij小于5的格数不应超过总格数20%,当小于5的格值过多会引起判断的失误。,举例:设实例值和期望值共有7个格值 。,从直现来判断,实例值和期望值相差不大,可以接受原有假设。但如何用2值进行显著性检验呢?(=0.05)。,检验表明:有显著性差异。,为什么会出现感觉和X2检验不符的情况呢?主要因为在7个格值中就有3个期望值小于5,占总数的43%。因此2计算值偏大当出现上述情况时,可将期望值偏小的格值合并。,2 =,临界值:,接受H0,作出直观感觉和2检验相符的结论。,例:某镇研究职业代际流动,调查了共140人,
10、其结果如下:,解:H0:子辈职业与父辈职业无关 H1:子辈职业与父辈职业有关,得期望频次表,4.2检验就其检验的内容来看是双边检验,就检验的形式来看,又象右边检验。,从上面所举例中的H0和H1就可以看出,它所判断的内容仅是变量间是否存在关系。至于关系的方向,由于列联表属定类变量,因此是不存在的。但从列联表2的统计量的公式来看,只有期望频次和实测频次的绝对值愈大,才能否定变量间关系的原假设即:22。 因此,列联表检验从形式来看,却又很像右侧单边检验:,X2(r-l)(c-1) ,5. 交互分类的检验是通过频次而不是通过相对频次的比较进行的。,表1的2值: 表2的2值 表3的2值,如果选择a=0.
11、05,查表得: X20.05(1)=3.841=3.84 则表1判断为无显著性差异,表2和表3则判断为有显著性差异,可见,相对频次相同的交互分类表,在统计检验中,其显著性并不相同,特别是当总体中两变量相关并不很大时,如果样本容量较小,很可能呈现无显著性差异,但当样本容量增大时,2将增大,这时虽然列联表的相对频次没有改变,但很可能呈现有显著性差异,这时因为2的临界值并不变化。,通过上面的例子,可以看出,当样本容量增加K倍时,由此可见如果相对频次不变,当样本容量增加K倍时, 2值将增加K倍。,实际上,这也是容易理解的,因为当样本容量增加之后, 如果仍然保持原有的比例的关系,则说明它出于随机误差的可
12、 能性减少,也就是确认其比例关系的把握增大。这也是为什么 相对频次的统计表必须注明调查总数的缘故。,例:某工厂为了解职工对厂内福利是否满意,作如下抽样调查:,依H0及样本边缘次数分布,计算期望频数,临界值:由于a=0.05 ,k=(2-1)(2-1)=1,X20.05(1)=3.84 X2=9.27X20.05(1)=3.84 拒绝H0,接受H1,即男女职工对厂内福利的满意与否是有显著差异的,显著性水平达到0.05。,作业:,1根据某摊贩的上报,每天平均营业额为55元。经过6天的抽查,其营业额为(设营业额满足正态分布): 59.2,68.3,57.8,36.5,63.7,57.3 单位为元 问
13、:原摊贩上报的数字是否可信显著性水平为0.05?,作业,2某学校对新生数学成绩进行摸底检查,自100名经济专业的学生中抽出12份考卷,得平均分数为70分,标准差3分;自50名管理专业的学生中抽取10份考卷,得平均分数为60分,标准差4分,若已知总体服从正态分布且方差相等,问两专业学生之数学成绩是否有显著差别显著性水平为0.01。,3、为研究两种教学方法的效果,选择了6对智商、年龄、阅读能力、家庭条件都相同的儿童进行了实验,结果如下表。问:能否认为新教学法优于原教学法(显著度水平=0.05),作业,4、为了研究饮食习惯与地区之关系。作了共100人的随机抽样调查资料如下表,问饮食习惯是否与地区有关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 假设 检定 两个 变量 相关
链接地址:https://www.31doc.com/p-3140464.html