《计量资料统计推断.ppt》由会员分享,可在线阅读,更多相关《计量资料统计推断.ppt(54页珍藏版)》请在三一文库上搜索。
1、计量资料的统计推断,统计推断:用样本信息推断总体特征。 包括参数估计和假设检验。 参数估计:用样本指标(统计量)估计总体指标 (参数)。,一、抽样分布与抽样误差,1.样本均数的抽样分布与抽样误差,从正态总体N(155.4,5.32)抽样得到的100个 样本均数的频数分布( ),样本均数的分布规律: 1.各样本均数未必等于总体均数。 2.样本均数之间存在差异。 3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。 4.样本均数的变异较之原变量的变异大大缩小。,均数的抽样误差:由抽样造成的样本均数与样本均数之间、样本均数与总体均数之间的差异,称为抽样误差。 样
2、本均数的标准误(standard error of mean,SE):用于描述均数抽样误差大小的指标叫样本均数的标准差,通常也称为样本均数的标准误。它反映样本均数的离散程度,也反映样本均数抽样误差的大小。用 表示。,中心极限定理一:在均数为,标准差为的正态总体中作随机抽样,则样本均数服从正态分布,样本均数的均数为,标准差为 ,即:,在实际应用中,总体标准差常常未知,需要用样本标准差S来估计。即样本均数标准误的估计值为,中心极限定理二:在非正态分布的总体中随机抽样,样本均数的均数仍等于原来的总体均数,样本均数的标准误 ,但是当样本量较小时,样本均数的分布并非正态分布,而当样本量足够大时,样本均数
3、的分布近似正态分布。,例4-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。 解:,标准差与标准误的关系:区别 1.意义:标准差描述个体观察值间变异,即观察值间的离散度。 标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。 2.用途:标准差常用于: 表示观察值之间的波动大小。当资料服从正态分布时,可结合均数估计正常值范围,如计算双侧95%正常值范围。 标准误常用于: 表示抽样误差的大小。估计参数的可信区间,如计算总体均数的95%可信区间。 3.标准差、标准误与样本含量的关系:标准差随着样本含量
4、的增多,逐渐趋于稳定,标准误随着样本含量的增加逐渐减小,若样本含量趋近于总体例数,则标准误趋近于0,抽样误差几乎消失。,联系: 1.标准差与标准误都是变异指标,说明个体值之间的变异用标准差,说明统计量之间的变异用标准误。 2.当样本含量不变时,标准差越大标准误越大,即均数的标准误与标准差呈正比。,二、t 分布,大样本、小样本概念:30、50、100。 量变引起质变:当样本容量较大时,其统计量的抽样分布近似为正态分布。随着N的增大,越来越接近于正态分布(样本均数的分布)。 但当样本量小于100时,抽样分布不能再用正态分布来近似,随着N的减小,与正态分布的差别越来越大,需要用小样本理论来解释(样本
5、均数的分布)。,1.概念 从正态分布N(,2)抽得的样本均数 服从态分布 ,对样本均数 做标准化变换。,英国统计学家W.S.Gosset证明它服从自由度 的t分布,即,t 分布曲线的特征 单峰分布,以0为中心,左右对称,类似于标准正态分布。 自由度越小,则 越大,t 值越分散,曲线的峰部越矮,尾部越粗。 随着自由度逐渐增大,t分布逐渐逼近标准正态分布;当趋于时,t分布就完全成为标准正态分布。故标准正态分布是t分布的特例。,三、假设检验,显著性检验; 科研数据处理的重要工具; 某事发生了:是由于碰巧?还是由于必然的原因?统计学家运用显著性检验来处理这类问题。,假设检验: 1、原因 2、目的 3、
6、原理 4、过程(步骤) 5、结果,1. 假设检验的原因,由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4,不同。因此,X1、X2 不同有两种(而且只有两种)可能: (1)分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性 。 (2)分别所代表的总体均数不同。差别有显著性。,判断是由于何种原因造成的不同,以便做出决策。,2. 假设检验的目的,3.假设检验的原理/思想,反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。 概率论(小概率):如果一件事情发生的概率很小,那么在
7、进行一次试验时,我们说这个事件是“不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但是它一定有犯错误的时候,因为概率再小也是有可能发生的。,4. 假设检验的一般步骤, 建立假设(反证法): 确定显著性水平( ): 计算统计量:u,t,2 确定概率值: 做出推论,(1)建立假设: 检验假设或者称无效假设(null hypothesis),用H0表示, H0假设是假设两总体均数相等。 备择假设(alternative hypothesis),用H1表示。 H1是与H0相反的假设,假设两总体均数不相等。,(2)确定显著性水平(significance level ) 显著性水平()就是
8、我们用来区分大概率事件和小概率事件的标准,是人为规定的。当某事件发生的概率小于时,则认为该事件为小概率事件,是不太可能发生的事件。通常取0.05或0.01。,(3)计算统计量 根据资料类型与分析目的选择适当的公式计算出统计量,比如计算出 u 值 或 t 值。 注意:在检验假设成立的情况下,才会出现的分布类型或公式。,(4)确定概率值(P) 将计算得到的u值或t值与查表得到u或t,比较,得到P值的大小。根据u分布和t分布我们知道,如果|u|u或|t|u,则 P。,(5)作出推断结论 如果p,认为在检验假设H0成立的条件下,得到等于或大于现有统计量u值或t值的可能性大于,不属于小概率事件,则不拒绝
9、H0,差别无统计学意义,结论是不认为两总体均数不相等。 如果p,我们认为在检验假设H0成立的条件下,得到等于或大于现有统计量u值或t值的可能性小于,可判断为小概率事件,则拒绝H0,接受H1,差别有统计意义,结论是两总体均数不相等,或者某一总体均数大于(或小于)另一总体均数。,5. 假设检验的结果,接受检验假设 拒绝检验假设 正确理解结论的概率性(都隐含着犯错误的可能性)。,四、未知总体与已知总体均数的比较,1. 大样本 一般女性平均身高160.1cm。某大学随机抽取100名女大学生,测量其身高,身高的均数是163.74cm,标准差是3.80cm。请问某大学18岁女大学生身高是否与一般女性不同。
10、,目的:比较样本均数所代表的未知总体均数 与已知的总体均数有无差别 计算公式:u(统计量)=, 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数; (3) 可得到该样本标准误; (4) 样本量不小于100。,例题: (1) 一个总体均数:160.1cm; (2) 一个样本均数:163.74cm; (3) 可计算出样本标准误:3.8/100=0.38; (4) n=100;,假设检验: 建立假设: 检验假设:某校女大学生身高均数与一般女子身高均数相同; H0:=0; 备择假设 :某校女大学生身高均数与一般女子身高均数不同; H1:0 确定显著性水平():0.05, 做出推论:
11、u=9.581.96, p0.05=,小概率事件发生了,原假设不成立;拒绝H0 , 接受H1,可认为:某校女大学生身高均数与一般女子身高均数不同;某校女大学生身高均数与一般女子身高均数差别有显著性。, 计算统计量:u 统计量: u=, 确定概率值: |u|=9.58,u=1.96,uu,p=0.05;,2、小样本 已知中学一般男生的心率平均为74次/分钟。为了研究常参加体育锻炼的中学生心脏功能是否与一般的中学生相同,在某地区中学生中随机抽取常年参加体育锻炼的男生16名,测量他们的心率,结果平均心率为65.63次/分,标准差为7.2次/分。有体育锻炼的男生心率是否与一般男生不同?,目的:比较一个
12、小样本均数所代表的未知总体均数 与已知的总体均数有无差别。 计算公式: t 统计量:t= 自由度:=n-1, 适用条件: (1)已知一个总体均数; (2)可得到一个样本均数及该样本标准误; (3)样本量小于100; (4)样本来自正态或近似正态总体。,例题: 已知: (1) 一个总体均数:74次/分 ; (2) 一个样本均数:65.63次/分 ; (3) 可计算出样本标准误:7.2/16=1.8 (4) n=16100;,假设检验: 建立假设: 检验假设:常参加体育锻炼的中学男生的心率与一般中学生相等; H0:=0; 备择假设 :常参加体育锻炼的中学男生的心率与一般中学生不同;H1:0 确定显
13、著性水平():0.05, 计算统计量: t= : t=4.65 确定概率值: n=16, 自由度=n1=15, t0.05(15) = 2.131 tt0.05(25) , p0.05 做出推论: p0.05, 小概率事件发生了,原假设不成立;拒绝H0 , 接受H1,可认为:常参加体育锻炼的中学男生的心率与一般中学生不同;常参加体育锻炼的中学男生的心率比一般中学生心率慢;常参加体育锻炼的中学男生的心率与一般中学生差别有显著性。,五、完全随机设计两总体均数的比较,例题: 一个工作组调查了两个县农民住房面积,试比较这两县农民人均住房面积(T-test-Ex1.sav)。,目的:由两个样本均数的差别
14、推断两样本所代表的总体均数间有无差别。 计算公式及意义: t统计量: t= 自由度= n1+n2-2, 适用条件: (1)已知/可计算两个样本均数及它们的标准差 ; (2)两个样本之一的例数少于100;,例题: 已知: 一个样本: 均数31.73, 标准差3.51; 另一个样本:均数34.17, 标准差1.96; (2) n1=30; n2=30,假设检验: 建立假设: 检验假设:两县农民人均住房面积相同; 备择假设 :两县农民人均住房面积不同; 确定显著性水平():0.05, 计算统计量:t 统计量: t=3.34; 自由度:30+30-2=58 表中:t0.05(58)=2.026 确定概
15、率值:tt0.05(58),p0.05; 做出推论: 因为p0.05, 拒绝H0: 认为两县农民人均住房面积不同。,六、配对设计资料均数的比较,什么是配对设计资料:将可能影响指标的一些特征相同或近似的两个个体配成一对,然后按照随机化方法将每个对子内的两个个体用不同的两种方法进行处理。对处理的结果进行分析。,1比较目的:通过对两组配对资料的比较,判断不同的处理效果是否有差别,或某种治疗方法是否起作用。 2公式: t = = 自由度:=对子数-1 3.适用条件: 将人或动物进行配对,配好的每对个体分别随机地分到两个不同的处理组中去,接受不同处理。 观察同一批病人在治疗前后的变化,治疗前的数值和治疗
16、后的数值也是配对资料。 同一批病人或动物用不同的方法处理。,例题:为考察一种新型透析疗法的效果,随机抽取了10名病人测量透析前后的血中尿素氮含量如下表,请根据本实验资料对此疗法进行评价(数据见下表) 。,H0:d=0 H1:d0 确定显著性水平 =0.05 计算统计量: t=7.826 确定概率:=10-1=9。查表t0.05(9)=2.262 t=7.826t0.05(9) p0.05 判断结果:因为p0.05,故拒绝检验假设H0,10名病人透析前后血中尿素氮含量差异有显著性,即透析可以降低血中尿素氮含量。,1. 正确理解假设检验的结论(概率性) 假设检验的结论是根据概率推断的,所以不是绝对
17、正确的: 当p, 不能拒绝H0, 不能接受H1,按不能接受H1下结论,也可能犯错误;,七、均数假设检验的注意事项,2. 第I类错误和第II类错误 假设检验的结果有两种: (1)当拒绝H0时,可能犯错误,可能拒绝了实际上成立的H0,称为类错误(“弃真”的错误),其概率大小用表示。 (2)当不能拒绝H0 时,也可能犯错误,没有拒绝实际上不成立的H0, 这类称为II类错误(“存伪”的错误),其概率大小用表示,值一般不能确切的知道。,II 类错误的概率 值的两个规律: 1.当样本量一定时, 愈小, 则愈大,反之; 2.当一定时, 样本量增加, 减少。,3.统计学中的差异显著或不显著,和日常生活中所说的差异大小概念不同(不仅区别于均数差异的大小,还区别于均数变异的大小)。 4.其它注意事项 选择假设检验方法要注意符合其应用条件; 当不能拒绝H0时,即差异无显著性时,应考虑 的因素:可能是样本例数不够; 单侧检验与双侧检验的问题,
链接地址:https://www.31doc.com/p-2922675.html