直线相关与回归Linearcorrelationandregression.ppt
《直线相关与回归Linearcorrelationandregression.ppt》由会员分享,可在线阅读,更多相关《直线相关与回归Linearcorrelationandregression.ppt(51页珍藏版)》请在三一文库上搜索。
1、直线相关与回归 Linear correlation and regression,直线相关与回归,前面介绍的统计方法都只涉及单一变量,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显著为中心环节。 医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况 . 如:同一批水样的浊度与透光率,同一批人的年龄与血压以及身长、体重与胸围等。,如何研究变量之间的关系?,在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。 相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说
2、明一变量依另一变量的消长而变动的规律用回归方程。,数量关系的特点?,函数关系: 确定。例如园周长与半径:y=2r 。一一对应关系。 回归关系:不确定。例如血压和年龄的关系。 具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。,直线相关 linear correlation,相关 - 变量间的互依关系 直线相关(linear correlation)也叫简单相关(simple correlation),用于双变量正态分布资料。 为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图,各种相关关系示意图,Posit
3、ive correlation, Perfect positive correlation, Negative correlation, Perfect negative correlation, 6. 7. Zero correlation, 8. Non-linear correlation,一、直线相关系数 r 相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。 又称积差相关系数(coefficient of productmoment correlation),或 Pearson 相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。 r -样
4、本相关系数 -总体相关系数,相关系数 linear correlation coefficient,相关系数的意义,相关系数:说明具有直线关系的两变量间,相关方向与密切程度的统计指标。 相关系数 r 没有单位,在-1+1范围变动, 符号表示相关的方向,大小表示相关的程度。 r 0,正相关;r 0,负相关;r= 1, -1, 完全相关; r= 0, 零相关(无直线关系),但不能表达直线以外的关系(如各种曲线)。,正相关见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦随Y的增加而增加,此时1r0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图2),称为完全正相关
5、。 负相关见图3,各点分布亦呈椭圆形,Y随X的增加而减少,X也随Y的增加而减少,此时0r-1。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图4),称为完全负相关。 生物现象中,完全正相关或完全负相关甚为少见。,无相关见图5、6和7,X不论增加或减少,Y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与X轴或Y轴平行,即X与Y的消长互不影响,这种情况仍为无相关。 非线性相关见图8,图中各点的排列不呈直线趋势,呈某种曲线形状,此时r0,称为非线性相关。 |r|=0.7, 高度相关; 0.4=|r|0.7,中度相关; |r|0.4, 低度
6、相关;,X的离均差平方和 Y的离均差平方和 X与Y的离均差乘积之和,,相关系数的计算,举例:,测定15名健康成人血液的凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?,1绘图,将第(2)、(3)栏各对数据绘成散点图。,2求出X、Y、X2、Y2、XY X=15.1 Y=222 XY=221.7 X2=15.41 Y2=3304 3. 代入公式,求出r值。r=-0.9070 负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值-0.9070表示这一关系的密切程度。 此相关系数是否显著,则要经过下面的分析。,虽然样本相关系数r可作为总
7、体相关系数的估计值,但从相关系数=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差,故不一定是0,要判断不等于0的r值是来自=0的总体还是来自0的总体,必须进行显著性检验。 r0原因: 由于抽样误差引起,=0 存在相关关系, 0,相关系数的假设检验,相关系数假设检验的过程,(一)t检验 由于来自=0的总体的所有样本相关系数呈对称分布,故r的显著性可用t检验来进行。,n-2,Sr- 相关系数的标准误,公式,零假设:=0,备择假设: 0 r与0的差别是否显著要按该样本来自=0总体的概率而定。 如果从=0的总体中取得某r值的概率P0.05,就接受假设,认为此r很可能是从此总体中取得的。因此判断
8、两变量间无显著关系; 如果取得r值的概率P0.05或P0.01,就在=0.05或=0.01水准上拒绝检验假设,认为该r不是来自=0的总体,而来自0的另一个总体,因此判断两变量间有显著关系。,对r值检验的判断,1建立检验假设,H0:=0,H1:0, =0.05 2计算相关系数的r的t值:,3查t值表作结论 =n-2=15-2=13 根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查t值表得 t0.01,13=2.650 今trt0.01,13,P0.01,在=0.01水准上拒绝H0,接受H1,故可认为凝血时间的长短与血液中酶浓度有负相关。,(二)查表法: 为简化tr检验的计
9、算过程,数理统计工作者根据t分配表,已把不同自由度时r的临界值求出,并列成相关系数界值表(见附表13-1)。故只需查表就可知道该r值是否显著,不必再计算tr值。 r, |r| -P -相关不显著; r, |r|- P-在水准上相关显著;,今: r=-0.9070 , =15-2=13,查附表界值,得:r0.05,13=0.441 r0.01,13=0.592 现rr0.01,13,P0.01,按=0.01水准,拒绝HO,接受H1。认为0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。 相关系数的显著性与自由度的大小有关, 如n=3,=1时,虽r=-0.9070,却为不显著;
10、 若=400时,即使r=0.1000,亦为显著。 因此不能只看r的值,不考虑就下结论。,相关分析应注意的问题,1. 相关分析一定要有实际意义。X, Y来自正态总体,随机变量。 2. 相关分析前,先绘制散点图。散点有线性趋势,再进行相关分析。 3. 样本量足够大,可以根据r值大小推断两变量间的相关程度。小样本时,即使检验有显著性,也仅能对两变量间的直线关系作判断,相关的强度不可靠。 尤其当r有统计学意义,但r2较小,结论要慎重。,4. 相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象间的数量间存在直线关系,但不能证明事物间的内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线 相关 回归 Linearcorrelationandregression
链接地址:https://www.31doc.com/p-2721522.html