第11章多元线性回归.ppt
《第11章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第11章多元线性回归.ppt(39页珍藏版)》请在三一文库上搜索。
1、第十一章 多元线性回归(简介),当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。直线回归主要研究一个应变量(dependent variable)与一个自变量(independent variable)间的线性趋势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关系的问题。,收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。 肺活量与身高、体重、胸围的关系; 胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;,例如:,用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归(multiple linear regressio
2、n),常简称为多元回归(multiple regression)。,设应变量为Y,自变量为: X1,X2,Xk, Y与自变量X1,X2,Xk 的多元回归,就是指 Y与 k 个自变量X1,X2,Xk 有如下线性关系:,多元线性回归方程:,式中 是为Y的估计值或预测值(predicted value),表示当给定各自变量的值时,因变量Y 的估计值; b0 为截距,在回归方程中又称为常数项,表示各自变量均为0 时Y 的估计值; bi 称为偏回归系数(partial regression coefficient),简称为回归系数,表示其它自变量不变时,Xi 每改变一个单位,Y 的平均变化量。,原始资料
3、作多元线性回归分析, 理论上应满足的条件有:,1)线性(linear),因变量与自变量的关系是线性的; 2)独立性(independence),随机误差项在不同样本点之间是独立的,无自相关; 3)正态性(normality),随机误差项服从均数为零、方差为2的正态分布;,4) 方差齐性(equal variance ,or homogeneity),随机误差项在不同样本点的方差相等。 以上四个条件缩写为LINE,与直线回归中的条件是相同的。 如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。,多元回归方
4、程的资料格式 例号 y x1 x2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk,例11.1 同样身高的20名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。,偏回归系数的估计,回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。 回归系数的估计仍然用最小二乘法(LSM)。 (计算方法略),20名建康男子的收缩压、年龄和体征的测定值,编号 收缩压y 年龄x1 体重x2 1 15.60 50 76.0 2 18.80 20 91.5 . . . .
5、20 19.19 43 85.5 用最小二乘法(method of least square)求解b1、b2 、b0得:,在该方程中,b1=0.0546,表示在体重不变的前提下,年龄每增加1岁,收缩压平均增加0.0546(kPa);b2=0.1944(kg),表示在年龄不变的情况下,体重每增加1kg,收缩压平均增加0.1944(kPa)。,截距b0= -0.6815,表示X1,X2 都为0 时,Y 的估计值,在这里没有实际意义,是根据方程估算出来的值。 例如,当X1=50,X2=80 时, =17.60,表示对所有年龄为50岁,体重为80kg 的男子,估计平均收缩压为17.60(kPa)。,二
6、、多元回归方程统计学意义的假设检验,假设检验包括多元回归方程的假设检验与偏回归系数的假设检验。 多元回归方程的假设检验常用方差分析: ANOVA(方差分析表) 变异来源 Sum of squares df Mean Square F P Regression 33.65 2 16.82 11.31 0.0008 Residual 25.28 17 1.49 Total 58.93 19,偏回归系数的假设检验用t检验: Coefficients(参数估计) Unstandardized Standardized Coefficients Coefficients Bota b std. Erro
7、r b t P 偏回归系数 b的标准误 标准化偏回归系数 Constant -0.6815 3.9017 -0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003,三、标准化偏回归系数,由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,因而偏回归系数大的应变量未必对应变量y的线性影响也大。 当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变量y的影响相对较大。,四、复相关系数,在多元线性回归分析中,直接建立
8、Y 与全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建立回归模型都是必要的。因此,在建立回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对Y 有影响的自变量,有利于提高回归方程的质量。,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。 因此,在建立回归方程时,要遵循一个原则,即“少而精”。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡量所得模型的“优劣”。 目前,常用的衡量方程“优劣”的标准有复相关系数。,复相关系数(multiple correlation
9、 coefficient)用R表示,取值在01之间。表示m个自变量共同对应变量y的相关密切程度。 复相关系数的平方R2称为决定系数(coefficient of determination),R2表示回归平方和 在y的总变异 中所占的比重。用R2可定量评价y的总变异能被x1、x2、xm解释的比重。 如本例R2=0.5709,可知由年龄和体重可解释该组观察对象收缩压变异的57.09%。,第二节 多元逐步回归,一、多元逐步回归的基本思想 逐步回归(stepwise regression)是从众多的回归模型中快速地选出“最优”模型而提出的一种策略算法。 它是将自变量一个一个引入方程,引入变量的条件是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 多元 线性 回归
链接地址:https://www.31doc.com/p-2972245.html