第九章回归分析.doc
《第九章回归分析.doc》由会员分享,可在线阅读,更多相关《第九章回归分析.doc(28页珍藏版)》请在三一文库上搜索。
1、第九章 回归分析9.1 一元线性回归9.1.1 引言在客观现象中,普遍存在着变量与变量之间的某种关系。数学上是用数量来描述这些关系。人们通过各种实践,发现变量之间的关系概括起来可分为“确定性的”与“非确定性的”两个类型。例如,作匀速直线运动的物体,经过的路程(S)与时间(t)的关系满足 这就是说,对已知的时间t,路程S可由上式完全确定,反之亦然。这是确定性关系。数学上称这种确定关系为“函数关系”。 但在客观现象中,还存在着另一种类型的变量之间的关系,它们不能用函数的关系叙述。例如,人的身高x与体重Y是两个变量,在通常情况下,即使是身高完全相同的两个人,体重也不一定一样,因而身高不能完全确定体重
2、,但平均来说,身高者体重也大些。x与Y之间的关系是“非确定性”关系。产生这种关系的原因是一些不可控制的因素,如遗传,性格,饮食习惯等。像这样的例子是很多的,如年龄与血压的关系,炼钢炉中铁水的含碳量与冶炼时间的关系,农作物的产量与施肥量的关系等。数学上称这种非确定性关系为“相关关系”。 在相关关系中的变量,有的是可以控制的,如年龄与血压的关系中的变量年龄,炼钢炉中铁水的含碳量与冶炼时间中的关系中的变量冶炼时间等。但大多数变量都是不可控制的,如炼钢炉中铁水的含碳量与冶炼时间中的变量含碳量就是不可控制的,冶炼时间一定,含碳量却不能确定,这种不可控制的变量是随机变量。严格地说,讨论自变量为可控变量而因
3、变量为随机变量的关系问题称为回归分析;讨论随机变量之间的关系问题称为相关分析。这两种问题有时也统称为回归分析,或统称为相关分析。 回归这个名词由英国统计学家FGalton在1885年首先使用,他在研究父亲身高与儿子身高之间的关系时发现:高个子父亲所生儿子比他更高的概率要小于比他矮的概率;同样,矮个子父亲所生儿子比他矮的概率小于比他高的概率。这两种高度父亲的后代,其高度有向中心(平均身高)回归的趋势。 我们怎样来研究因变量(也称响应变量)Y与自变量x之间的相关关系呢?由于Y是随机变量,故对于自变量x的每一个确定的值,Y有一定的概率分布,因此,假如Y的数学期望若存在的话,则E(Y/x)显然是x的函
4、数。统计上称Y的条件期望 (9.1.1)为Y对x回归函数,简称回归。 回归函数描述了因变量Y的均值与自变量x的相依关系,例如,若Y表示某种农作物的亩产量,x表示每亩的施肥量,则可理解为在相当大的面积上每亩施肥量为x时的亩平均产量,由于Y分布是未知的,故回归函数也是未知的。我们只能利用试验数据对进行估计,统计学称估计的问题为求Y对x的回归问题。 下面介绍求回归问题的一般步骤: (1)求取试验数据取自变量x一组不全相同的数值: 进行n次独立试验,得到Y的相应观察值:。于是就构成n对数据我们称这n对数据为样本观察值。 (2)选取回归模型 所谓选择模型,是指选取怎样的函数来描述。这不是一个纯数学问题,
5、它往往要结合经验或试验来确定,统计学的方法能帮助我们根据试验初步确定这个函数的类型。具体作法是:将样本观察值在直角坐标系中描出,得到的图形称为“散点图”。它的分布状况可帮助我们粗略地选定的类型。如果“散点图”近似在一条直线上,我们就可以选取,这时可建立回归模型其中a和b是待估计的参数。称为统计误差。统计误差由模型误差和随机误差构成。模型误差是Y与x的真实回归关系与选取的回归函数之间的误差,如果选取的回归函数正确,模型误差可忽略不计。故为随机误差,。 (3)对回归模型中未知参数作估计如果回归模型已经选定,接下来的问题就是对模型中的未知参数进行估计。通常采用最小二乘法估计和极大似然估计方法得到回归
6、函数中未知参数的估计量,矩估计得到响应变量Y的方差2的估计量。若将此估计代入选定的回归函数中得到经验回归方程。如就是一元线性回归中的经验回归方程。 (4)对选定的模型进行检验模型的选定是根据经验或“散点图”。很明显,根据这些理由而选定的模型与实际数据是否有良好的吻合是不足为据的。因此,有必要用样本观察值对选定的模型进行检验。如检验Y与x是否有线性关系,就是检验假设Ho :b = 0 。如果通过样本观察值拒绝了Ho,就可以为Y与x显著地存在线性关系。否则Y与x的线性关系不显著。(5)预测与控制实际中,当自变量x 取一个值时,Y的取值如何是一个很值得考虑的问题。也就是说,当自变量x取定一数值时,对
7、Y的取值作一个估计(点估计和区间估计),这就是预测。另外,如果预先将Y的取值控制在某一范围内来确定此时的自变量x的取值,这就是控制。9.1.2. 一元线性回归的参数估计我们考虑一元线性回归模型 , (9.1.2)及为未知参数。设为样本,则 (9.1.3)其中表示第i次试验中的随机误差。由于试验相互独立,试验条件没有改变,故,相互独立且与同分布。,可看作的一个样本设为 样本观察值,似然函数 (9.1.4)显然,要使L取最大值,只要上式右边的平方和的部分为最小,即只需二元函数 (9.1.5)为求a和b的极大似然估计,注意到是a和b的非负二次函数,因此最小值点存在且唯一,满足方程组 的解。经整理后得
8、到 (9.1.6) 其中, , , 由此方程组可解得到a,b的极大似然估计值 (9.1.7)将式(9.1.7)中换成随机变量,y换成Y,就得a和b估计量,仍然记为和。在一般的线性模型中,并不假定服从正态分布,此时似然函数就不是式(9.1.4),因而得不到式(9.1.5),然而式(9.1.5)表示Y的观察值与Y的回归值的偏差的平方和最小。故从式(9.1.5)出发求得a , b的估计量是符合“最小二乘法”原则的。按式(9.1.5)求估计量的方法实际上就是最小二乘法。由此得到的估计量为最小二乘估计。最小二乘法的直观想法是:在平面上找一条直线,使得“总的看来最接近散点图”中的各个点。而Q(a , b)
9、就是定量地描述了直线y = a + bx 与“散点图”中各点的总的接近程度。因此,直线,即(经验)回归直线,就是最接近“散点图”中各点的直线。如果参数2也是未知的,我们还需对2进行估计。由于是的二阶原点距,按矩估计,可用 (9.1.8)作为2的估计。然而a和b 是未知的,我们可用和来代替,直观上可以想到作为2的估计,但它不是2的无偏估计,这里称为残差平方和。2的一个无偏估计可以通过用其自由度去除获得,其中残差的自由度=试验次数-模型中参数的个数。对于一元回归模型,残差的自由度=n-2,故2的估计 (9.1.9)为使计算的数值更方便,(8)可写为 (9.1.10)其中。例4.1.1 某车间为了制
10、定工时定额,需要确定加工零件所消耗的时间,为此进行了10次试验,其结果如下表x(个) 102030405060708090100Y(分)626875818995102108115122其中x表示零件数,Y表示时间,试求Y对x的回归方程,并求2的无偏估计的值。解 本题中n = 10。 通过计算,有,故从而经验回归直线方程 2的无偏估计值 9.1.3 模型检验为了对参数作假设检验和区间估计,我们给出一些统计量的分布 (9.1.11) (9.1.12) (9.1.13)设,则 (9.1.14)上式称为平方和分解式,称SST为总平方和,SSR为回归平方和,SSE为剩余平方和。 当时, (9.1.15)
11、且SSR和SSE独立。在实际工作中,事先我们并不能确定Y和x确有线性关系。因此按极大似然法和最小二乘法求得a 和 b 的估计和,确定的回归方程不一定反映Y与x的关系,这是因为对于任何两个变得x 与Y 之间的一组数据,i =1,2,n, 无论它们是否线性相关,都可按照上述方法建立Y对x的回归方程。也就是说,即使Y与x之间并不存在线性相关关系,同样可以求出Y对x的回归方程,显然这样的回归方程是没有意义的。因此,对线性问题必须进行显著性假设检验。有多种检验方法,我们只介绍 检验法 对回归系数提出原假设Ho :b = 0 (9.1.16)若被拒绝,说明Y与之间显著存存线性关系。否则,我们不能认为Y与有
12、线性关系。引起线性不显著通常有如下一些原因:影响Y的数值除了变量外还有其它重要因素(或变量),这样固定时Y不服从正态分布;Y与之间不是线性关系,而是某种非线性关系,例如二次抛物线(它的对称轴平行于轴)形式的联系;Y的值与无关。选取统计量 (9.1.17)对给定显著性水平(01)得到拒绝域 (9.1.18)利用试验数据计算统计量的值,并查表求出。若成立,则拒绝Ho,认为Y与x有线性相关关系,否则认为Y与x 没有线性相关关系。例9.1.2 检验例9.1.1中Y与x之间的线性关系是否显著,取 = 0.01解:采用T检验法。计算T的值 而查表求得 从而得到 ,故拒绝,即Y与 x之间显著地存在线性关系。
13、9.1.4 预测如果得到的回归方程经检验显著,也称回归方程拟合得好,就可利用它进行预测。预测就是指对x = xo时,Y所对应的Yo大致是什么或在什么范围内。由于Y为随机变量,所以只能对Y作点估计或区间估计。预测的具体方法如下(1)求Y0的预测值设自变量x与因变量Y服从模型(9.1.2),则有 且样本与样本相互独立。我们可以得到Y0的预测值 (9.1.19)这样求出的预测值是有误差的,产生误差的第一个原因是只是Y0的平均值E(Y0)的一个估计,Y0的实际值可能偏离它的平均值;第二个原因是估计量是以a和b为基础的,而a和b本来就有随机抽样的误差。和参数的点估计一样,预测值只能对因变量Y0的值比较粗
14、糙的描述,对预测的误差大小不能作很好的判断,预测区间比较好地解决了这一问题。(2)求Y0的预测区间Y0的预测区间就是对Y0的区间估计,它分三个步骤:首先构造一个估计量并推导其分布。可用作点估计,而由统计分布性质有 (9.1.20) (9.1.21)容易证明 (9.1.22)这样得到了的预测区间 (9.1.23) 其中 (9.1.24)最后,利用样本数据求得具体的预测区间。顺便指出,在x处Y的预测区间为 (9.1.25)区间的长度为。当x变动时,预测区间的长度也在变化。显然当时,预测区间最短,估计也就是最精确。当n很大时,在离的距离不远处,有,故在x处Y的预测区间为此时,预测区间的上下限近似一条
15、直线。例9.1.3 已知例9.1.1中的,求Y0的预测值与置信度为99%的预测区间。解 Y0的预测值为,置信度为99%的预测区间为(98.38-2.53,98.38+2.53)即(95.85,100.01)。9.1.5控制控制是预测的反问题,它是讨论当Y在区间内取值时,求出自变量x的取值范围的问题。然而控制问题比预测问题复杂得多。由式(9.1.25)知,对某x相应的Y的置信度为的预测区间为满足对于区间,为使覆盖Y的概率为,即只需取 (9.1.26)如果能由上两方程解出x的两个解,设,则就是要求的控制区间,称为x的置信度为的控制区间。但是,由于(x)很复杂,一般很难由上两方程求出x的两个解的。不
16、过当n充分大,且与接近时,有。于是得 解之得 (9.1.27)当时,的置信度为的控制区间为;当时,的置信度为的控制区间为。9.2 多元线性回归 在许多实际问题中,影响响应变量的因素常常不止一个。例如考虑某种产品的销售额,一般与销售地区的总产值,人均收入,人口密度,广告费等有关。可以推知,多考虑几个因素即用多个变量来预测其效果要比一元回归好,而基本原理和一元回归是一致的,只是在具体的方法上前者比后者更复杂一些。本节研究响应变量与多个自变量的相关关系的问题,这就是多元回归分析的内容。9.2.1模型和参数估计设因变量与自变量之间满足 (9.2.1 )其中均为待定的未知参数称为回归参数。称(1)为多元
17、线性模型。为了估计参数,我们对作次观察(试验),设是一个容量为的样本,则我们可以得到(9.2.1)的一个有限样本模型 (9.2.2)其中相互独立且与同分布。为了用矩阵表示上式,记 于是模型(9.2.2)变为 (9.2.3)通常称模型(9.2.3)为高斯马尔柯夫多元线性模型。其中X为已知的阶矩阵,称为回归设计矩阵;为维向量,和均未知;为维单位矩阵。Y是n维响应变量向量,为n维随机误差向量,表示维向量服从均值向量为,协方差矩阵为的正态分布。对进行估计就是找到的估计量,使得误差平方和 (9.2.4)达到最小。越小,模型也就越好。因为是的非负二次函数,所以最小值点存在且唯一。我们可以用达到最小值时的值
18、作为的估计,并称这样的估计方法为最小二乘估计方法,称为的最小二乘估计。为了求,对关于求导数,即 即当X为列满秩时,的最小二乘估计为 (9.2.5)称 (9.2.6)为经验回归方程。与一元回归模型类似,我们可以证明的极大似然估计也是(9.2.5),的无偏估计为 (9.2.7) 与一元回归模型类似,我们可以给出和的统计性质:(1) (9.2.8)(2)与独立(3)设,则 (9.2.9)式(9.2.9)称为总离差平方和分解式,称为总离差平方和,称SSR为回归平方和,称SSE为剩余平方和。(4)当时,且SSR和SSE独立。例9.2.1某厂生产的圆钢,其屈服点受含碳量和含锰量的影响,现做了25次观察,测
19、得如下数据1618191720161615191818171717183938393938484548484846484946442424.524.5242524.5242424.524.524.524.52524.524.5182021161819192119214548485555565858494924.52525252525.525.526.524.526求关于和的经验回归方程。解 设。因为, 所以 又因所以故 9.2.2 多元回归模型的检验线性模型的有效性检验 与一元线回归类似,要检验变量间有没有这种线性联系,只要检验个系数是不是全为零.。如果p个系数全为零,则认为线性回归不显著;否
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 章回 分析
链接地址:https://www.31doc.com/p-2715357.html