欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载
     

    第九章回归分析.doc

    • 资源ID:2715357       资源大小:1.07MB        全文页数:28页
    • 资源格式: DOC        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第九章回归分析.doc

    第九章 回归分析9.1 一元线性回归9.1.1 引言在客观现象中,普遍存在着变量与变量之间的某种关系。数学上是用数量来描述这些关系。人们通过各种实践,发现变量之间的关系概括起来可分为“确定性的”与“非确定性的”两个类型。例如,作匀速直线运动的物体,经过的路程(S)与时间(t)的关系满足 这就是说,对已知的时间t,路程S可由上式完全确定,反之亦然。这是确定性关系。数学上称这种确定关系为“函数关系”。 但在客观现象中,还存在着另一种类型的变量之间的关系,它们不能用函数的关系叙述。例如,人的身高x与体重Y是两个变量,在通常情况下,即使是身高完全相同的两个人,体重也不一定一样,因而身高不能完全确定体重,但平均来说,身高者体重也大些。x与Y之间的关系是“非确定性”关系。产生这种关系的原因是一些不可控制的因素,如遗传,性格,饮食习惯等。像这样的例子是很多的,如年龄与血压的关系,炼钢炉中铁水的含碳量与冶炼时间的关系,农作物的产量与施肥量的关系等。数学上称这种非确定性关系为“相关关系”。 在相关关系中的变量,有的是可以控制的,如年龄与血压的关系中的变量年龄,炼钢炉中铁水的含碳量与冶炼时间中的关系中的变量冶炼时间等。但大多数变量都是不可控制的,如炼钢炉中铁水的含碳量与冶炼时间中的变量含碳量就是不可控制的,冶炼时间一定,含碳量却不能确定,这种不可控制的变量是随机变量。严格地说,讨论自变量为可控变量而因变量为随机变量的关系问题称为回归分析;讨论随机变量之间的关系问题称为相关分析。这两种问题有时也统称为回归分析,或统称为相关分析。 回归这个名词由英国统计学家F·Galton在1885年首先使用,他在研究父亲身高与儿子身高之间的关系时发现:高个子父亲所生儿子比他更高的概率要小于比他矮的概率;同样,矮个子父亲所生儿子比他矮的概率小于比他高的概率。这两种高度父亲的后代,其高度有向中心(平均身高)回归的趋势。 我们怎样来研究因变量(也称响应变量)Y与自变量x之间的相关关系呢?由于Y是随机变量,故对于自变量x的每一个确定的值,Y有一定的概率分布,因此,假如Y的数学期望若存在的话,则E(Y/x)显然是x的函数。统计上称Y的条件期望 (9.1.1)为Y对x回归函数,简称回归。 回归函数描述了因变量Y的均值与自变量x的相依关系,例如,若Y表示某种农作物的亩产量,x表示每亩的施肥量,则可理解为在相当大的面积上每亩施肥量为x时的亩平均产量,由于Y分布是未知的,故回归函数也是未知的。我们只能利用试验数据对进行估计,统计学称估计的问题为求Y对x的回归问题。 下面介绍求回归问题的一般步骤: (1)求取试验数据取自变量x一组不全相同的数值: 进行n次独立试验,得到Y的相应观察值:。于是就构成n对数据我们称这n对数据为样本观察值。 (2)选取回归模型 所谓选择模型,是指选取怎样的函数来描述。这不是一个纯数学问题,它往往要结合经验或试验来确定,统计学的方法能帮助我们根据试验初步确定这个函数的类型。具体作法是:将样本观察值在直角坐标系中描出,得到的图形称为“散点图”。它的分布状况可帮助我们粗略地选定的类型。如果“散点图”近似在一条直线上,我们就可以选取,这时可建立回归模型其中a和b是待估计的参数。称为统计误差。统计误差由模型误差和随机误差构成。模型误差是Y与x的真实回归关系与选取的回归函数之间的误差,如果选取的回归函数正确,模型误差可忽略不计。故为随机误差,。 (3)对回归模型中未知参数作估计如果回归模型已经选定,接下来的问题就是对模型中的未知参数进行估计。通常采用最小二乘法估计和极大似然估计方法得到回归函数中未知参数的估计量,矩估计得到响应变量Y的方差2的估计量。若将此估计代入选定的回归函数中得到经验回归方程。如就是一元线性回归中的经验回归方程。 (4)对选定的模型进行检验模型的选定是根据经验或“散点图”。很明显,根据这些理由而选定的模型与实际数据是否有良好的吻合是不足为据的。因此,有必要用样本观察值对选定的模型进行检验。如检验Y与x是否有线性关系,就是检验假设Ho :b = 0 。如果通过样本观察值拒绝了Ho,就可以为Y与x显著地存在线性关系。否则Y与x的线性关系不显著。(5)预测与控制实际中,当自变量x 取一个值时,Y的取值如何是一个很值得考虑的问题。也就是说,当自变量x取定一数值时,对Y的取值作一个估计(点估计和区间估计),这就是预测。另外,如果预先将Y的取值控制在某一范围内来确定此时的自变量x的取值,这就是控制。9.1.2. 一元线性回归的参数估计我们考虑一元线性回归模型 , (9.1.2)及为未知参数。设为样本,则 (9.1.3)其中表示第i次试验中的随机误差。由于试验相互独立,试验条件没有改变,故,相互独立且与同分布。,可看作的一个样本设为 样本观察值,似然函数 (9.1.4)显然,要使L取最大值,只要上式右边的平方和的部分为最小,即只需二元函数 (9.1.5)为求a和b的极大似然估计,注意到是a和b的非负二次函数,因此最小值点存在且唯一,满足方程组 的解。经整理后得到 (9.1.6) 其中, , , 由此方程组可解得到a,b的极大似然估计值 (9.1.7)将式(9.1.7)中换成随机变量,y换成Y,就得a和b估计量,仍然记为和。在一般的线性模型中,并不假定服从正态分布,此时似然函数就不是式(9.1.4),因而得不到式(9.1.5),然而式(9.1.5)表示Y的观察值与Y的回归值的偏差的平方和最小。故从式(9.1.5)出发求得a , b的估计量是符合“最小二乘法”原则的。按式(9.1.5)求估计量的方法实际上就是最小二乘法。由此得到的估计量为最小二乘估计。最小二乘法的直观想法是:在平面上找一条直线,使得“总的看来最接近散点图”中的各个点。而Q(a , b)就是定量地描述了直线y = a + bx 与“散点图”中各点的总的接近程度。因此,直线,即(经验)回归直线,就是最接近“散点图”中各点的直线。如果参数2也是未知的,我们还需对2进行估计。由于是的二阶原点距,按矩估计,可用 (9.1.8)作为2的估计。然而a和b 是未知的,我们可用和来代替,直观上可以想到作为2的估计,但它不是2的无偏估计,这里称为残差平方和。2的一个无偏估计可以通过用其自由度去除获得,其中残差的自由度=试验次数-模型中参数的个数。对于一元回归模型,残差的自由度=n-2,故2的估计 (9.1.9)为使计算的数值更方便,(8)可写为 (9.1.10)其中。例4.1.1 某车间为了制定工时定额,需要确定加工零件所消耗的时间,为此进行了10次试验,其结果如下表x(个) 102030405060708090100Y(分)626875818995102108115122其中x表示零件数,Y表示时间,试求Y对x的回归方程,并求2的无偏估计的值。解 本题中n = 10。 通过计算,有,故从而经验回归直线方程 2的无偏估计值 9.1.3 模型检验为了对参数作假设检验和区间估计,我们给出一些统计量的分布 (9.1.11) (9.1.12) (9.1.13)设,则 (9.1.14)上式称为平方和分解式,称SST为总平方和,SSR为回归平方和,SSE为剩余平方和。 当时, (9.1.15)且SSR和SSE独立。在实际工作中,事先我们并不能确定Y和x确有线性关系。因此按极大似然法和最小二乘法求得a 和 b 的估计和,确定的回归方程不一定反映Y与x的关系,这是因为对于任何两个变得x 与Y 之间的一组数据,i =1,2,n, 无论它们是否线性相关,都可按照上述方法建立Y对x的回归方程。也就是说,即使Y与x之间并不存在线性相关关系,同样可以求出Y对x的回归方程,显然这样的回归方程是没有意义的。因此,对线性问题必须进行显著性假设检验。有多种检验方法,我们只介绍 检验法 对回归系数提出原假设Ho :b = 0 (9.1.16)若被拒绝,说明Y与之间显著存存线性关系。否则,我们不能认为Y与有线性关系。引起线性不显著通常有如下一些原因:影响Y的数值除了变量外还有其它重要因素(或变量),这样固定时Y不服从正态分布;Y与之间不是线性关系,而是某种非线性关系,例如二次抛物线(它的对称轴平行于轴)形式的联系;Y的值与无关。选取统计量 (9.1.17)对给定显著性水平(0<<1)得到拒绝域 (9.1.18)利用试验数据计算统计量的值,并查表求出。若成立,则拒绝Ho,认为Y与x有线性相关关系,否则认为Y与x 没有线性相关关系。例9.1.2 检验例9.1.1中Y与x之间的线性关系是否显著,取 = 0.01解:采用T检验法。计算T的值 而查表求得 从而得到 ,故拒绝,即Y与 x之间显著地存在线性关系。9.1.4 预测如果得到的回归方程经检验显著,也称回归方程拟合得好,就可利用它进行预测。预测就是指对x = xo时,Y所对应的Yo大致是什么或在什么范围内。由于Y为随机变量,所以只能对Y作点估计或区间估计。预测的具体方法如下(1)求Y0的预测值设自变量x与因变量Y服从模型(9.1.2),则有 且样本与样本相互独立。我们可以得到Y0的预测值 (9.1.19)这样求出的预测值是有误差的,产生误差的第一个原因是只是Y0的平均值E(Y0)的一个估计,Y0的实际值可能偏离它的平均值;第二个原因是估计量是以a和b为基础的,而a和b本来就有随机抽样的误差。和参数的点估计一样,预测值只能对因变量Y0的值比较粗糙的描述,对预测的误差大小不能作很好的判断,预测区间比较好地解决了这一问题。(2)求Y0的预测区间Y0的预测区间就是对Y0的区间估计,它分三个步骤:首先构造一个估计量并推导其分布。可用作点估计,而由统计分布性质有 (9.1.20) (9.1.21)容易证明 (9.1.22)这样得到了的预测区间 (9.1.23) 其中 (9.1.24)最后,利用样本数据求得具体的预测区间。顺便指出,在x处Y的预测区间为 (9.1.25)区间的长度为。当x变动时,预测区间的长度也在变化。显然当时,预测区间最短,估计也就是最精确。当n很大时,在离的距离不远处,有,故在x处Y的预测区间为此时,预测区间的上下限近似一条直线。例9.1.3 已知例9.1.1中的,求Y0的预测值与置信度为99%的预测区间。解 Y0的预测值为,置信度为99%的预测区间为(98.38-2.53,98.38+2.53)即(95.85,100.01)。9.1.5控制控制是预测的反问题,它是讨论当Y在区间内取值时,求出自变量x的取值范围的问题。然而控制问题比预测问题复杂得多。由式(9.1.25)知,对某x相应的Y的置信度为的预测区间为满足对于区间,为使覆盖Y的概率为,即只需取 (9.1.26)如果能由上两方程解出x的两个解,设,则就是要求的控制区间,称为x的置信度为的控制区间。但是,由于(x)很复杂,一般很难由上两方程求出x的两个解的。不过当n充分大,且与接近时,有。于是得 解之得 (9.1.27)当时,的置信度为的控制区间为;当时,的置信度为的控制区间为。9.2 多元线性回归 在许多实际问题中,影响响应变量的因素常常不止一个。例如考虑某种产品的销售额,一般与销售地区的总产值,人均收入,人口密度,广告费等有关。可以推知,多考虑几个因素即用多个变量来预测其效果要比一元回归好,而基本原理和一元回归是一致的,只是在具体的方法上前者比后者更复杂一些。本节研究响应变量与多个自变量的相关关系的问题,这就是多元回归分析的内容。9.2.1模型和参数估计设因变量与自变量之间满足 (9.2.1 )其中均为待定的未知参数称为回归参数。称(1)为多元线性模型。为了估计参数,我们对作次观察(试验),设是一个容量为的样本,则我们可以得到(9.2.1)的一个有限样本模型 (9.2.2)其中相互独立且与同分布。为了用矩阵表示上式,记 于是模型(9.2.2)变为 (9.2.3)通常称模型(9.2.3)为高斯马尔柯夫多元线性模型。其中X为已知的阶矩阵,称为回归设计矩阵;为维向量,和均未知;为维单位矩阵。Y是n维响应变量向量,为n维随机误差向量,表示维向量服从均值向量为,协方差矩阵为的正态分布。对进行估计就是找到的估计量,使得误差平方和 (9.2.4)达到最小。越小,模型也就越好。因为是的非负二次函数,所以最小值点存在且唯一。我们可以用达到最小值时的值作为的估计,并称这样的估计方法为最小二乘估计方法,称为的最小二乘估计。为了求,对关于求导数,即 即当X为列满秩时,的最小二乘估计为 (9.2.5)称 (9.2.6)为经验回归方程。与一元回归模型类似,我们可以证明的极大似然估计也是(9.2.5),的无偏估计为 (9.2.7) 与一元回归模型类似,我们可以给出和的统计性质:(1) (9.2.8)(2)与独立(3)设,则 (9.2.9)式(9.2.9)称为总离差平方和分解式,称为总离差平方和,称SSR为回归平方和,称SSE为剩余平方和。(4)当时,且SSR和SSE独立。例9.2.1某厂生产的圆钢,其屈服点受含碳量和含锰量的影响,现做了25次观察,测得如下数据1618191720161615191818171717183938393938484548484846484946442424.524.5242524.5242424.524.524.524.52524.524.5182021161819192119214548485555565858494924.52525252525.525.526.524.526求关于和的经验回归方程。解 设。因为, 所以 又因所以故 9.2.2 多元回归模型的检验线性模型的有效性检验 与一元线回归类似,要检验变量间有没有这种线性联系,只要检验个系数是不是全为零.。如果p个系数全为零,则认为线性回归不显著;否则认为线性回归显著。因此,多元线性模型的检验假设 由n组观察值检验它是否成立。若接受Ho, 则认为线性回归不显著,否则认为线性回归显著。当H0成立时,有 (9.2.10) 因为,反映各因素对的总的线性影响所起的作用,反映了其它因素对的影响所起的作用。如果比值较大,更精细些,如果比值F较大,则说明对的线性作用比其它因素对的影响作用大,此时就不能认为Ho成立,如果F很小,则说明其它因素(随机因素)对起主要作用,因此不能拒绝Ho。给定显著性水平,则查表可得使 得到拒绝域 (9.2.21) 回归系数的显著性检验 在多元线性模型中,虽然经检验知与之间具有显著线性关系,但是每个对的影响作用并不是一样的,因此,经检验不拒绝线性模型之后,还需从线性模型中剔除可有可无的因素,保留那些比较重要的因素,重新建立更为简单的线性回归方程,以便更利于实际应用。因此,对的检验假设也是很重要的。因为 ,记为的第i行第j列元素,。从而 (9.2.22) (9.2.23)得到拒绝域 或 (9.2.24) 如果检验结果不拒绝Ho,即 ,应将从回归方程中剔除。需要注意的是:在剔除对影响不显著的变量时,考虑变量之间的重要作用,每次只剔除一个不显著的变量,如果有几个变量对的影响都不显著,则先剔除其中F值最小的那个变量,剔除一个变量且由最小二乘法建立新的回归方程后,还必须对剩下的p-1个变量再用上述方法检验它们对的影响是否显著,如果有不显著的,则逐个剔除,直到保留下来的变量对都影响显著为止。例9.2.2考虑例9.2.1,检验线性模型是否显著和检验假设是否成立。 解 因为所以又因,所以 ,故线性模型显著。 因为 ,且所以和都显著不为0。9.2.3 预测点预测设我们获得了的一组新的观察值(不是样本值),它们为,对预测是对作点估计和区间估计,记相应的值为,有 (9.2.25)其中与独立,显然可用 (9.2.26)作为Y0的点预测(估计),因为,所以,实际上是Y0的无偏估计量。区间估计对于给定的求的置信度为的置信区间,可以证明 (9.2.27)其中,为的第i行第j列元素,。同时还可以证明 (9.2.28)给定置信度,查得 的值,使从而可得的置信度为的预测(置信)区间为, (9.2.29)例9.2.3考虑例9.2.1中,当时,求相应的的置信度为0.95的预测区间解 因 的置信度为0.95的预测区间(25.4296,26.7736)9.2.4 变量选择及多元共线性性问题在多元线性回归模型是,由于有多个自变量,存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时,可能会考虑到多个对因变量有潜在影响的自变量,但在对数据进行分析之前无法事先断定哪些变量是有效的(对因变量有显著影响),哪些是无效的(对因变量没有显著影响)。有效变量应该保留在模型中,而无效变量应该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰,从而产生误导。那么究竟哪些变量是有效的,哪些变量是无效的呢?这就是变量选择的问题。第二个问题是关于自变量之间的关系。在某些实际问题中(如在实验室或某些工业生产条件下),观测者(试验者)可以控制自变量的值,这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下(研究社会、地质、水文)。观测者不能控制自变量的值,或者说自变量是随机变量。这时,自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线性的存在对回归分析的结果产生很坏的影响。因此数据分析这应该理解多元共线性的影响,并知道用何种方法去克服这种影响。本节的前三小节介绍几种变量选择的方法,后三小节分别介绍多元共线性的影响及克服它的两种方法。变量选择的max法通常在建立一个回归模型时,我们要将所有可能对因变量产生影响的自变量考虑到模型中去,以免由于遗漏了重要的变量而造成模型与实际相偏离。但是通常在所有备选的自变量中,往往只有一部分真正对因变量有影响,称之为有效变量;而其他的则可能对因变量没有影响,称之为无效变量。从原则上讲,一个好的模型应该包含所有的有效变量,而不包含任何无效变量。问题在于如何才能找到满足上述要求的模型?本小节所介绍的max 准则是根据的大小在所有可能的模型中选择“最优模型”的一种方法。 设备选的自变量共有K个,先假定已知有效变量的数目为r,我们来考虑恰好包含r个变量的模型。这样的模型共有 个。记恰好包含r个有效变量(而不包含任何无效变量)的那个模型为 ,如何从个模型中来找到 呢?由于在中所有的自变量都是有效的,我们可以认为在中的r个变量对因变量的总影响应该比其他任何r个变量的总影响都大。对一个包含r个变量的模型,其中的自变量对因变量的总影响可以由它的决定系数来度量,其中(可以证明:与检验量互为单调增函数)。因此,我们可以从所有含r个回归变量的模型中选择达到最大的那个,作为要找的。具体地说,记备选的含r个回归变量的模型为,其中。记第 个模型 的决定系数为 。由定义,其中为因变量的总平方和,在任何模型下都是一个常数,为在模型 下的回归平方和。最大准则就是要选模型,满足。于是我们认为就是要找的最优模型了,这样就解决了在已 知有效变量的个数r时的模型选择的问题。下一个问题是:在有效变量的个数r未知时,如何确定它?对这个问题,很难给出一个明确的数学准则,而只能基于某种相当模糊的判断。考虑如下的思路,对记为在j个回归变量的模型中所达到的最大,不难得出,是随j单调增的: 。因为当模型中的变量个数增加时,相应的回归平方和会增大,从而 的值增大。我们要利用上述的关系来为r的选择提供线索。假设r为有效变量的个数,我们可以用上述的max来确定恰由这r个有效变量所组成的模型,相应的为,现在设想在这个模型中再增加一个变量,由于所有r个有效变量已经在模型中,增加的那个变量肯定是无效变量,因此相对于增加的幅度应该比较小,由于以后在模型中每增加一个变量都只可能是无效变量,因此,当时,随j增加的速度会比较缓慢,且越来越慢,反之,在已经包含了r个变量的模型中去掉一个变量,则会使回归平方和会大大地下降,因此,按照这个思路,如果作平面点图,可以看到,当时,随j增加而迅速上升,当时,随j增加的而比较缓慢,造成联结点的折线在点处形成一个明显的拐点。这样就可以找到r.注意,这种方法只是一具经验的模糊的准则,因为没有任河数学原理来证明上述推理的正确性,同时选取拐点也是凭感觉来判断的。max 准则要求对所有可能的回归模型计算 ,当备选变量的数目比较小时,用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时,用这种方法其计算量非常地大。向后、向前和逐步回归 基于 的模型选择程序通常都是给出一串模型,而并不自动给出一个“最终”模型。在上一节中我们知道,可以通过F检验的方法来判断,(在一定的模型下)某个变量是否有理由保留在模型中。基于F检验,统计学家发展出一些对变量进行系列的F检验,并得到一个“最终”模型的变量选择程序。这些方法有各种各样的变种,大致可以分为三类:向后回归法,向前回归法和逐步回归法.限于篇幅,我们只介绍这些方法的大意,在标准的统计回归分析软件中都有这些方法的程序。(1)向后回归法 其基本思路是:先将所有可能对因变量产生影响的自变量都纳入模型,然后逐个地从中剔除认为是最没有价值的变量,直至所留在模型中的变量都不能被剔除,或者模型中没有任何变量为止。在逐步的剔除过程中,每次都对当前模型中的所有变量计算评估附加影响的F统计量,并找到其中最小的。如果最小F统计量超过指定的临界值 ,当前模型中的所有变量都保留,将当前模型作为最终模型,程序终止。反之,如果最小F统计量达不到临界值,就将相应的变量加以剔除,得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行,直至没有变量可以剔除,或者模型中没有任何变量为止。最终的模型就是所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。(2)向前回归法其基本思路是:先将所有可能对因变量产生影响的自变量作为备选的变量集,都放在模型之外,从零模型,即不包含任何自变量的模型开始,然后逐个地向模型中加入被认为是最有附加价值的变量,直至所留在模型外的变量都不能被加入,或者所有备选的变量都已加入模型为止。在逐步加入的过程中,第一步对所有变量计算当模型中只有一个变量时的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,则所有在模型外的变量都不能加入到模型中去,将零模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到模型中去。从第二步开始,每次都对当前模型外的任一变量计算;当这个变量被加入模型后,在新模型下计算它的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,可以认为所有在当前模型外的变量都是无效变量,因此都不能加入到当前模型中去,将当前模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到当前模型中去,得到一个较大的模型。以上步骤不断进行,直至没有变量可以加入,或者模型中已经包含了所有变量为止。最终的模型就是所选定的“最优”模型,标准的统计软件通常还输出所有中间模型。(3)逐步回归法逐步回归法是对向前回归的一个修正。在向前回归中,变量逐个被加入到模型中去,一个变量一旦被加入到模型中,就再也不可能被剔除。但是,原来在模型中的变量在引入新变量之后,可能会变得没有存在的价值而没有必要再留在模型中。出现这种情况是因为回归变量之间存在着相关性的缘故。因此,在逐步回归中,每当向模型中加入一个变量之后,就对原来模型中的变量在新模型下再进行一次向后剔除的检查,看是否其中有变量应该被剔除。这种“加入剔除”的步骤反复进行,直至所有已经在模型中的变量都不能剔除,而且所有在模型外的变量都不能加入,过程就终止,最终的模型就是被选定的“最优”模型,标准的统计软件通常还输出所有中间模型。例9.2.4在有氧训练中,人的耗氧能力记为,是衡量人的身体状况的重要指标,它可能与下列的变量有关:x1:年龄;x2:体重;x3:1.5英里跑所用时间;x4:静止时心速;x5:跑步时心速;x6: 跑步时最大心速;北卡罗来纳州立大学的健身中心作了一次试验,对31个自愿参加者进行了测试,得到数据如下表IDX1X2X3X4X5X6y14489.4711.376217818244.60924075.0710.076218518545.31334485.848.654515616854.29744268.158.174016617259.57153889.029.225517818049.87464777.4511.635817617644.81174075.9811.957017618045.68184381.1910.856416217049.09194481.4213.086317417639.442103881.878.634817018660.055114473.0310.134516816850.541124587.6614.035618619237.388134566.4511.125117617644.754144779.1510.604716216447.273155483.1210.335016617051.855164981.428.954418018679.156175169.6310.955716817240.836185177.9110.004816216846.672194891.6310.254816216446.774204973.3710.086716816850.388215773.3712.635817417639.407225479.3811.076215616546.080235276.329.634816416645.441245070.878.924814615554.625255167.2511.084817217245.118265491.6312.884416817245.118275173.7110.475918618845.790285759.089.934914815550.545294976.329.405618618848.673304861.2411.505217017647.920315282.7810.505317017247.467我们考察耗氧能力与这些自变量之间的关系。 解:建立线性模型可以算出:SSR=722.54321 SST=851.38154 SSE=128.83794 F=22.433如果取,说明线性模型是有效的。我们用SAS/STAT中的PROC REG程序中的向后回归法进行变量选取择,其过程和结果如下:第一步:首先对全模型计算模型的有效性的F统计量,为F=22.433;模型有效,每个变量检验的F统计量为变量X1X2X3X4X5X6F5171854642011951493,由此可得到应剔除,首先剔除;重新建立模型第二步:对剔除后的新模型计算模型有效性的F统计量,为F=27.90;,模型有效,每个变量检验的F统计量为变量X1X2X3X5X6F52918461.8910.165.18,由此可得到应剔除;第三步:对剔除后的新模型计算模型有效性的F统计量,为F=33.33;,模型有效,每个变量检验的F统计量为变量X1X3X5X6F4.2766.058.784.10,由此可得到没有变量可剔除,这样就得到了最终的模型程序将给出参数估计。多元共线性什么是多元共线性?多元共线性对LS估计有什么影响?如何判别数据中存在多元共线性?我们先从最简单的情况开始,设有两个自变量,它们的观测数据可用n维向量表示,这两个变量的统计相关性可用“样本相关系数”的平方 (9.2.30)来表示。其中表示样本平均,将数据“标准化” (9.2.31)为标准化样本。当 时,线性相关,即两向量共线。若两向量共线,我们将的最小二乘估计满足的方程 (9.2.32)改写为 (9.2.33)系数矩阵的行列式,即的最小二乘估计没有唯一解,可以证明它有无穷多解。当若两向量接近共线时,即时,的最小二乘估计的方差非常地大,其估计的性质很不稳定。 将两个自变量的情况可以推广到多个自变量,参见陆璇应用统计P106-120。9.2.5 线性回归的推广非线性回归在许多实际问题中,响应变量与一组自变量之间并不存

    注意事项

    本文(第九章回归分析.doc)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开