欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载
     

    第一节:回归分析.doc

    • 资源ID:2715137       资源大小:541.04KB        全文页数:20页
    • 资源格式: DOC        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第一节:回归分析.doc

    回 归 分 析一切运动着的事物都是相互联系、相互制约的,从而描述事物和事物运动的变量之间也是相互联系、相互制约的。变量之间的相互关系,可分为两类:一类叫做确定性关系,也叫做函数关系,其特征是一个变量随着其他变量的确定而确定。例如圆面积与半径之间的关系。另一类关系叫做相关关系,这类关系的特征是:变量之间的关系很难用一种精确的方法表示出来。例如,人体的身高与体重之间有一定的关系,但是由身高不能精确地计算出体重,由体重也不能精确地计算出身高。不过,需要指出的是:确定性关系与相关性关系之间没有一道不可逾越的鸿沟。由于存在测量误差等原因,确定性关系在实际问题中往往通过相关关系表示出来。另一方面,当对事物内部的规律了解的更加透彻时,相关关系也可以转化为确定性关系。回归分析就是处理变量之间的相关关系的一种数学方法。它是最常用的数理统计方法,能解决预测、控制、生产工艺优化等问题。在工农业生产和科学研究各个领域中均有广泛应用。回归分析一般分为线性回归分析和非线性回归分析。本章着重介绍线性回归分析,它是两类回归分析中较简单的一类,也是应用的较多的一类。第一节 一元线性回归一、数学模型一元线性回归分析的基本模型为 (1)其中未知参数称为回归系数,自变量也称为回归变量。是随机误差项,总是假设N(0, )。(1)式两边同时取期望得:,称为对的回归直线方程。在该模型下,第个观测值可以看作样本(这些样本相互独立但不同分布)的实际抽样值,即样本值。一元线性回归分析的主要任务是:(i)建立因变量与自变量之间的回归模型;(ii)用样本值对和作点估计;(iii)对回归系数作假设检验;(iv)在处对作预测,并对作区间估计。二、模型参数估计有n组独立观测值(x1,y1),(x2,y2),(xn,yn)设, N(0, )且相互独立 记 最小二乘法就是选择和的估计值,使得 为此,将上式分别对求偏导数,根据极值存在的必要条件,得整理后得到下面的方程组此方程组称为正规方程。解上方程组并用取代,得或 其中,。用这种方法求出的估计值称为的最小二乘估计,简称LS估计。(经验)回归方程为: 三、一元线性回归模型的检验一元线性回归分析模型的检验分为拟合程度检验和显著性检验,它是利用统计学中的抽样理论来检验回归方程的可靠性。(一)一元线性回归方程拟合程度的评价所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度大小的最常用指标是判定系数和估计标准误差。这两个指标都是建立在对总离差平方和进行分解的基础上的。对于任一样本观测点,因变量的实际观测值与其样本均值的离差即总离差可以分解为两部分:一部分是因变量的回归值与其样本均值的离差,它可以看成是总离差中能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与回归值的离差,它是总离差中不能由回归直线加以解释的残差,该残差可以看作是回归模型中随机误差项的一个估计。对任意一实际观察值总有:对于全部样本观测点,可以证明有如下关系式成立:如果记,,则有:上式中:是总的离差平方和(或总变差);是由回归直线可以解释的那一部分离差平方和,称为回归平方和(或回归变差);是用回归直线无法解释的离差平方和,称为剩余平方和(剩余变差)。显然,各点观测值与直线越靠拢,回归变差占总变差的比重就越大,说明直线拟合得就越好。1. 判定系数我们把回归平方和与总离差平方和之比定义为样本判定系数,即判定系数是一个回归直线与样本观测值拟合优度的指标。的值总是在0和1之间。一个线性回归模型如果充分利用了的信息,则越接近于1,拟合优度就越好。反之,如果不大,说明以模型中给出的对的信息还不充分,应进行修改,使和的信息得到充分的利用。2回归标准差如上所述,从观测值与估计值的对比来看,回归直线上的各点同对应的观测值各点之间,均存在一定的离差,即观测值曲线上各点的值均偏离回归直线。离差越大,拟合程度越差。因而需要测定估计值的标准差,而回归标准差就是用来估量值在回归直线两侧的离差程度,以便在进行实际预测时为预测值建立一个置信区间范围。回归标准差的计算公式为:值越小,表明回归直线拟合程度越好。(二)一元线性回归方程的显著性检验回归分析中的显著性检验包括三个方面的内容:一是对各回归系数的显著性检验(检验);二是对回归方程整体的显著性检验(检验);三是与之间线性相关程度的检验(检验)1检验检验的目的在于检验各回归系数的显著性,即与之间是否真正存在线性关系,具体表现为回归系数是否为0。若为0,则所求回归直线就为一条水平线,与之间无线性关系;若不为0,认为与之间存在线性关系,所建立的回归方程符合变量间的变化规律。检验的步骤如下:(1) 假设观测的样本来自没有线性关系的总体,即: (2)计算回归系数的检验统计量值:式中,为回归系数的标准差,其计算公式为: 为回归估计标准误差,计算方法是: (3)根据给定的显著性水平和自由度,查分布表,可得相应的临界值。(4)决策:若,则拒绝,得到的结论;若,则不能拒绝。 2检验检验的目的在于检验所得到的线性回归方程在整体上是否显著成立,进一步检验与之间是否存在线性关系。其检验步骤如下:(1)假设回归方程是不显著的,即:方程不显著 :方程显著(2)计算回归方程的统计量:(3)根据给定的显著性水平,分子自由度1和分母自由度,查分布表中相应的临界值。(4)决策:若,则拒绝原假设,说明回归方程显著;若,则不能拒绝原假设,与之间的关系不明显或无关系,说明回归方程不显著。3检验我们已经提到,如果回归变差占总变差的比重就越大,说明直线拟合得就越好,记(或)称为样本相关系数,简称为相关系数。故统计量可用来刻画与之间线性相关的密切程度,也可用来检验假设,其检验方法称为检验法。四、运用回归方程进行估计和预测如果我们利用最小二乘法原理,得到变量与之间的简单线性回归方程,并且证明了与之间在统计上具有显著的关系,那么由估计的回归方程给出的对样本数据的拟合,在我们看来就是一个好的拟合。我们利用估计的回归方程进行估计和预测,应该是合适的。将已判断出的未来的自变量的值代入预测模型,就可以算出预测值。预测值的置信区间,就是在一定的概率下,估计预测值的范围,或它的上下限。从理论上讲,如果观测值数据越多,即样本越大,则可用回归标准差来判断预测值的置信区间。其公式为:对于小样本,即时,估算预测值的置信区间,应引入一个校正系数,则置信区间为五、可线性化的一元非线性回归(曲线回归)例:出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76将画出散点图,这些点分布在一条曲线附近。从下图可以看出,开始时侵蚀速度快,然后逐渐减慢,而点的分别逐渐接近于一条平行于轴的直线,因此钢包容积不会无限增加。显然将此例看作一元线性回归是不合适的,此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:先对两个变量和作n次试验观察得画出散点图,根据散点图确定须配曲线的类型.然后由n对试验数据确定每一类曲线的未知参数和。采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法。通常选择的六类曲线如下:(1) 双曲线。(2)幂函数曲线, 其中。(3)指数曲线,其中参数。(4)倒指数曲线,其中参数。(5)对数曲线, 其中。(6)S型曲线。现在来求解例题。由散点图我们选配到指数曲线根据线性化方法,算得由此 最后得 。第二节 多元线性回归一、数学模型本节介绍有多个自变量的多元线性回归,这种回归在工程上应用更为广泛。一般地,影响试验指标的因素往往不止一个,即有多个因素,假设它们之间有如下的线性关系式: (1)其中,为可观察的随机变量,称为因变量。为非随机的可精确观查的变量,称为自变量或因子,为个未知参数,为随机变量。一般假设N(0, )。为了估计,我们对与同时作次观察得组观察值,它们满足关系式为了用矩阵表示上式,令, ,于是,(1)式可变为,且N(0, ),为阶单位矩阵。二、模型参数估计下面用最小二乘法求的估计量,作离差平方和选择,使达到最小。根据微积分学中的最值原理,只需求下面正规方程组的解,即解此方程组得到的不是的真值,而是估计值,故将此正规方程组可化简为解得 将计算得到的,代入方程得三、回归方程的假设检验在实际问题中,事先我们并不知道或者不能判定与之间确有线性关系。往往只是一种假设,因此在求出线性回归方程之后,还须对求出的线性回归方程同实际观测数据拟合效果进行检验,可提出以下原假设(1)检验由前面的知识知,当成立时,有根据给定的显著性水平,分子自由度和分母自由度,查分布表中相应的临界值若,则拒绝原假设,说明回归方程显著;若,则不能拒绝原假设,与之间的关系不明显或无关系,说明回归方程不显著。(2)检验定义为与的多元相关系数或复相关系数。容易证明与有如下关系:故用与检验是等效的。四、多项式回归设变量、的回归模型为其中p是已知的,是未知参数,服从正态分布。称为回归多项式。上面的回归模型称为多项式回归。令,i=1,2,k多项式回归模型则变为多元线性回归模型。第三节 MATLAB统计工具箱中的回归分析命令MATLAB统计工具箱中提供了一些回归分析的命令,现介绍如下:一、多元线性回归:多元线性回归的命令式regress,此命令也可用于一元线性回归。其格式如下: 1确定回归系数的点估计值:b=regress( Y,X )2求回归系数的点估计和区间估计、并检验回归模型: b, bint, r, rint, stats = regress( Y,X,alpha)3画出残差及其置信区间: rcoplot(r,rint)上述命令中,各符号的含义如下:(1) b,Y,X见第二节,其中b为回归系数的点估计值,即, 对一元线性回归,取k =1即可(2) alpha 为显著性水平(缺省时为0.05);(3) bint 为回归系数的区间估计;(4) r与rint 分别为残差及其置信区间;(5) stats 是用于检验回归模型的统计量,有三个数值,第一个是相关系数,越接近1,说明回归方程越显著;第二个值是值,时拒绝原假设,越大,说明回归方程越显著;第三个是与对应的概率,时拒绝,回归模型成立。例1:测16名成年女子的身高与腿长所得数据如下,是研究身高与腿长之间的关系。身高(cm)143145146147149150153154腿长(cm)8885889192939395身高(cm)155156157158159160162164腿长(cm)969897969899100102解:1输入数据:x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164'X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102';2回归分析及检验: b,bint,r,rint,stats=regress(Y,X); b,bint,stats得结果:b = -16.0730 0.7194 bint =-33.7071 1.56120.6047 0.8340stats = 0.9282 180.9531 0.0000即;的置信区间为-33.7017,1.5612, 的置信区间为0.6047,0.834; =0.9282, =180.9531, =0.0000,<0.05, 可知回归模型 成立.3残差分析,作残差图: rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 能较好的符合原始数据,而第二个数据可视为异常点。4预测及作图: z=b(1)+b(2)* plot(x,Y,'k+',x,z, 'r') 二、多项式回归1.一元多项式回归 一元多项式回归可以用命令polyfit, polyval, polyconf来实现.命令格式如下:(1)回归:回归可以用以下两个命令之一:确定多项式系数的命令:p,S=polyfit(x,y,m)其中,是多项式的系数S是一个矩阵,用来估计预测误差。一元多项式回归命令:polytool(x,y,m)。此命令产生一个交互式的画面,画面中有拟合曲线和Y的置信区间。通过左下方的Export下拉式菜单,可以输出回归系数等。(2)预测和预测误差估计:Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y;Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y±DELTA;alpha缺省时为0.05。一元多项式也可化为多元线性回归来解。例2 观测物体降落的距离s与时间t的关系,得到数据如下表,求s关于t的回归方程.t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.48法一 用一元多项式回归:(1)输入数据:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;(2)作二次多项式回归p,S=polyfit(t,s,2)得回归模型为 :(3)预测及作图Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r')法二 化为多元线性回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t'(t.2)'b,bint,r,rint,stats=regress(s',T);b,stats得回归模型为 :可以看出,两种方法得出的结果是一样的。2.多元二项式回归多元二项式回归用命令:rstool(x,y,'model', alpha)。其中,输入数据x、y分别为n×m矩阵和n维列向量,alpha为显著性水平(缺省时为0.05);model由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):linear(线性):purequadratic(纯二次):interaction(交叉):quadratic(完全二次):例3 设某商品的需求量与消费者的平均收入、商品价格的统计数 据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量。需求量10075807050659010011060收入1000600 1200500300400130011001300300价格5766875439选择纯二次模型,即 法一:直接用多元二项式回归:(1) 数据输入x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60';x=x1 'x2';(2)回归、检验及预测 rstool(x,y, 'purequadratic')将左边图形下方方框中的“800”改成1000,右边图形下方的方框中仍输入6.则画面左边的“Predicted Y”下方的数据由原来的“86.3791”变为88.4791,即预测出平均收入为1000价格为6时的商品需求量为88.4791。在画面左下方的下拉式菜单中选“all”, 则betarmse和residuals都传送到MATLAB工作区中。在MATLAB工作区中输入命令: beta, rmse得结果:beta = 110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse = 4.5362故回归模型为:剩余标准差为4.5362, 说明此回归模型的显著性较好。法二:将化为多元线性回归X=ones(10,1) x1' x2' (x1.2) ' (x2.2) 'b,bint,r,rint,stats=regress(y,X);b,stats结果为: b = 110.5313 0.1464 -26.5709 -0.0001 1.8475 stats = 0.9702 40.6656 0.0005可以看出,两种方法的结果是一样的。Stats中第一个数据与1非常接近,第三个数据与0非常接近,这说明所得的回归模型显著性很好。三、非线性回归非线性回归可用命令nlinfit,nlintool,nlpredci来实现。命令格式如下1回归:(1)确定回归系数的命令: beta,r,J=nlinfit(x,y, 'model',beta0)其中,输入数据x、y分别为n×m矩阵和n维列向量,对一元非线性回归,x为n维列向量;model是事先用M文件定义的非线性函数;beta0是回归系数的初值。beta是估计出的回归系数,r为残差,J为Jacobi矩阵。(2)非线性回归命令:nlintool(x,y,'model', beta0,alpha)其中各参数含义同前,alpha为显著性水平(缺省时为0.05)。2预测和预测误差估计:Y,DELTA=nlpredci('model', x,beta,r,J)求nlinfit 或lintool所得的回归函数在x处的预测值Y及预测值的显著性水平为1-alpha的置信区间Y±DELTA.例 4 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76解:(1) 对将要拟合的非线性模型y=a,建立M文件volum.m如下: function yhat=volum(beta,x) yhat=beta(1)*exp(beta(2)./x);(2)输入数据: x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60 10.90 10.76; beta0=8 2';(3)求回归系数: beta, r ,J= nlinfit(x', y', 'volum',beta0); beta得结果:beta = 11.6036 -1.0641即得回归模型为:(4)预测及作图: YY, delta= nlpredci('volum', x', beta, r ,J); plot(x, y, 'k+', x, YY, 'r')

    注意事项

    本文(第一节:回归分析.doc)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开