《第三章回归分析预测方法.ppt》由会员分享,可在线阅读,更多相关《第三章回归分析预测方法.ppt(103页珍藏版)》请在三一文库上搜索。
1、,第三章 回归分析预测方法,5 非线性 回归预测法,1 引言,2 一元线性 回归预测法,3 多元线性 回归预测法,4 虚拟变量 回归预测,要求掌握以下内容:,概念部分: 1. 变量之间的关系可以分成哪两类 2. 回归分析与相关分析的区别和联系 3. 一元线性回归(Linear regression) 4. 最小二乘回归法的基本思想 5. 回归方程的显著性检验 6. 区间估计 7. 虚拟变量 计算部分: 8. 一元线性回归预测法,第一节 引言,本章学习目的与要求: 通过本章的学习,了解回归分析预测法的概念,掌握回归分析中各系数的计算方法及回归预测方法,能够运用Excel工具来进行预测。,回本章目
2、录,案例: 有20户家庭,冬天的取暖费用与3个因素有关:日间户外的平均温度,阁楼绝缘层的厚度,以及炉子的使用年数。如果某一家庭的平均户外温度是F30度,阁楼绝缘层的厚度为5英寸,炉子已使用过10年,它的冬天取暖费用为多少?,一、回归与回归分析预测方法 “回归”一词的涵义 “回归”最初是遗传学中的一个名词,由英国生物学家兼统计学家高尔登首先提出。他在研究人类的身高时,发现子女身高有回归于人类的平均身高的趋势。,回归现代涵义 研究自变量与因变量之间的关系形式的分析方法。 目的:根据已知自变量来估计和预测因变量的值。 例如:,在研究某一社会经济现象的发展变化规律时,经过分析可以找到影响这一现象变化的
3、原因。在回归分析中,把某一现象称为因变量,它是预测的对象,把引起这一现象变化的因素称为自变量,它是引起这一现象变化的原因。而因变量则反映了自变量变化的结果。,回归分析预测方法就是从各种经济现象之间的相互关系出发,通过对与预测对象有联系的现象变动趋势的分析,推算预测对象未来状态数量表现的一种预测方法。,二、回归分析和相关分析,1、变量之间的关系 现实世界中,每一事物都与它周围的事物相互联系、相互影响,反映客观事物运动的各种变量之间也就存在着一定的关系。变量之间的关系可以分成两类:函数关系和相关关系。,(1)函数关系。函数关系反映客观事物之间存在着严格的依存关系,是一种确定性关系,亦即当其它条件不
4、变时,对于某一自变量或几个自变量的每一数值,都有因变量的一个的确定值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。,设有两个变量x和y,y与x一起变化并完全依赖于x,当x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记作y=f(x)。 如,企业的原材料消耗金额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为y=x1x2x3。例:圆面积对于半径的依存关系,正方形的面积对于边长的依存关系等等。 变量间的函数关系是一一对应的确定关系。,(2)相关关系,相关关系。反映事物之间的非严格、不确定的线性依存关系。有两个显著的特点: 事物之间在数量上确实存在一定的内在
5、联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。 例: 事物之间的数量依存关系不是确定的,具有一定的随机性。表现在给定自变量一个数值,因变量会有若干个数值和它对应,并且因变量总是遵循一定规律围绕这些数值平均数上下波动。其原因是影响因变量发生变化的因素不止一个。 例:影响工业总产值的因素除了职工数外,还有固定资产原值、流动资金和能耗等因素。,相关关系的特点 1变量间关系不能用函数关系精确表达。 2一个变量的取值不能由另一个变量唯一确定。 3对于线性相关,各观测点分布在直线周围。,不相关,正相关,负相关,相关但无线性关系,2、回归分析与相关分析,研究和测度两个或两个
6、以上变量之间关系的方法有回归分析和相关分析。 相关分析。研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。 回归分析。研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动的关系。,相关分析,相关关系,线性相关,非线性相关,完全相关(R=1) (即线性相关),不相关(R=0),正相关,负相关,正相关,负相关,相关系数对变量之间关系密切程度的度量 的取值范围是 -1,1: 完全相关 /完全正相关 /完全负相关 /不存在线性相关关系 /负相关 /正相关 一般,r0.7为高度相关;r0.3为低度相关;0.3 r0.7 为中度相关
7、。,相关系数的缺点:r接近于1的程度与n有关。当n较小时r的波动较大,当n较大时r的绝对值容易偏小。例如,n=2时,r的绝对值总为1(两点连线总为一条直线)。,例3-1 设有10个厂家的投入和产出如下,根据这些数据,我们可以认为投入和产出之间存在相关性吗?(相关数据),回归分析是研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动的关系。其基本思路是:从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。然后利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变
8、量的取值,并给出这种预测或控制的精确程度。,3、回归分析的基本思路,三、回归模型的种类,(1)根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。 (2)根据模型中自变量与因变量之间是否线性,可以分为线性回归模型和非线性回归模型。 (3)根据回归模型是否带有虚拟变量,回归模型可以分为普通回归模型和带虚拟变量的回归模型。,应用回归分析预测需满足条件: 1.数据量不能太少(以多于20个较好); 2.预测对象与影响因素之间必须存在相关关系;,第二节 一元线性回归预测法,一元线性回归(Linear regression)是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求
9、出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。 现实中,很多社会经济现象之间都存在相关关系,因此,一元线性回归预测有很广泛的应用。进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。,回本章目录,一、一元线性回归模型,一元线性回归(Linear regression),只研究一个自变量与一个因变量之间的统计关系。 对于只涉及一个自变量的简单线性回归模型可表示为: 其中,b0和b1称为模型的参数;e是随机误差项,又称随机干扰项,有,在线性回归模型中加入随机误差项是基于以下原因:,第一,模型不可能包含所有的解释变量。 第二,模型的设定
10、误差。 第三,测量误差的影响。 第四,其他随机因素的影响。,简单线性回归方程的形式为 也称为直线回归方程。其中, b0是回归直线在y轴上的截距; b1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。 总体回归参数b0和b1是未知的,必需利用样本数据去估计。用样本统计量b0和b1代替回归方程中的未知参数b0和b1 ,就得到了估计的回归方程: 其中, b0是估计的回归直线在y轴上的截距,b1是直线的斜率。,二、参数b0和b1的最小二乘估计,对例3-1中两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图中的那些点的趋势。,用数据寻找一条直线的过程也叫做拟合 一条直线。
11、,?,首先需要确定选择这条直线的标准。这里介绍最小二乘回归法(least squares regression)。 最小二乘回归法的基本思想:通过数学模型,拟合一条较为理想的直线,这条直线必须满足两点要求(1)原数列的观测值与模型估计值的离差平方和(即所有点到该直线的垂直距离的平方和)为最小。(2)原数列的观测值与模型估计值的离差总和为0。,最小二乘法,离差与离差平方,e,e,最小,拟合程度最好,最小二乘原理,简单讲,使历史数据到拟合直线上的离差平方和最小,从而求得模型参数的方法。 法国数学家勒让德于1806年首次发表最小二乘理论。事实上,德国的高斯于1794年已经应用这一理论推算了谷神星的轨
12、道,但迟至1809年才正式发表。 最小二乘法也是数理统计中一种常用的方法,在工业技术和其他科学研究中有广泛应用。,设简单线性回归模型 中, b0和b1是b0和b1的估计值。则y的估计值用 表示。 我们要求出这样的待估参数b0和b1,使因变量的观察值与估计值之间的离差平方和达到最小,即使 极小。为此,分别求Q对b0和b1的偏导,就可以求出符合要求的待估参数b0和b1:,例3-2:已知某种商品的销售量同居民的可支配收入有关,现有如下表的统计数据,试建立回归方程,并求出相应参数的最小二乘估计值。,第一步:绘制散点图,6000,6500,7000,7500,8000,8500,9000,9500,10
13、000,500,550,600,650,700,750,800,850,900,yi(件),xi(10元),950,第二步:设一元线性回归方程为,所求的回归方程为:,6000,6500,7000,7500,8000,8500,9000,9500,10000,500,550,600,650,700,750,800,850,900,yi(件),xi(10元),950,三、回归方程的显著性检验,我们把观测值与其平均值的偏差平方和 称为总离差平方和。记为SST(Total Deviation Sum of Squares)。 SST来源于两个方面:一是由于自变量x的取值不同造成的(回归变差);二是除x
14、以外的其他因素(如观测和实践中产生的误差等)的影响造成的(剩余变差)。可分解为两部分: 其中 称作回归平方和(Regression Sum of Squares),记作SSR; 称作残差平方和(Residual Sum of Squares),记作SSE。,SST=SSR+SSE 总离差平方和 反映因变量的每个观察值与其均值的总离差; 回归平方和 ,反映自变量的变化对因变量 y 取值变化的影响; 残差平方和 反映除自变量以外的其他因素对取值的影响,也称为不可解释的平方和或剩余平方和。,r2 = 决定系数 = r = 相关系数 = 确定性系数,SSR SST,+ -,Y,X,解释的,总的,均值(
15、Y),回归线(Y),未解释的,总的、解释的和未解释的偏离之间的关系,回归方程的显著性检验:,回归方程的显著性检验,就是检验自变量和因变量之间的线性关系是否显著。 有3种方法: 1.F检验法(总体显著性检验)。 2.t检验法(回归系数的显著性检验)。 3.相关系数检验法(回归系数的显著性检验)。,具体方法是将回归离差平方和SSR同剩余离差平方和SSE加以比较,应用检验来分析二者之间的差别是否显著。如果是显著的,则两个变量之间存在线性关系;如果不显著,则两个变量之间不存在线性关系。 检验步骤如下:,1.F检验法(总体显著性检验),(1)提出假设 H0:自变量与因变量的线性关系不显著; H1:两者线
16、性关系显著。 (2)计算检验统计量F: (3)确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值Fa; (4)作出决策:若 拒绝H0 ;若 接受H0 。,在回归分析中通常计算F值来检验模型总体的显著性,在我们后面将要学到的多元回归中,F用来检验是否至少有一个回归系数(因为有多个回归系数)不为0。而在简单回归(一元回归)中只有一个回归系数需要检验,而回归系数就是回归直线的斜率,所以检验总体显著性的F检验就等价于回归系数的检验。 对回归系数的显著性检验就是检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著。,2.t检验法(回归系数的显著性检验),检验步骤如下:
17、 (1)提出假设 (没有线性关系) (有线性关系) (2)计算检验的t统计量 自由度为n-2; (3)确定显著性水平,并进行决策 若 拒绝H0 ; 若 接受H0 。,在“投入与产出”的例1中,相关系数r=0.759,显著性水平0.05时,计算检验的统计量: 查表得 落入拒绝域中,即拒绝H0,接受H1。所以自变量x与因变量y之间相关关系明显,投入量对产出量的影响显著。,3. 相关系数检验法(回归系数的显著性检验),(1)计算相关系数r。 (2)根据回归模型的自由度(n-2)和显著性水平a的值,查表得出临界值 (3)判别:如果 ,则表明两变量之间线性相关关系显著。反之,如果 ,则表明两变量之间线性
18、相关关系不显著。,六、回归方程在估计和预测中的应用,点估计 利用估计的回归方程,对于自变量x(如例1的第2个厂家)的一个给定值x0,求出因变量y的估计值,预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值x0,求出因变量y的一个的估计区间,这一区间称为预测区间。 y0在1-置信水平下的预测区间为:,预测区间为: 所以他的产出的95%的预测区间为24.478和72.627之间。,回到前面的例子,投入为25时,平均产出的95%的置信区间。,当实际观测值较多时(n30), 近似等于1, 近似于正态分布, 上式可简化为,例3-1 设有10个厂家的投入和产出如下,根据这些数据,我们可以认为投
19、入和产出之间存在相关性吗?(相关数据),作业1:某省19781986年居民消费品购买力和居民货币收入统计如下表:1、建立一元线性回归模型。2、对回归模型进行显著性检验(=0.05)。3、若居民货币收入每年平均增长19%,预测1987年居民消费品购买力。4、对1987年居民消费品购买力作个别值区间预测。要求用Excel软件计算,并给出计算结果及截图。,(单位:亿元),作业2:(例3-1 ) 设有10个厂家的投入和产出如下,试建立回归方程,当投入为25时,求出平均产出95%的置信区间。要求用Excel软件计算,并给出计算结果的主要结果(截图)。,作业1:某省19781986年居民消费品购买力和居民
20、货币收入统计如下表:1、建立一元线性回归模型。2、对回归模型进行显著性检验(=0.05)。3、若居民货币收入每年平均增长19%,预测1987年居民消费品购买力。4、对1987年居民消费品购买力作区间预测。,(单位:亿元),设一元线性回归模型为: 计算回归系数。,(单位:亿元),计算回归系数。,所求回归模型为: 相关系数检验法,线形关系显著,检验通过,F 检验。,F 检验。,n =9;= 0.05;查 F 值表得 : F(1,n-2)= F0.05 (1,7)=5.59 样本的统计量 F : F = 77738.11 F F0.05(1,9),表明两变量之间线性相关关系显著,检验通过。,t 检验
21、。,n =9;/2 = 0.025;查 t 值表得: t/2 (n-2)= t0.025 (7)=2.365 样本的统计量 t : t = 218.95;| t | t0.025(7),拒绝假设H0:b=0,而接受H1,即认为 b 显著异于 0,因变量 y 对自变量 x 的一元线性回归成立。,预测,n =9;/2 = 0.025;查 t 值表得: t/2 (n-2)= t0.025 (7)=2.365,预测,当居民货币收入每年平均增长19%,在显著性水平=0.05时,1987年居民消费品购买力的预测区间为53.4659.92亿元,第三节 多元线性回归预测法,社会经济现象的变化往往受到多个因素的
22、影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元回归。,多元回归与一元回归类似,可以用最小二乘法估计模型参数。也需对模型及模型参数进行统计检验。 选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。,回本章目录,一、多元线性回归模型,描述因变量 y 如何依赖于自变量 和误差项 的方程称为多元线性回归模型。 涉及多个自变量的多元线性回归模型可表示为: 总体回归参数 是未知的,要利用样本数据去估计。用样本统计量 代替回归方程中的未知参数,即得到估计的回归方程:,二元线性回归方程为: 其中, 分别是 的偏回归系数
23、。 同理三元线性回归方程为 : 由样本数据推算、估计回归方程中各个回归系数,是多元回归分析中的一个重要方面,下面简要介绍回归系数的计算方法。,二元线性回归方程中回归系数 可由以下方程组解出: 用手解这些方程枯燥而费时,一般来说,自变量超过3个时,要用矩阵运算,可以借助计算机软件解出参数。 下面给出一个三元线性回归模型的例子。,例3-4: 有20户家庭,冬天的取暖费用与3个因素有关:日间户外的平均温度,阁楼绝缘层的厚度,以及炉子的使用年数。有关信息列出在右表中:,试作出三元回归方程并讨论:哪些自变量与因变量正相关?哪些是负相关?如果某一家庭的平均户外温度是30度,阁楼绝缘层的厚度为5英寸,炉子已
24、使用过10年,它的冬天取暖费用为多少?(相关数据),解:设三元线性回归方程为 由软件可得到这题的线性回归方程为: 将x130, x25, x310代入方程,得 由这个线性回归方程可以算出每个家庭的预测取暖费值。残差( )及其平方也列在下表中:,20户家庭预测取暖费值计算表,二、对多元回归模型的评估 如果检验水平合适而且数据足够多,用多元回归模型几乎可以处理所有数据组。模型一旦建立,一件很重要的事就是检验模型与数据是否很好拟合以及与回归分析的假设前提是否相符。 检验回归模型是否恰当的方法有很多,如:检验模型整体的显著性、检验回归系数的显著性、计算残差、检验样本决定系数等。,1. F检验法(总体显
25、著性检验) 对多元回归方程的整体性检验,就是要看自变量 是否从整体上对随机变量有明显的影响。为此,要用到F统计量。 检验方法是将回归离差平方和(SSR )同残差平方和( SSE )加以比较,应用 F 检验来分析二者之间的差别是否显著。如果是显著的,因变量与自变量之间存在线性关系;如果不显著,则因变量与自变量之间不存在线性关系。,多元回归模型的整体性检验的步骤如下: (1)提出假设 H0: H1: 至少有一个回归系数不等于0 。 (2)计算检验统计量 F 回归平方和 ;残差平方和 (3)确定显著性水平和分子自由度m、分母自由度n-m-1找出临界值Fa ; (4)作出决策:若F Fa ,拒绝H0;
26、若F Fa ,接受H0 。,2. 复相关系数检验法(回归系数的显著性检验),步骤: (1)计算复相关系数R。 (2)根据回归模型的自由度(n-m)和显著性水平a的值,查表得出临界值 (3)判别:如果 ,则表明两变量之间线性相关关系显著。反之,如果 ,则表明两变量之间线性相关关系不显著。,多重样本决定系数,多重样本决定系数R2定义为回归平方和占总离差平方和的比例,反映回归直线的拟合程度。公式为: R2的取值范围在 0, 1 之间,R21,说明回归方程拟合的越好; R2 0,说明回归方程拟合的越差。 本题中,,3. 多重预测标准差,预测标准差可以通过SSE除以模型误差自由度再进行开方来计算: 也可
27、以直接计算: 本题中,4. t 检验(回归系数的显著性检验),在多元线性回归中,对每一个自变量都要单独进行检验,应用t 检验。 步骤如下: (1)提出假设 (自变量与 因变量没有线性关系) (自变量与 因变量有线性关系) 如果不能拒绝零假设,说明自变量不显著;如果拒绝零假设,说明自变量是显著的。,(2)计算检验的统计量 t (3)确定显著性水平,并进行决策 拒绝H0 ; 不拒绝 本例中,对户外温度: 对绝缘层厚度: 对炉子已用时间: 设显著性水平为0.05,需检验的各个回归系数的自由度为20-3-116,进行双尾检验。查表得临界值 本题回归方程为:,b1-3.07, 表示对自变量x1的偏回归系
28、数的抽样分布的标准差,由软件计算可知为0.7723。代入数据 所以 ,拒绝H0,说明自变量x1与因变量y有线性关系,户外温度对取暖费有影响。 同理可对其他回归系数分别做显著性检验。,第四节 虚拟变量回归预测,在回归模型分析中,经常发生的情况是:因变量不仅受诸如产量、销售量、收入、价格、身高和温度等数量变量的影响,而且也受诸如性别、文化程度、宗教、战争、地震、季节、地势以及政府经济政策变化等品质变量的影响。在建立线性回归模型时。要将品质变量引入线性回归模型中。 一、虚拟变量 品质变量只能以品质、属性、种类等具体形式表现,必须将其数量化。这种以出现为1,未出现为0形式表现的品质变量,就称为虚拟变量
29、。,回本章目录,常见的带虚拟变量的回归模型有三种形式 (1)反映政府政策变化或某种因素发生重大变异的跳跃、间 断式模型。其模型形式为: (式358) 式中: 为因变量 , 为自变量, 为虚拟变量。设 为观测值出现重大变异的年份,则 的取值为,二、带虚拟变量的回归模型,Xi02,Y,X,(2)具有转折点的系统趋势变化模型,其模型形式为: (式359) 式中: 为虚拟变量。设 为发生转折点的年份, 为 年份 观测值。,Xi02,Y,X,(3)含有多个虚拟变量的线性回归模型: 确定虚拟变量个数的原则:当品质变量 有K各分类时,引入的虚拟变量的个数为K-1。,三、应用举例,第五节 非线性回归预测法,在
30、社会现实经济生活中,很多现象之间的关系并不是线性关系,对这种类型现象的分析预测一般要应用非线性回归预测,通过变量代换,可以将很多的非线性回归转化为线性回归。因而,可以用线性回归方法解决非线性回归预测问题。 下面给出几种常见的非线性模型及其线性化方法。,回本章目录,常见的一元非线性模型有下述几种:,究竟选用哪一种模型拟合,可先将样本序列画图观察其曲线形状来判定。,(1),(2),(3),(4),(5),指数函数,对上式两边取自然对数,得 令 , 则,幂函数,对上式两边取对数,得 令 , 则,双曲线函数,令 ,则 对数函数 令 ,则,S型曲线,令 ,则,例4 已知某商店的商品流通费水平与商品零售额
31、数据资料,试根据以下数据拟和适当的模型。,绘制散点图见下图: 可见上表中的原始数据近似呈双曲线形式变化。因此,可以用双曲线回归方程来描述商品流通费水平与商品零售额之间的变化规律。 为了求得双曲线方程 中的 , 两个参数,可先将此式化为线性方程: 令 ,则,然后采用最小二乘法解出参数。计算过程参照上表,将数据代入下面标准方程组中: 得: 32.110 +0.604 2.210.60 +0.0409 解得 -0.4377 60.4 即 -0.4377+60.4 ,所以 -0.4377+60.4 如果该商店下期的商品零售额估计为28万,则可预测下期的商品流通水平为: -0.4377+60.4 -0.4377+60.4 1.72,作业:某省19781986年居民消费品购买力和居民货币收入统计如下表:1、建立一元线性回归模型。2、对回归模型进行显著性检验(=0.05)。3、若居民货币收入每年平均增长19%,预测1987年居民消费品购买力。4、对1987年居民消费品购买力作区间预测。,(单位:亿元),
链接地址:https://www.31doc.com/p-2968288.html