欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第二章一元线性回归模型.ppt

    • 资源ID:3150838       资源大小:1.39MB        全文页数:155页
    • 资源格式: PPT        下载积分:10
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要10
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第二章一元线性回归模型.ppt

    第二章 一元线性回归模型,第一节 相关分析和回归分析 一.经济变量之间的相互关系: 经济变量之间的关系,大体可分为两类,一类是函数关系;另一类是统计相关关系 函数关系是指变量之间存在着完全确定性的依存关系 。例如,当价格不变时,销售量X与销售额Y之间的关系。 相关关系是指现象之间客观存在的非确定性数量对应依存关系 。例如,每亩耕地的施肥量X与亩产量Y之间的关系 。,函数关系与相关关系联系,两者虽有明显区别,但两者之间并无严格的界限,由于存在测量误差等原因,函数关系在实际中往往通过相关关系表现出来; 在研究相关关系时,若要找出现象间数量的内在联系和表现形式,往往又需要借助函数关系的形式来加以描述; 因此,可以说,相关关系是相关分析的研究对象,函数关系是相关分析的工具。,二、相关分析,研究一个变量与另一个(组)变量之间 相关方向和相关密切程度的一种统计分析方 法。 相关分析目的: 明确变量之间有无关系, 确定相关关系的表现形式(曲线与直线), 判定相关关系的方向, 测定相关关系的密切程度等。,(一)、相关关系的分类,1.从变量之间相互关系的方向来看,可以成为正相关与负相关; 2.按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关、偏相关; 3.按变量之间相关关系的表现形式来看,可以分成为直线相关和曲线相关; 4.按相关的程度来分,可以分为不相关,不完全相关和完全相关三类; 函数关系是相关关系的一种特殊情况。,(二)相关关系的度量,在相关分析中,通过绘制相关表和相关图,可以对现象之间存在的相关关系的方向、形式和密切程度作直观的、大致的判断。 1.相关表:将现象之间的相关关系,用表格来反映,这种表称为相关表,分为简单相关表和分组相关表。例如,某农场试验田在七次试验中,获得的小麦产量与施肥量的观察资料,表2-1 施肥量与小麦产量的观察数据,2.相关图:,将变量之的关系,通过图形来表示,这种图形为相关图。又称为散点图,通过相关图,可以大致看出两个变量之间有无相关关系、相关的形态、方向及密切程度。,图2-1相关散点图,3.相关系数,通过线性相关图、表可以粗略地观察两个变量之间相互关系的类型、方向以及相关的密切程度,但无法确切地表明两个变量之间线性相关的程度。 英国著名统计学家卡尔·皮尔逊(Karl Pearson)1890年设计了一个用于测定两个变量之间线性相关程度和相关方向的指标简单相关系数,也称为Pearson相关系数。 (1)相关系数的定义 (2)相关系数的计算 (3)根据相关系数初步判定变量之间的关系 (4)简单相关系数的缺陷,(1)相关系数的定义,离差,在、象限:,在、象限:,(x,y符号相同),(x,y符号相反),判断,如果所有的观测值落在、象限,离差之积 为正,则X、Y为正相关,如果所有观测值在、象限,离差之积 为负,则X,Y为负相关,如果所有的观测值散落在四个象限内,则正的和负的乘积 趋于互相抵消,其乘积之和将趋于0。 如果所有变量值X和Y与其平均数的离差乘积之和为正,则X和Y之间就是正相关。用符号表示为: 如果所有变量值X和Y与其平均数的离差乘积之和为负,则和之间是负相关。用符号表示为:,缺点:,离差乘积之和 提供了X和Y之间的一个相关度量。但是,这样来度量相关关系,只能表示相关方向,要表示具体相关程度还有缺点: 受观测值数目n影响,观测值数目n越多, 越大,相关程度越强; 受X,Y计量单位的影响,如果将X和Y的单位改为吨,则X,Y数值就更小,同样观测值,相关度量结果不同。,为了克服第个缺点,用观测值数目n除xy,即 叫做X和Y的协方差, 协方差不仅能直接显示X与Y是正相关还是负相关;而且能反映X与Y两个变量的“共变性”。 Sxy消除了样本单位数多少的影响,但仍然受观测值计量单位的影响;,为了克服第缺点,给协方差除以X,Y各自的标准差: Sx , Sy 这样便可消除变量计量量单位的影响。 标准差Sx和Sy的作用,在于对X,Y与各自平均数的离差,分别用各自的标准差为尺度,加以标准化,然后再求标准差的协方差,用符号 表示,即:,相关系数定义式,皮尔逊相关系数的最简式,其中:,2.相关系数的计算,积差式,同理:,相关系数简捷式,相关系数平均式,4.等级相关系数,也称为斯皮尔曼 (Spearman) 相关系数,用来度量定序变量之间的线性相关关系,就是把有联系的定量变量或定性变量的具体表现按等级次序排列,形成两个定序数列,再测定标志等级与标志等级间的相关程度的一种方法,等级相关法又称顺位相关法. 用rs表示。 式中,n为样本容量,D为序列等级之差,即d=X等级-Y等级 。Spearman相关系数的适用范围较Pearson相关系数要广得多。,(三)相关系数的范围,1.相关系数的绝对值不超过1,即|r|1 2.根据相关系数的符号,判定正相关(正比例)r 0、负相关(反比例)r0. 3.根据相关系数的大小,判定: 当r= 0时,称为不相关。或者不存在直线相关,但可能存在其他类型的关系。 当0 |r| 0.3时, 称为微弱相关。 当0.3 |r| 0.5时,称为低度相关。 当0.5 |r| 0.8时,称为中度相关。 当0.8 |r| 1时,称为高度相关。 当 |r| =1,完全相关,即所有散点完全在一条直线上,也就是函数关系。,正相关(我国人均消费函数),X为我国人均国民收入,Y为我国人均消费, 相关系数:0.98,负相关,Y与X的相关系数:-0.92,不相关(不排除存在曲线相关),相关系数为:4.24E-18,Y,X,(四)相关分析的特征,.两个变量是对等关系,不分彼此,不反映任何自变量和因变量的关系,互换顺序是一样的,是双向的关系。 . 相关系数的范围是 -1r1,其值大小反映两变量间相关的密切程度,正负号表示正相关或负相关,其值的大小与尺度无关。 .两个变量都是随机变量,这也反映对等关系。而且相关关系要以定性分析为前提,不然就会出现“虚假相关”。,(五)简单相关系数的缺陷,(1)只能度量两个变量之间呈线性相关比例变化的关系,当|r|很小甚至等于0时,不一定表明X与Y之间就不存在其他非线性类型的关系 (2)只能算出一个相关系数;r表明两变量之间的线性关系,只表明协变的存在,不揭示变异的原因,不能确定变量之间的因果关系。 (3)简单相关系数只适用于两个变量之间的相关关系,所以称为简单相关系数若变量为三个或三个以上时,就要用复相关系数计算。,(4)偏相关系数,大千世界中复杂的、多种因素存在相互关联。为了描述其间的关联,这里定义的相关系数虽然比协方差指标优越,但是仍然存在不足之处:它裹胁了其它变量的影响或者它们之间的关系乃是其它变量的变化所致. 要剔除其它变量的影响,只研究指定两个变量的影响,必须再定义偏相关系数令其它变量保持不变,此时这两个变量的相关系数,称为偏相关系数。,总体相关系数,两个变量X和Y之间真实的线性相关程度是用总体相关系数表示的。总体相关系数为: 式中, 分别是总体X和Y的协方差,X的总体标准差和Y的总体标准差。 由于总体未知,无法计算,我们可以利用样本观测值的相关系数r给出 的一个估计,即样本相关系数r是总体相关系数的估计值。,三、回归分析,回归分析的主要内容: (一).回归的含义及特点 (二).回归分析与相关分析的联系 (三).回归分析的基本概念 1.总体回归函数 2.总体回归模型 3.样本回归函数 4.样本回归模型,(一).回归的含义,回归分析的产生的历史 回归分析法最早由著名的英国生物学家、统计学家高尔登(F.Gallton)达尔文的表弟所创。早年,加尔顿致力于化学和遗传学领域的研究。 1889年高尔登和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式,在研究父亲们的身高与儿子们的身高之间的关系时,主要是想由此来探讨人口的平均身高具有稳定性的原因,建立了回归分析法。,1.“回归”一词的由来,“回归”见1889年F.Gallton的论文普用回归定律。 他在研究中发现;一群高个子的父亲的子女的平均高度要低于其父辈的平均身高,一群矮个子父亲的子女的平均身高要高于其父辈的平均身高。 或者说,高个子父亲的子女的平均高度与矮个子父亲的子女的平均高度都有“回归”到全体父辈的平均高度的倾向(趋势), 用高尔登的话说,这是“回归到中等”。,2.回归分析的现代含义:,现在回归分析法已远非高尔登的本意,而是研究子女的平均身高如何随着其父亲身高的变化而变化,即研究子女的平均身高对父亲身高的依赖性。并探讨如何根据父亲的身高,来预测和估计子女的平均身高。 对于“父亲身高”的每一水平,相应得到的是“子女身高”的一个分布(这可以通过重复抽样得到) 。而且,随着“父亲身高”的增加,子女的平均身高也在增加,可用一条直线近似地似合这些平均值点。如下图:,这条直线近似地反映了子女身高对父亲身高的依赖程度,而回归分析所要研究的就是这种依赖性。,再例如,家庭的消费支出与家庭收入有着密切的关系,而回归分析所要研究的就是家庭的平均消费支出如何随着家庭收入水平的变化而变化,以及对应于每一个特定的家庭收入水平,其相应的平均消费支出水平是多少。 回归分析用以找出变量之间关系的具体表现形式,成为探索变量之间关系的最重要方法。,3.回归分析的定义,研究一个变量(被解释变量或因变量)对一个或多个其他变量(解释变量或自变量)的依赖关系,其目的在于根据已知的或固定解释变量的数值,来估计或预测被解释变量的总体平均值。 这个定义归纳起来为两点:一是研究被解释变量对解释变量的依赖关系,采用的方法是配合直线或曲线。二是研究目的是用解释变量的值来预测或估计总体的平均值。,4.回归分析的分类,回归分析是指对具有相关关系的变量,依据其关系的形态,选择一个合适的数学模型(回归方程),用来近似地表示变量间数量平均变化关系的一种统计方法。 按分析变量的多少,可以分为一元回归分析与多元回归分析; 按分析变量间表现形态不同,可以分为线性回归分析与非线性回归分析等。 本章仅讨论只有一个自变量的一元线性回归分析的有关理论与方法。,5.回归分析的特点,两个变量之间不是对等关系。即必须根据研究目的,确定其中一个是自变量,另一个是因变量;是单向关系。 回归方程反映的是变量间的具体的变动关系,不是抽象系数,在X,Y两个变量中,从方程式看,存在着两个回归式,是两条斜率不同的回归直线,其意义是不同的。其回归系数有正负号,表示两个变量变动的方向,大小表示在单位一定的情况下意义是明确的。 回归分析对资料的要求是,因变量是随机变量,而自变量是可控制的变量,是给定的数值。,(二).相关分析与回归分析关系,相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象之间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行回归分析,即使勉强进行了回归分析,也是没有意义的。 回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关的分析和预测,相关分析才有实际的意义,回归分析和相关分析与因果关系,回归分析是在相关分析和因果关系分析的基础上,去研究解释变量对应变量(被解释变量)的影响。 因果关系是指两个或两个以上变量在行为机制上的依赖性,即指一个(或一组)变量直接影响、决定另一个变量的水平,因果关系确立的前提是必须对经济行为进行定性分析和理论上的思考。 具有因果关系的变量之间一定具有数学上的相关关系,有相关关系的变量之间并不一定具有因果关系,因此,回归分析正是研究具有因果关系的相关关系。,(三).回归分析的基本概念,回归分析是研究一个变量(被解释变量)对一个或多个其它变量(解释变量)的依存关系; 由于统计相关的随机性,回归分析关心的是当一个或多个其它变量(解释变量)取某个确定值(条件)时,与之相关的另一个变量(被解释变量)所有可能出现的对应值的平均值。 例如研究家庭消费支出对家庭可支配收入的依存关系:,例: 60户家庭可支配收入和消费支出情况,每月家庭消 费支出,的条件均值,不同收入水平的家庭消费支出散点图,1.总体回归函数,由散点图可以看出,均值点恰好都落在一条直线上,称这条描述条件均值变化情况的直线为总体回归直线(函数)。 一般地,对应每一个收入水平X,都可以得到一个Y的条件均值,说明E(Y/x)是x的一个函数,用公式表示即为: E(Y/Xi)=f(Xi) (2-10) 称(2-10)式所代表的函数为总体回归函数,常记为PRF(Population Regression Function) PRF描述了总体的平均变化情况。总体回归函数具体取什么函数形式,需要根据实实践经验和经济理论来确定,最简单的是线性总体回归函数。,2.随机扰动项,总体回归函数只是描述了总体变化情况,也就是说,回归直线只是在其它条件保证不变的情况下,代表平均消费和收入之间的精确关系(函数关系) 但就个别家庭来说,其消费支出就不全在这条直线上,而是围绕着这条直线上下波动,与该点的均值产生一个偏差。为了更完善地描述个别家庭消费者支出的变化情况,特引进一个变量 。 (2-11) 偏差ui是一个不可观测的、可正可负的随机变量,在计量经济学中称作随机扰动项(stochastic disturbance)或随机误差项(stochastic error),3.总体回归模型,引入随机扰动项ui之后,对应每一个可支配收入Xi值就有多个家庭的消费支出Yi值,亦即Yi的值有一个概率分布,而不是一个确定的单一值,所以,其关系表示为: (2-11) 称(2-11)式为总体回归模型( PRM ,Population Regression Model) (2-11)式表明,给定可支配收入水平Xi,个别家庭的消费支出Yi由两部分组成:一部分是 ,即由X的变化所引起的Yi(平均)变化部分,另一部分来自未包括在模型中的诸多随机性因素的综合影响部分。,在计量经济学中,可以这样来解释变量间联系的真实关系,如果其他条件都保持不变,则Y的变化完全可以由X的变化来解释。但是,在实际经济现象中,其他因素不能不保持不变,因此,在函数中引进随机扰动项,用来说明未明显包括在函数中的其他变量的变化。 误差的随机性使得Y与X之间呈现出一种随机的因果关系,由于经济变量之间大多数量是不确定的相关关系,因此,用这种形式描述经济关系更加准确。 随机扰动项ui具有非常丰富的内容,起着重要的作用,随机扰动项的性质决定着计量经济方法的选择和使用,因此,将要专门讨论随机误差项的特性。,随机扰动项意义:,4.样本回归函数(SRF),随机样本(一),随机样本(二),例图,4.样本回归函数,为了反映总体的变化情况,我们只能由样本“信息”来估计总体,根据样本资料所做出的,用以估计总体回归函数的函数,就称为样本回归函数,记为SRF(Sample Regression Function)。 显然,样本回归线的函数形式应与总体回归线的函数形式一致。若是总体回归线为 , 则样本回归线可表示为: (2-12) 其中 是样本回归线上与X相对应的值,可视为总体条件均值的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数。,5.样本回归模型,由于随机性,实际观测到的被解释变量值,并不完全等于其样本条件均值,也即散点图中,样本点与其样本回归直线之间的距离,叫做剩余项或残差(residual),记作ei,那么: 从概念上讲,ei与ui类似,代表了其他影响Yi随机因素的集合,因此可以看出ui的估计量,从而有 即 (2-13) (2-13)式称为样本回归模型Sample Regression Model,简记为 SRM 。,样本回归函数与总体回归函数的关系,进行回归分析的主要目的,就是要根据样本回归模型作出对总体回归模型的估计,在所举家庭收入的例子中,也就是要用 来估计 更确切地,就是根据有可能获得的样本回归函数对总体回归函数做出合理的估计 可是,样本终究不等于总体,样本回归函数SRF几乎总是和总体回归函数PRF存在着差异,这从图2.6可以清楚看出,,样本回归函数与总体回归函数的区别,首先,总体回归模型描述总体中变量Y与X之间的关系,总体回归函数虽然未知,但它是确定的(一条); 样本回归模型描述所观测的样本中变量Y与X之间的关系,而由于从总体中每次抽样都能获得一个样本,就都可以拟合一条样本回归线; 对于不同的样本,由于样本波动,所得的拟合直线也不同,因此,样本回归线是随抽样波动而变化的,是不确定的,可以有许多条,所以,样本回归线还不是总体回归线,至多只是未知的总体回归线的近似反映。,样本回归函数与总体回归函数的区别,其次,总体回归函数是依据总体全体观测资料建立的,其参数 是确定的常数;而样本回归函数依据样本观测资料建立的,参数 是随抽样而变化的随机变量。 再次,总体回归函数中的 是不可直观测的;而样本回归函数中的ei是只要估计出样本回归的参数就可以计算的值。 总之,由于样本对总体存在代表性误差,样本回归函数几乎总是与总体回归函数存在差异 。,图中: A点左边部分SRF过低估计了PRF, A点右边部分义过高估计了PRF。,第二节 回归模型的参数估计,一、普通最小二乘估计 二、拟合直线的性质 三、回归模型的基本假定 四、OLS估计式的特性 五、参数的估计误差与置信区间,一.普通最小二乘估计 (Ordinary Least Square) 简称OLS ),问题的提出必要性,通过相关系数或协方差证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质正(负)相关和相关程度的大小。 既然它们之间存在线性关系,接下来必须探求它们之间关系的具体表现形式是什么? 最好用数学表达式将这种关系尽可能准确、严谨的表示出来Y=0+1X+u把它们之间的内在联系挖掘出来。也就是直线中的截距0=?;直线的斜率1=?,解决问题的思路可能性,由于Y=0+1X+u中的截距和斜率不可能得到,只能获得来自于总体的样本,假设从总体中获取了一组(Xi,Yi)的样本观察值(X1,Y1),(X2,Y2),(Xn,Yn); 于是,可采用不同的方法确定样本回归直线以拟合样本观察值, 寻找变量之间直线关系的方法很多,比如直观画线法,几何划线法(两点连线),半数平均法等; 那么如何从这些曲线中选择一条最佳拟合直线?,最小二乘法的思路,1为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面。 2在Y与X的散点图上画出直线的方法很多。任务?找出一条能够最好地描述Y与X(代表所有点)之间的直线。 3什么是最好?找出判断“最好”的原则。 直观地,从几何意义上讲,应该使样本回归曲线尽量靠近这些数据点。,三种距离,距离是度量实际值与拟合值是否相符的有效手段,点到直线的距离点到直线的垂直线的长度。 横向距离点沿(平行)X轴方向到直线的距离。 纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。即是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。,最小二乘法的数学原理,最好也就是使剩余ei(或残差)都很小,可是,因为ei有正有负,简单代数和 相互抵消 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线“拟合总误差达到最小”; 公式: 于是可以运用微分学中求极小值的原理,将求最好拟合直线问题转换为求误差平方和最小。,数学推证过程,最小二乘法原理:要求各个散点到回归直线的离差的平方和最小。即 (2-19) 是 的二次函数并且是非负的,连续可微的,所以存在极小值; 根据微分学分别对 求一阶偏导数,并令其等于零,就可以得到求 的正规方程,解方程,根据正规方程,可解得 , 如下: 称为回归参数的最小二乘估计式(Ordinary Least squares Estimator)简称为OLSE 其中:n为样本容量,,回归系数 与相关系数r关系,如果用变量值X和Y与其平均数的离差形式表示,则:,二、拟合直线的性质,样本回归直线经过样本均值点 估计残差的均值为零 Y的真实值和拟合值有共同的均值 估计残差与自变量不相关 估计残差与拟合值不相关,样本回归直线经过样本均值点,根据正规方程: 两边同除以n得: 因此有: 所以样本回归线 必然通过均值点( ),估计残差和为零 ( ),由 因为 所以 即:,3Y的真实值和拟合值有共同的均值 ( ),因为 而 所以 即 这说明,对 的每一个预测值都可估计出 ,由各个样本观测值所估计的 的均值与实际样本观测值 的均值 相等。,4估计残差与自变量不相关 ( ),因为,由最小二乘法(2-21)式知:,所以: 从而 ,说明 不相关,5估计残差与拟合值不相关 ( ),由此可见, 不相关,关于回归直线性质的总结,三、回归模型的基本假定,(一)关于随机项的假定 零均值假定 同方差假定 非自相关假定 解释变量与随机误差项不相关假定 正态性假定,1. u是一个随机变量,其均值为零,此假定表示对于每一个Xi, 的值可在其条件均值的上下波动, 与其均值的偏差有正有负,但在大量观测下,平均来说其总和为零,(2.2.1),同时假定:,此假定表示对于每一个Xi,由于随机扰动因素的存在,Yi的值在其条件均值E(Y/Xi)附近上下波动,如果模型设定正确,Yi相对于E(Yi/Xi)的正偏差和负偏差都会有,故此随机扰动项可正可负,发生的概率大致相同,平均地看,这些随机扰动项有互相抵消的趋势。在此假定下,才有: E(Yi/Xi)=EE(Yi/Xi)+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi)=E(Yi/ Xi)= 显然,这里暗含着的假定条件,也就是假定总体回归直线通过X与Y的条件均值组成的点。,2u的方差为常数(同方差假定),此假定表示对于所有的Xi,ui对其均值的分散程度都是相同的。且方差都等于某个常数 ,如图2.8所示。,同时假定:,可以推证:因变量Yi与ui具有相同的方差,这是因为,因此,该假定同时表明,被解释变量Yi可能取值的 分散程度也是相同的。,3u的协方差等于零 (COV(ui,uj)=0 (ij),即随机误差项之间是互不相关,互不影响的。 由于 即有: 此假定表示不同观测值的随机项是互不相关的,即不会出现图2.9中(a)(b)情形,而呈现的是(c)的情况。,该假定同时表明,被解释变量Yi的序列值 Y1,Y2,,Yn之间也是互不相关的。这是因为:,COV(Yi,Yj)=EYi -E(Yi/Xi) Yj -E(Yj/ Xi) = E(uiuj)=0。,4u与解释变量无关,此假定表示扰动项与解释变量不相关,即Xi项与ui项不趋向于共同变化,各自分别独立对 Yi产生影响。 事实上,在回归分析中,X在重复抽样中固定取值,是确定性变量,因此,Xi与ui不相关的假定一般都能够满足。,5.正态性假定:uiN(0, ),即假定ui服从均值为零、方差为 的正态分布,假设5也表明被解释变量Yi服从均值为 、方差为 的正态分布,即: YiN( , ) . 如果只利用最小二乘法进行参数估计,不需要误差项ui服从正态分布这个假定条件,如果要进行假设检验和预测,就必须知道总体Yi的分布情况,如果Xi为非随机变量,总体Yi与误差项ui之间仅有均值E(Yi) 的差别。 由于被解释变量分布的性质决定于u,对于u的各项假定也适用于Yi的假定,中心极限定理,定理:独立同分布随机变量,当随着变量个数的无限增加,其和的分布趋向于服从正态分布。 扰动项代表大量未明确引入回归模型的独立变量(对于被解释变量)的联合影响,但这些被略去的变量所产生的影响都较小,有的可以度量,有的不可度量,可看作随机因素 。 即使变量数目不是非常大或者这些变量不是严格独立的,它们的和仍然可以服从正态分布。正是这个中心极限定理为的正态性假定提供了理论依据,故正态性假定通常也不作检验。,高斯假定或古典假定,线性回归模型如果满足以上假定条件,就称为古典的(或普通的)线性回归模型,它是德国数学家Gauss于1921年首先提出的,所以也称为高斯假定或古典假定。 直观地看,这些假定的作用是便于分离回归模型中每个因素的单独影响,在回归分析的参数估计和统计检验理论中,许多结论都以这些假定作为基础,换句话说,这些假定的成立与否将直接影响回归分析中统计推断的结论。 计量经济学正是对包括这些假定在内的传统回归分析理论做了进一步的研究而有所发展,因此,也有人将计量经济方法称为现代回归分析。,(二)对变量和模型的假定,1解释变量是非随机的,即在重复抽样时,解释变量是一组固定的值,也就是说解释变量无测量误差。 2被解释变量(对应于某一固定的解释变量)可以是随机的,Y的值可能包含或者不包含测量误差。 3,1解释变量是非随机的,即在重复抽样时,解释变量是一组固定的值,也就是说解释变量无测量误差。 2被解释变量(对应于某一固定的解释变量)可以是随机的,Y的值可能包含或者不包含测量误差。 .正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。,当估计出模型参数后,接下来就要研究参估计值的精度,即样本的估计值能否代表总体参数的真值。利用最小二乘法求得模型总体参数 和 的估计量 和 是样本数据Xi和Yi的函数,由于Yi 的随机性以及抽样时样本的随机波动,使参数的估计量和也是随样本而发生变化的随机变量。 每次抽样后,用最小二乘法估计的 和 与其总体参数值 和 总会有差异,但是在古典假定成立的情况下,最小二乘法估计的 和 是总体参数值 和 最佳线性无偏估计量(Best linear Unbiased Estimator简称BLUE),这就是著名的高斯马尔可夫定理 .,四、最小二乘估计的特征,1无偏性(无偏估计式),(一)一个“优良”的估计式应具备的统计性质,2最小方差性(最佳估计式),设 是参数 的估计式,若对参数 的任意一个估计式都有 成立,则称 是 的最小方差估计式。,3线性估计式,一个估计式如果是样本观测值的线性函数,也就是说它决定于样本数据的线性组合,它就是线性估计式,若样本观测为 ,则线性估计式将如以下形式:,4有效性(有效估计式),一个估计式与其它任何无偏估计式比较时,当它具有无偏性且方差最小,它就是有效估计式,也就是说在所有无偏估计式中方差最小的估计式就是有效估计式。此性质说明,“无偏性”和“最小方差性”,虽然都是一个“优良”的估计式应具有的重要特性,但对它们每一个孤立地来说,其本身并不重要,只有两个结合起来使用才有意义。 一个估计式与真实参数的所有其他线性无偏估计式相比,如果它是线性的,无偏的,并且具有最小方差,它就是最佳线性无偏估计式BLUE(Best Linear Unbiased Estimator),(二)OLS估计式的特性,1、线性性:,同理可得:,2、无偏性,代人,所以,同理可得:,3、估计量方差最小的证明(思路),因为最小二乘估计量是线性的,设有一个任意的不等于最小二乘估计量的线性的无偏的估计量 。 如果证明这个任意的线性无偏估计量的方差大于最小二乘估计量的方差 那么,最小二乘估计量的方差就是一切线性无偏估计量中方差最小的,因而也是最好的。,(1)先求 和 的方差:,或:,(2)证最小方差性:,假设 是其它方法估计出的总体参数值 的线性无偏估计量,即 ,且 ,其中, 为不等于 的权数。,要使无偏性成立,必须满足:,又因,因为,所以,即,而且等号只有当ci=ki时才能成立,同理,五、参数的估计误差与置信区间,1估计误差 最小二乘估计得到的 和 ,只是总体回归参数 和 的点估计值,这种点估计是由样本得出的,由于存在抽样波动,不同的样本可能得出不同的点估计值,虽然其期望都为 和 ,即 和 是 和 的无偏估计量,但每个点估计值未必都等于 和 ,也就是说存在估计误差,即估计值 与真值 有偏差 - 当然,我们希望知道估计误差究竟有多大,或者说 与 接近程度如何?,随着抽样的不同,误差大小( - )是一个随机变量,因此,需要考虑概率意义下的平均误差,由于 所以不能直接对估计误差取均值,而应对误差的平方取平均,即: 可以看出,这是估计量 的方差;这一点也容易理解,因为OLS估计是无偏估计,均值即为参数真值,所以估计量关于均值的平均偏差方差也就反映了估计量与参数真值的平均偏差。,标准误差SE(Standard Error),由于方差的计量单位与原变量的不一致,因此,在计量经济分析中常用标准误差去度量估计量的精确性,标准误差是方差的平方根,用SE(Standard Error)表示,这样,参数估计量的平均误差为: 这说明:由于是的无偏估计量,均值即为参数 真值, 的分布中心是 。标准差SE( )可用来衡量估计量 接近真值 的程度,判定估计量 的可靠性。所以估计量关于均值的平均偏差标准差也就反映了参数估计量与参数真值的平均偏差.,总体方差 估计,由于总体方差 未知,和 的方差和标准差实际上无法计算。由于随机扰动项ui不可观测,我们只能从ui的估计量残差ei出发,对总体方差 进行估计。 可以证明(证明见本章附录C):总体方差 的无偏估计量为: 即: 因此,可以用 代替 ,参数估计量的估计标准误差就成为:,估计误差,同理参数估计量 的估计标准误差为: 把 简称为 和 的估计误差。 参数的估计误差只是反映了估计量与真值的平均相对偏离程度; 越小,则 与 的近似误差越小,但不能认为 与 之间的绝对误差就是 。 这可以从参数的置信区间得到进一步的说明。,2区间估计,利用普通最小二乘法得到的只是参数的点估计,只是待估参数的一个近似值,而点估计本身既没有反映这种近似值的精确度,又不知道它的误差范围。 为了对参数的取值情况有更多的了解,可以按一定的可靠性确定参数真值的取值范围,用统计术语来说,就是在一定置信度下,求参数的置信区间,这就是参数的区间估计。为了说明这些问题,需要先确定最小二乘估计量的概率分布。,的概率分布,总体回归模型 根据基本假定5 可得:YiN( , ) . 由于 和 分别是Yi的线性组合函数,根据数理统计中正态分布变量的性质,即正态变量的线性函数仍服从正态分布,其分布函数由其均值和方差唯一决定 。 因为E( )= 所以:,t分布,由数理统计的定理知:若 是 的无偏估计 ,则统计量: 将 作标准化变换得: 根据t检验的定义得:,置信度,对于给定的显著性水平 ,即置信度为 时,当自由度一定时,统计量t的置信区间即已确定。 由于t分布曲线对称于纵轴,故随机变量t落入区间 范围内的概率为 ,等于t分布曲线下由直线 及横轴所围的面积,如图:,置信区间,即就是 代换 即 于是,对于给定显著性水平 ,参数的置信度为1- 的置信区间为: 同理: 解释,第三节 一元回归模型的统计检验,一、回归系数的显著性 二、模型的拟合优度检验R2检验 三、模型的显著性检验F检验,一、回归系数的显著性,1. 假设检验的基本思想 为什么要作假设检验? 所估计的回归系数 、 和方差 都是通过 样本计算的,都是随抽样而变动的随机变量,它们真值 和 之间的差异是否显著还需要加以检验。 所谓假设检验,就是对于未知参数,先假设一个确定值,然后根据随机选取的样本数据,采用适当的方法,检验参数的假设值与真实值是否一致,从而决定接受或拒绝假设值。,对回归系数假设检验的基本思想,在所估计样本回归系数概率分布性质已确定的基础上,在对总体回归系数某种原假设成立的条件下,利用适当的有明确概率分布的统计量和给定的显著性水平 ,构造一个小概率事件,判断原假设结果合理与否。 因为一个小概率事件在一次观察中可以认为基本不发生,如果该事件发生,就认为原假设不真,从而拒绝原假设接受备择假设。,对回归系数假设检验的方式,由于总体参数 和 是未知的,因此,需要对这两个总体参数进行假设检验; 计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。 目的:对简单线性回归,判断解释变量X是否对被解释变量 的显著影响因素。 在一元线性模型中,就是要判断X是否对Y具有显著的线性影响。这就需要进行变量的显著性检验。,回归系数的检验方法,已知 的概率分布 ,就可以对进行显著性检验, 在实际应用时,由于 未知,只能用其无偏估计量 代替,这时 的标准化变量就服从自由度为n-2的t分布,而不是正态分布: 即:,总体参数显著性进检验的步骤:,1对总体参数提出假设:原假设H0: =0 备择假设H1: ,因此,备择假设是双边检验。 2构造统计量, 3. 在原假设H0的条件下,由样本观测值计算统计量t的值。 4.给定显著性水平 ,查自由度为n-2的t分布表,得临界值 。 5作出推断:若 则拒绝H0: =0;接受0,即 与0有显著区别,所对应的变量X对Y的影响不容忽视。,二、模型的拟合优度检验R2检验,问题的提出 因为OLS估计式具有最小方差性和无偏性,只是反映了这样一个事实,即相对于一切样本回归函数来说,由OLS估计式所确定的样本回归函数具有某些特性,但它并不能说明单个样本回归函数具有较高的拟合程度; 虽然最小二乘法已经使所估计的样本回归函数具有最小残差平方和即达到最小,但残差平方和即的值本身可能会很大;因此,就需要有一个度量拟合优度的相对指标。 下图可以帮助我们理解这个问题,点与直线拟合很差,1.总离差平方和的分解,设对于样本观察值 ,由OLS得到的样本回归直线为SRF,,总变差的分解,由图可看出,Y的第i个观察值与样本均值的离差称为总离差, 记 ,总离差可以分作两部分: 一部分: 是通过样本回归直线计算的拟合值与观察值的平均值之差。它是由样本回归直线(解释变量)所解释的部分,是由于X的变化而引起的Y的变化。 另一部分: ,是实际观察值与回归直线的拟合值之差,称为残差,是样本回归直线所不能解释的部分,是由随机因素,观测误差等综合影响而产生的。,总变差平方和的分解,因为, , 因此,我们利用加总全部离差平方和来反映总离差。 又因为, 所以,,(TSS)( RSS

    注意事项

    本文(第二章一元线性回归模型.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开