第2章双变量回归的进一步讨论.ppt

上传人：本田雅阁

文档编号：3470949

上传时间：2019-08-31

格式：PPT

页数：33

大小：542.52KB

《第2章双变量回归的进一步讨论.ppt》由会员分享，可在线阅读，更多相关《第2章双变量回归的进一步讨论.ppt（33页珍藏版）》请在三一文库上搜索。

1、第二章双变量回归的进一步讨论,教师：卢时光,1. 正态性假设,1.1 为什么要对干扰ui的概率分布作出正态性假设？在上一章的分析中，我们并没有对干扰ui的概率分布作出任何假设。我们对ui的描述是：它们的期望值为0，它们是不相关的，并且有着一个不变的方差。有了这些假设，我们看到最小二乘（OLS）估计量有着非常好的统计性质，例如它们是无偏估计的，最小方差。如果我们的目的仅仅是做点估计，则上述假定就足够好了，但是点估计只是统计推断的一个方面，另一方面则是假设检验。,我们的目标并不仅仅是得到，而是要利用它对其真值作出论断。更一般的来说，我们的目的不仅是要得到样本回归函数（SRF），而是要

2、用它来推测总体回归函数（PRF）。那么，我们为什么必须对干扰项ui的概率分布进行进一步的假定呢？事实上，我们在前面的分析中已经强调过，最小二乘（OLS）估计量都是ui的线性函数，因此最小二乘（OLS）估计量的概率分布是依赖于ui的概率分布的。在回归分析中，人们常常愿意假设ui是遵循正态分布的，这种假设是有理由的，我们稍后来证明。我们把假定了干扰ui符合正态分布的模型称为双变量经典正态线性回归模型（CNLRM）。,1.2 正态性假设经典正态线性回归假定每个ui都是正态分布的，且：顺便指出，对两个正态分布变量来说，零协方差或零相关就意味着这两个变量是互相独立的。,ui符合正态分布的解

3、释： 1. ui代表了回归模型中未作为自变量引入的，而对因变量产生影响的其他因素的总和。我们希望这些被忽略的变量的影响是微小的，而且充其量是随机的。利用中心极限定理可以证明，如果存在大量的独立且同分布的随机变量，随着这些变量的数量的无限增大，它们的总和将趋于正态分布。中心极限定理也说明，即便变量的个数是有限的，且不是严格独立的，它们的总和也可以看做是服从正态分布的。正态分布的一个基本性质是：正态分布变量的任何线性函数都是正态分布的。这样最小二乘估计量也都是正态分布的。最后，正态分布是一种简单的，我们熟知的分布。,1.3 在正态性假设下OLS估计量的性质在正态性假设下，OLS估计量有

4、如下统计性质： 1. 它们是无偏的。 2. 它们有最小方差。 3. 一致性。随样本含量无限地增大，估计量将收敛到它们的真值。 4. 是正态分布的。 5. 服从n-2个自由度的分布。 6. 的分布独立于。 7. 是最优无偏估计量（BLUE）。,是正态分布的,是正态分布的,1.3 与正态分布有关的一些概率分布 t分布、CHI分布和F分布与正态分布有着密切关系，在统计推断中被大量的使用。以下以定理的形式将其关系概括，证明请参阅相关文献。,2.区间估计和假设检验,2.1 区间估计回到上一章我们的例子中，我们在最后求得边际消费倾向2的估计值为0.5091，这是对2的一个点估计值。虽然大量重复抽样

5、的结果使得估计值的均值可望等于真值（E( )= 2 )，但单独一次抽样的结果可能是相背离的。统计学上，一个点估计的可靠性是有它的标准误来衡量的。我们不能完全信赖一个点，而需要构造一个区间，比如在点估计量的两侧各宽2或3个标准误，使得它有95% 的可能性包含真实的2 。,我们试求两个正数和，位于0和1之间，使得随机区间包含2的的概率为1- 。用符号来表示：如果这个区间存在，就称之为置信区间； 1- 称为置信系数；而称显著性水平；置信区间的端点分别称为置信下限和置信上限。注意：（1）上式并没有说2落在给定区域的概率是1- ，因为2虽然未知，但是一个确定的数，它落在固定区域的可能性只有1

6、或者0。（2）因为是随机的，而置信区域是根据来构造的，因此置信区域也是随机的。（3）因此，我们说如果重复多次，那么从长期来看，平均的说，这些区域将有1- 次包含着参数的真值。,2.2 回归参数1和2的置信区域 2的置信区域在ui的正态假设下，OLS估计量本身就是正态分布，因此构造一个随机变量：这是一个标准化的正态分布变量。当2已知，以为均值的正态分布有着良好的性质：正态曲线下之间的面积约占68%；在2之间的面积约占95%；在3之间的面积约占99.7%。但是2我们不知道，在实践中用无偏估计量来测定。,构造一个随机变量：这样定义的随机变量t是遵循自由度为n-2（因为先要估算，

7、所以丧失了2个自由度）的t分布(利用定理5)。在前面例子中， =0.5091，se( )=0.0357，自由度为8。若取=5%，查表t/2=t0.025=2.306,将这些值带入到上式中得到2的95%置信区间为： 0.4268 2 0.5914,2的置信区域在正态假设下，构建一个随机变量：遵循自由度为n-2的2分布。,回到原来的例子：,2.3 假设检验：概述假设检验问题可以简单概述如下：问某一给定的观测值或发现是否与某声明的假设（stated hypothesis）相符（compatible）？这里用相符一词来表示与假设值“足够接近”，因而我们不拒绝所声称的假设。用统计语言来说，这

8、个声称的假设叫做虚拟假设并用H0来表示，通常在检验虚拟假设时要有一个对立假设，记做H1。假设检验就是要设计一个观测程序，以便决定拒绝或不拒绝一个虚拟假设。我们考虑变量遵循某种概率分布，通过计算这个参数的分布值来作出判定。通常来说在一次观测中，一个小概率的事件发生了，我们通常认为在概率统计是不成立的，通常拒绝这个虚拟假设。假设检验有两种互为补充的方法：置信区间和显著性检验。,2.4 假设检验：置信区间的方法双侧或双尾检验回到我们的例子中，我们已经知道所估计的的值是0.5091。我们设立一个虚拟假设及其对立假设，并对其进行判定： H0：20.3 H1：20.3 在虚拟假设下是0.3，而

9、对立假设下大于或者小于0.3。虚拟假设是一个简单假设，而对立假设是一个复合假设，这样就是我们所说的双侧假设。那么所观测的是否与H0相符？从大量重复的角度上来看，像（0.4268,0.5914）这样的许许多多的区间将有95%的概率包含真实的2，因此，如果虚拟假设的2落在这个100（1-）%置信区间，我们就不拒绝虚拟假设；如果落在区间之外，我们就可以拒绝虚拟假设。,回到例子中，H0：20.3。显然落在（0.4268,0.5914）所给的95%置信区间之外，因此我们能以95%的置信度拒绝的真值是0.3的假设。即便虚拟假设是真的，我们一个大到0.5091的的值，最多只有5%的机会，这是一个

10、小概率的事件。在统计学上，当我们拒绝虚拟假设时，我们说我们的发现是统计上显著的。反之，当我们不拒绝虚拟假设时，我们说我们的发现不是统计上显著的。,决策规则：构造一个2的100（1-）%置信区间。如果2在假设H0下落入此区间，就不要拒绝H0。但如果落入此区间之外，就要拒绝H0。,单侧或单尾检验有时候，我们根据某些先前的经验性工作，或者依照某种理论性的预测，而把对立假设取为单侧或单向的，例如我们设立一个虚拟假设及其对立假设，并对其进行判定： H0：20.3 H1：20.3 这种方式称为单侧或单尾检验。检验统计假设的另一种方法被称为显著性检验，它是对置信区间法的一种补充，概括的来说，显著性

11、检验是利用样本结果，来证实一个虚拟假设的真伪的一种检验程序。显著性检验的基本思想在于一个检验统计量以及在虚拟假设下这个统计量的抽样分布。根据算出来的统计值来决定是否接受H0。,2.5 假设检验：显著性检验法（1）回归系数的显著性检验：t检验回忆在正态性假设下，构造的随机变量：遵循自由度为n-2的t分布。如果我们给定虚拟假设H0：22*，则可以构造一个置信区间：这样，我们构建的100（ 1-）%置信区间叫做虚拟假设（H0）的接受域，而置信区间之外的区域叫做虚拟假设（H0）的拒绝域或临界域。,因为我们利用了t分布，所有上述检验程序被称为t检验。用显著性检验的语言来说，如果一个统计量的值落在

12、临界域上，这个统计量是统计上显著的。这时我们拒绝虚拟假设。同样，一个统计量的值落在了接受域中，这个统计量是统计上不显著的。这时我们不拒绝虚拟假设。我们注意到，我们把有关概率分布的两个尾端当做拒绝域，所以我们的检验程序仍然是一种双侧或双尾显著性检验。如果观测值落入任意一尾端，我们就拒绝该虚拟假设。之所以我们仍然使用双尾显著性检验，是因为我们的对立假设H1：20.3是一个双侧复合假设，2或者大于0.3，或者小于0.3。如果经验告诉我们，2要比0.3大，这样我们设： H0：20.3以及H1：20.3。这样，假设是单侧（右尾部）的。我们利用单侧或单尾检验。,除了上端置信限或临界值现在是t0.05，

13、即5%的水平外，检验程序如前。同样，拒绝虚拟假设H0。,显著性t检验：决策规则,（2）2的显著性检验：2检验,考虑以下变量：,（3）方差分析在上一章，我们导出了等式：对总平方和（TSS）的构成部分进行研究就叫方差分析（analysis of variance, ANOVA）。同任一平方和联系在一起的是它所依据的自由度（df），即独立观测值的个数。因为在计算样本均值时，我们失去了一个自由度，故TSS有n-1个自由度；而在估计之前必须先计算，从而RSS有n-2个自由度。,把各项平方和及其相应的自由度引入后，我们得到了方差分析表：现在考虑变量：,上述F有什么用处？可以证明：如果2真

14、的为0，则上述两个方程都给出相同的真实的2估计，这时解释变量X与Y没有任何线性关系，Y的变异全部是由于随机干扰ui所带来的。这样，F比值提供了对虚拟假设H0:2 =0的一个检验。我们所需做的，无非是算出F比值，再拿它同从F表中选定显著水平上读出的临界值相比较，或者查找所算F值的p值。回到例子中，ESS=8552.73，自由度1；RSS=337.27，自由度8；F=8552.73/（337.27/8）=8552.73/42.159=202.87 查表95%临界值F1,8=5.32202.87，拒绝H0。或者根据p=0.0000001，确实是一个很小的概率，同样拒绝H0。,事实上，根据我们计算

15、tdf=8=14.24，(14.24)2=F=202.87。可知，t检验和F检验是检验假设的两个互为补充的备选方法，对于双变量回归模型而言，确实不需要F检验。但当我们考虑多元（复）回归模型时，F检验成为检验统计假设的非常有用的方法。,2.6 回归分析的结果上图中第一组括号内的数字代表估计的回归系数标准误，第二组数值是在回归系数为零假设下计算出来的t值（例如3.8128=24.45456.4138)，而第三组数字代表估计的p值。比如当自由度为8时，得到一个等于3.8128或更大的t值的概率啊0.0026；得到一个等于或大于14.2405的t值的概率约合0.0000003。把这些估计的t系数的

16、p值显示出来，我们就能马上看到每一个t估计值的精确显著性水平。例如，在真实总体截距值为零的虚拟假设下，得到一个大到3.8128或更大的t值的精确概率（即p值）仅约为0.0026。因此我们拒绝这个虚拟假设，我们犯第1类错误（拒绝了真实的假设）的概率仅约合1万次中有26次，确实是一个很小的概率。从一切的实际目的考虑，我们都能说真实总体截距不是零。,正态性检验在我们探讨完上述结论后，我们发现最小二乘估计（OLS）方法在统计学上是多么的优良。以至于我们所用例子的回归结果堪称完美。但是，请大家不要高兴早了，别忘记了前面所用的一切方法（t检验、F检验）都基于干扰项ui的正态性。正态性检验的方法很多，其中最常见的有两种方法：2拟合优度检验和雅克-贝拉检验。具体检验方法我们不在这里介绍，请大家查阅参考相关文献。,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 变量回归进一步讨论

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第2章双变量回归的进一步讨论.ppt
链接地址：https://www.31doc.com/p-3470949.html