1、第七章虚拟变量Dummy variables1本章将主要考虑虚拟的自变量的情况,即解释变量出现虚拟变量。在现实中,模型中可能会出现一些定性的变量作为解释变量。通常将虚拟变量取值0或1,所以虚拟变量又称为二分变量,用虚拟变量来表示某一性质或属性出现或不出现。2例如:收入决定模型中,除了可以量化的工作年限和受教育年限这两个变量以外,我们还包括了性别这一定性的变量,用0表示女性,1表示男性。模型可以写成:y=+1 x+2 D +其中,D为虚拟变量D0,表示女性,D1表示男性模型中加入虚拟变量后,更加贴近经济的真实情况,也更加灵活,收入决定模型我们不仅要考察一般人口的状况,也关注不同性别的收入决定模型
2、的差异,从而更有利于政策的制定和调整。3一般情况下,一个定性变量所需要的虚拟变量的个数取决于该定性的变量的类别,如果有n个类别,所引进的虚拟变量的个数时m-1,比总体类别的数量少1。例如性别变量,分为两类男性或女性,需要一个虚拟变量就可以了;如果地区发展问题,考虑地区差异,假设把全国分为东部,中部和西部,就需要2个虚拟变量,令 1 东部 D1=0 其他4 1 中部D2=0 其他全集分为三类,所以需要两个虚拟变量。5第一节 临时虚拟为了更好地对模型进行估算,经常要在模型中排除一些又突发时间产生的异常值(outlier),及其对模型的影响,例如战争、地震、内乱、罢工等。例如:y=+1 x+2 D
3、其中,D为临时虚拟变量D1,异常时期D0,平时6例题下表是日本19851995年水稻产量Y和耕种面积的数据X:年份 产量(10万吨)Y 耕种面积(万公顷)X1985 116 2321986 116 2281987 106 2121988 99 2091989 103 2081990 105 2061991 96 2031992 105 2091993 78 2131994 120 2201995 107 2117 (1)估计模型y=+x+(2)受1993年冻害的影响,水稻收成指数为战后最低,出现了歉收。因此设D1为1993年,D0为其他年份,估计下列模型y=+1 x+2 D +8根据数据计算
4、结果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11Y=-48.224+0.71521X (73.4)0.3432)R2=0.32559引入临时虚拟变量后,即1993年为异常年份,计算结果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11D=1 XD=213 YD=78Y=-40.292+0.69033X-28.748D (30.90)(0.1444)(4.389)经过校正的R2=0.867510如果直接去掉1993年的数据,回归的结果为Y=-40.292+0.69033X (30.898)(
5、0.1450)R2=0.7408 经过校正的R2 =0.708411第二节 季度虚拟 季度虚拟是通过回归模型中的常数项的变化(斜率不变)来掌握季度和月度等季节变化对模型的不同影响。例如,根据研究人们发现:利用季度数据,消费对收入回归时,在夏季和冬季(第二和第四季度)发半年奖和年终奖时,收入异乎寻常地高,为了消除这种季节变化的影响,引入季度虚拟变量D1、D2、D3。估计下列多元回归模型:y=+1 x+2 D1 +3D2 4D3 12 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三季度D3 0 其他13 季度数据需要3个虚拟变量,月度数据用11个虚拟变量。实际估计时,会根据t检验
6、结果去掉不显著的季度或月度虚拟变量,然后用剩下的虚拟变量再重新估计就可以了。14例题下面时日本饮食消费总额(食品、饮料等)Y与国内家庭最终消费支出X的变化数据,首先估计下面的模型:y=+x+(宏观恩格尔函数)引入季度虚拟变量,估计模型y=+1 x+2 D1 +3D2 4D3 15 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三季度D3 0 其他16年、季度 饮食消费 Y 国内最终消费支出X1990年13月 10.0 53.5 46月 11.0 54.4 79月 12.2 56.4 1012月 13.3 60.61991年13月 10.2 54.7 46月 11.0 55.4
7、79月 12.3 57.6 1012月 13.2 62.41992年 13月 10.5 56.5 46月 11.1 56.4 79月 12.3 58.3 1012月 13.4 62.61993年13月 10.4 56.7 46月 11.2 56.8 79月 12.2 58.9 1012月 13.4 63.71994年13月 10.4 58.217X=983.10 Y=198.10 XY=11505.46X2=56993.83 Y2=2331.77Y=-8.5246+0.34891XR2=0.7398518季度虚拟变量数据表年、季度 D1 D2 D31990年13月 1 0 0 46月 0 1
8、0 79月 0 0 1 1012月 0 0 01991年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01992年 13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01993年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01994年13月 1 0 019估计结果如下:Y=9.0681+0.068301X-2.05875D1-1.8009D2-0.76594D3所有t值都在1的水平显著经过校正的R2 0.99390将第一季度D11,D20,D30代入上述模型,得到第一季度的子模型Y=9.0681
9、2.5875+0.068301X=6.4806+0.068301X20将第二季度D10,D21,D30代入上述模型,得到第二季度的子模型Y=9.0681-1.8009+0.068301X 7.2672+0.068301X将第三季度D10,D20,D31代入上述模型,得到第三季度的子模型Y=9.0681-0.76594+0.068301X 8.3022+0.068301X将第四季度D10,D20,D30代入上述模型,得到第四季度的子模型Y=9.0681+0.068301X 21第三节运用虚拟变量改变回归直线的截距加入虚拟变量后,回归模型中解释变量前面的系数(斜率)没有变化,只有截距发生改变,事
10、实上,临时虚拟和季度(月度)虚拟中都是是截距发生了改变。看下面的例子:22例子1,在收入决定模型中,除了假设教龄以外,性别和肤色也是影响大学教授收入的重要因素,模型为:y=+1 x+2 D1 +3D2 y为收入x为教龄23 1 男性D1=0 女性 1 白色D2=0 有色人种24黑人女教授的平均工资:Ey=+1 x黑人男教授的平均工资:Ey=2+1 x白人女教授的平均工资:Ey=3+1 x白人男教授的平均工资:Ey=2 3+1 x估计上述包括性别和肤色虚拟变量的模型,如果它们的t值显著,表明这两个因素的确影响了收入25例子2,假设我们具有消费C和收入Y的数据,同时有一些定性的变量:S:性别,A:
11、年龄(50)E:教育(高中以下,高中以上,但大学以下;大学及以上)26所估计的模型为:C=+Y+1D1+2D 2+3D 3+4D 4+5D5+1 男性D1=0 女性27 1 如果年龄小于25D2=0 其他 1 年龄在25到50之间D3=0 其他 1 教育在高中以下D4=0 其他28 1 学历在高中以上但大学以下D5=0 其他这是一个典型的截距发生改变的例子。例如:(1)男性,年龄在25岁以下,大学毕业C=(+1+2)+Y+相当于 D1=1,D2=1,D3=0,D4=0,D5=0(2)女性,年龄在50以上,大学学历C=+Y+相当于 D1=0,D2=0,D3=0,D4=0,D5=029例子3,兰普
12、森研究一些定性变量对电影票价的影响,他估计了下列模型 Y=4.13+5.77D1+8.21D2-7.68D3 -1.13D4+27.09D5+31.46logX1+0.81X2其中Y成人晚间入场票(美分)1 郊区D1电影院位置 0 城中心30 1 建成后或大修后10年内D2电影院年龄 0 其他 1 露天D3电影院类型 0 室内 1 有 D4停车场 0 无31 1 首映D5上映政策 0 其他X1平均每场放映的空位率X2平均影片片租,以分摊到每张电影票上的美分价计算 32解释模型。计算下列子模型:(1)城中心,电影院年龄在10年以上,无停车场,室内,非首映(即虚拟变量取值全部为0)Y4.13+31
13、46logX1+0.81X233(2)城郊,10年内的影院,露天,有停车场,首映Y=4.13+5.77+8.21-7.68 -1.13+27.09+31.46logX1+0.81X2 =36.39+31.46logX1+0.81X2大家还可以计算其他组合下的子模型。34 例题:持有两份或多份工作,即一份主业和一份或多份副业的人被称为(moonlighter),即兼职者。两个学者试图发现什么决定这些兼职者的工资。它们根据318个兼职者的样本,估计如下回归模型:Wm=37.07+0.403W0 90.06race +75.51urban+47.33hisch+113.64reg+2.26age3
14、5Wm 为兼职者工资(美元/小时)W0 为主业工资(美元/小时)Race=0 白人 1 非白人Urban=0 非城里人 1 城市人36Reg=0 非西部 1 西部Hisch=0 非中学毕业(即中学以下)1 中学毕业Age 年龄模型中包括了2个定量的解释变量和4个定性的变量,所有变量的系数在5的水平都是显著的。37当所有的虚拟变量均取值为0时(白人、非城镇、非西部、非中学毕业),Wm=37.07+0.403W0+2.26age当所有的虚拟变量均取值为1时(非白人、城镇、西部、中学毕业),Wm=37.07+75.51+47.33+113.64-90.06+0.403W0+2.26age=183.4
15、9+0.403W0+2.26age38作业:计算虚拟变量不同取值下模型:1,白人、非城镇、西部居民、中学毕业2,非白人、城镇、非西部居民、非中学毕业3,白人、非城镇、非西部居民、中学毕业39第四节 通过虚拟变量改变斜率(系数虚拟)研究通货膨胀率(I)和工业增长率(G)之间的关系为例:假设1988年与其他年份有所不同,在这一年剧烈上涨。I=+1 G+2(DG)1 1988年D=0 其他年份40这样可以用上面的模型表示下列两种情况:+(1+2)G D=1 I=+1 G D=0不论是哪种情况,截距都没有发生改变。41例题下表是某国在1965年到1979年以指数表示(1965年100)初次能源需求和实
16、际GDP的数据42年份 初次能源需求Y 实际GDP X D DX1965 100 100 0 01966 106 108 0 01967 115 117 0 01968 122 123 0 01969 129 132 0 01970 136 141 0 01971 141 145 0 01972 143 54 0 01973 114 150 1 1501974 117 156 1 1561975 121 161 1 161431976 123 169 1 1691977 129 174 1 1741978 130 177 1 1771979 134 183 1 183X=2190 Y=1860
17、 XY=274178X2=328940 Y2=232764Y=82.453+0.28457XR2=0.35075 经过校正的R2 0.3008144模型为Y=+1 X+2(D X)0 石油冲击前(19651972)D=1 石油冲击后(1973-1979)DX=1170 (DX)2=196412 X(DX)=196412Y(DX)=145598Y=17.095+0.83864X-0.19918DX45经过校正的R2 0.98263石油冲击前的系数是0.83864,石油冲击后的系数为0.63946,可见石油冲击后,经济增长模式向节能方向转变。46第五节 虚拟变量使截距和斜率均发生改变仍旧是通货膨胀
18、率I和工业增长率G之间的关系,可以假设模型为:I 1 2 D+1 G+2GD+(1 2)+(1+2)G+D=1(1988)I=1 1 G+D=0(其他)47 2被称为级差截距,2是级差斜率系数48例题下面是根据1958年4季度到1971年2季度英国失业率和职位空缺率的数据估计的模型。从最初的散点图中发现:1966年4季度开始失业和空缺之间的关系发生了明显的变化。为了证实判断的情形,估计了下列的模型:UNt=1+2Dt+1 Vt+2(Dt Vt)+t其中UNt为失业率,Vt为职位空缺率,D=1 1966 年 4季度开始以后的时期 0 1966年4季度以前的时期49估计的结果如下:UNt=2.74
19、91+1.1507Dt 1.5294 Vt-0.8511(Dt Vt)(0.1022)(0.3171)0.1218)(0.4294)从上面的估计结果中可以发现,级差截距和级差斜率系数在5的水平都是显著的,表明1966年4季度开始发生了明显的变化。从上面的回归可以导出下列回归:1958年4季度到1966年3季度:UNt=2.7491-1.5294Vt1966年4季度到1971年2季度:Unt=2.7491+1.1507-(1.5294+0.8511)Vt =3.8998-2.3805 Vt 50 UN V51第六节 带折点的回归在实际中可能会遇到折线回归的情况,例如:I G0 G52上面的图表示
20、的是当工业增长率达到一定的程度后会大幅度上升。假设为1988年以后的工业增长率。定义:1 (t 1988)D=0 (其他年份)模型可以表示成:+1 Gi+2(Gi-G0)Di+i (t 1988)Ii =+1 Gi +i (其他年份)G0被称为门槛值(发生转折的点,是已知的)53例子1,假设某公司对其销售人员按下列方式发放酬金,即在销售额到达“目标”或门槛值之前实行一种酬劳结构,超过这个事先确定的门槛值之后,实行另一种结构。yi=+1 Xi+2(Xi-X0)Di+i XX0 +1 Xi +i X X0)0 (Xi 5500 0 X7 0 其他58当lnXi7时,X 1097美元假定1097美元
21、的人均收入是贫穷和较富裕国家的分界线,推导出人均收入低于1097美元和高于1097美元的国家的模型 E(yi|Xi,Di=1)=-2.4+9.39 lnXi-3.36 lnXi+3.36721.12+6.03 lnXiE(yi|Xi,Di=0)-2.4+9.39lnXi59表明随着人均收入水平的提高,平均预期寿命的增加趋缓。60第七节全部是定性变量的回归有时,模型中包括的全部是定性的变量(解释变量),可以通过虚拟变量的形式来处理。例如,研究收入问题时,可以从性别、学历、年龄,工作单位性质、企业规模等方面考察,可以找出不同类别人群的收入差距。61例题 现拥有15个工人的月收入和相应的性别、年龄(
22、30多,40多)、学历(大学、高中、初中)、企业规模(大型、中型、小型)的资料。估计的模型为:Y=+1 S+2 A+3 E1+4 E 2+5 F1+6F 2+S=1 男性 0 女性 A 1 40多 0 30多 62E1 1 大学毕业 0 其他E2 1 高中毕业 0 其他F1 1 大型企业 0 其他F2 1 中型企业 0 其他63Y S A E1 E2 F1 F225 0 1 0 0 0 026 1 0 0 0 0 028 0 1 0 1 0 030 0 1 0 1 0 031 1 0 0 0 0 132 1 0 0 1 0 034 0 0 1 0 0 136 1 0 0 1 0 139 0 0
23、 1 0 1 040 1 0 0 1 0 143 1 0 1 0 0 06446 1 0 1 0 0 152 1 1 0 0 1 054 0 1 1 0 1 055 1 1 0 1 1 0估计的结果为:Y=11.966+14.385S+12.643A+15.873 E1 +5.083 E 2+12.152 F1+5.544F 265所有回归系数在1的水平都是显著的,常数项为11.966表示的是小型企业、30多岁女性初中毕业工人的月收入(即所有的虚拟变量取值均为0。(1)大型企业、40多岁、男性、大学毕业的月收入:Y=11.96+14.385+12.643+15.873+12.152 =67.0
24、19万日元66(2)中型企业、30多岁、女性高中毕业工人的月收入:Y11.966+5.083+5.54422.593万日元(3)小型企业、30多岁、男性初中毕业工人的月收入:Y11.966+14.38526.351万日元同样条件下,男性和女性月收入的差距是14.385万日元67第八节 虚拟因变量当因变量y取值为0或1时,即我们所解释事件的结果时二值结果,那么对于模型:yi=0+1x1i+2x2i+kxki+i 因为y只取两个值,就不能将参数j理解为给定xi一单位的提高所导致yi的变化。因为y要么从0变到1,要么从1到0。68但仍可以对参数作出有意义的解释。如果E()=0的假设依旧存在,我们就可
25、以得到:E(yi|xi)=0+1x1i+2x2i+kxki即当yi为取值为0或1的二值变量时,成功的概率即y=1时的概率为E(yi|xi)=0+1x1i+2x2i+kxki69令y=1为事件发生,假设其概率为pi,y=0为事件部发生,概率为1pi,Yi的分布为 yi 概率 1 pi 0 1-pi E(yi)=0(1-pi)+1*pi =pi 70所以模型的条件期望值可以及解释为y的条件概率,0 E(yi|xi)1该模型又被称作线性概率模型(LPM)例子Y=-0.9457+0.1021xY=1 拥有住宅 0 不拥有住宅估计模型的含义,收入增加一个单位例题中是1000美元,平均拥有住宅的概率增加0.1021,约1071当给定某一收入水平时,可以根据估计模型计算出拥有住宅的概率,例如,收入为12000美元的家庭拥有住宅的概率是-0.9457+0.1021*120.279572