《stata笔记要点.pdf》由会员分享,可在线阅读,更多相关《stata笔记要点.pdf(14页珍藏版)》请在三一文库上搜索。
1、1.一般检验 假设系数为0, t 比较大则拒绝假设,认为系数不为0. 假设系数为0,P比较小则拒绝假设,认为系数不为0. 假设方程不显著,F比较大则拒绝假设,认为方程显著。 2.小样本运用OLS进行估计的前提条件为: ( 1)线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性 转换为线性方程来解决。 ( 2)严格外生性。即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正 交关系,随机扰动项期望为0。(工具变量法解决) ( 3)不存在严格的多重共线性。一般在现实数据中不会出现,但是设置过多的虚拟变量 时,可能会出现这种现象。Stata 可以自动剔除。 ( 4)扰动
2、项为球型扰动项,即随即扰动项同方差,无自相关性。 3.大样本估计时,一般要求数据在30 个以上就可以称为大样本了。大样本的前提是 (1)线性假定 (2)渐进独立的平稳过程 (3)前定解释变量,即解释变量与同期的扰动项正交。 (4)E(XiXit)为非退化矩阵。 (5)gt 为鞅差分序列,且其协方差矩阵为非退化矩阵。 与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。 4.命令 稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。如 果认为存在异方差,则使用稳健标准差。使用稳健标准差可以对大样本进行检验。 只要样本容量足够大,在模型出现异
3、方差的情况下,使用稳健标准差时参数估计、假设 检验等均可正常进行,即可以很大程度上消除异方差带来的副作用 对单个系数进行检验:test lnq=1 线性检验:testnl _blnpl=_blnq2 5.如果回归模型为非线性,不方便使用OLS, 则可以采取最大似然估计法(MLE),或者非线性 最小二乘法( NLS ) 6.违背经典假设,即存在异方差的情况。截面数据通常会出现异方差。 因此检验异方差可以: (1)看残差图,但只是直观,可能并不准确。 rvfplot (residual-versus-fitted plot) 与拟合值的散点图 rvpplot varname (residual-v
4、ersus-predictor plot) 与解释变量的散点图 扰动项的方差随观测值而变动,表示可能存在异方差。 (2)怀特检验: estat imtest, white (post-estimation information matrix test) P比较小,则拒绝同方差假设,表示存在异方差,不能用 OLS 。反之则证明为同方差。 (3)BP检验 estat hettest ,iid (默认设置为使用拟合值y) estat hettest, rhs iid (使用方程右边的解释变量,而不是y) estat hettest varlist ,iid (使用某个指定的解释变量) P小,则拒绝
5、原假设。 如果存在异方差,则可以: (1)使用 OLS+ 稳健标准差robust (2)广义最小二乘法(GLS ) (3)加权最小二乘法(WLS) predict el, res (预测残差) g e2=el2 辅助回归: g lne2=log(e2) reg lne2 lnq, noc predict lne2f 计算辅助回归的拟合值 g e2f=exp(lne2f) 去掉对数即权重之倒数 reg lntc lnq lnpl lnpk lnpf aw=1 /e2f reg y x1 x2 x3 aw=1/var (aw 表示 analytical weight, var 表示随即扰动项的方差
6、。) 或者 : predict u, residuals predict yf, xb gen lnu2=ln(u2) gen yf2=yf2 quietly reg lnu2 yf yf2 predictnl u2f = exp (xb() gen sd=sqrt(u2f) vwls lntc lnq lnpl lnpf lnpk , sd(sd) (4)可行广义最小二乘法(FGLS ) FGLS所做的过程和GLS一样,只是GLS假设扰动项的方差已知,若要用GLS ,必须计 算得到扰动项方差,而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同 方差后再运用OLS的结果。因此,G
7、LS和 FGLS在过程上是一致的。 6.自相关 时间序列中容易出现自相关,而截面数据也可能存在空间自相关。人为处理数据如移动平 均等做法也可能导致自相关。 检验自相关可以: (1)作图,但并不严格。 定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。) tsset yaear 一阶差分: D.x=xt-xt-1 D2. X=xt-xt-2 LD. 表示一阶差分的滞后值 画图: scatter el L.el ac el (看自相关图 ) pac el (看偏相关图 ) (2)BG 检验 estat bgodfrey (默认 p=1) estat bgodfrey ,lags(p)
8、estat bgodfrey , nomiss0 (使用不添加0 的 BG检验 ) 使用命令ac 查看自相关图,或者设置较大的p 值进行显著性检验,t 期不显著了,则 选择 P=T-1 统计检验P值小,则拒绝假设。 (3)box-pierce Q检验 / Ljung-Box Q reg y x1 x2 x3 predict el, resid wntestq el (使用 stata提供的默认滞后期) wntestq el, lags(p) (使用自己设定的滞后期) (4)DW 检验:现在已经不常用,因为其只能检验一阶自相关。 estat dwatson 自相关的处理方法: ( 1) 使 用O
9、LS+异 方 差自 相 关 稳健 的 标准 差 ( Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC) newey y x1 x2 x3, lag(p) (HAC标准差,必须制定滞后阶数p) 滞后期数选择n1/4 (2)使用 OLS+ 聚类稳健的标准差(cluster robust standard error )面板数据中经常使用聚类稳 健的标准差。 reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设“state”为聚类变量 ) (3)使用可行广义最小二乘法(FGLS
10、) prais y x1 x2 x3 (使用默认的PW 估计法 ) prais y x1 x2 x3, corc (使用 CO估计法 ) (4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。 7 多重共线性 在回归后,使用命令VIF estat vif 经验表示,vif =1978) 如希望将每个省设置为虚拟变量,则需要: tabulate province, generate (pr) 回归简化为:reg y x1 x2 x3 pr2-pr31 11.工具变量法 这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解 释变量相关。传统的工具变量法一般通过两阶段最
11、小二乘法TSLS 、2SLS (two stage least square) 。第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的 拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。 命令: ivregress 2sls depvar varlist1 (varlist2=inslist) Depvar 为被解释变量,varlist1 为外生解释变量, varlist2 为内生解释变量, instlist 为工具变量。如: ivregress 2sls y x1 (x2 = z1 z2) ivregress 2sls y x1 (x2 x3 = z1 z2 z3
12、 z4), r first (r 表示用异方差的标准差,first 表示 在结果中显示第一阶段的回归。) 在面板数据中执行2SLS 可以用:xtivreg depvar varlist1 (varlist_2=varlist_iv) (详见 help xtivreg) 检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量, 命令: estat firststage, all forcenonrobust (all 表示显示每个内生变量的统计量,而非仅 仅所有内生变量综合的统计量,forcenonrobust 表示及时在进行工具变量法时用了稳健标准 差,也仍然允许计算estat fir
13、ststage) 解决弱工具变量的方法包括 A 寻找更强的工具变量 B 弱工具变量较多,则舍弃弱工具变量, C 用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML) LIML 与 2SLS渐进等价, 但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS. 命令为: ivregress liml depvar varlist 1 (varlist2 = instlist) 过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具 变量无效。 使用工具变量的前提是存在内生解
14、释变量(即解释变量与扰动项相关),这也需要检 验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应该用工具变量 法。豪斯曼检验就是假设所有解释变量都为外生变量。 豪斯曼检验的stata 命令: reg y x1 x2 estimates store ols (存储 OLS的结果 ) ivregress 2sls y x1 (x2= z1 z2) (假设怀疑x2 为内生变量) estimates store iv (存储 2SLS的结果) hausman iv ols, constant sigmamore (根据存储的结果进行豪斯曼检验) 但 uguo 存在异方差, 则 OL
15、S并不是最有效的, 传统额豪斯曼检验不适用于异方差的情形, 解决方法是“自助法” ;或者使用“杜宾-吴-豪斯曼 DWH 检验”也可以适用于存在异方差的 情况。命令:estat endogenous 在球型扰动项的假定下,2SLS是最有效的,但是如果扰动项存在异方差或者自相关,则 广义矩估计(generalized method of moments, GMM)更有效。 GMM 与 2SLS的关系就相当 于 GLS与 OLS之间的关系。 GMM 过程: scc install ivreg2 (安装程序ivreg2) scc install ranktest (安装另外一个在运行ivreg2 时需
16、要用到的辅助程序ranktest) use data xtset panelvar timevar (设置面板变量和时间变量) ivreg2 y x1(x2=z1 z2), gmm2s 12.短面板:(固定效应和随机效应模型) N 大 T 小的一般叫做短面板。面板数据的优点为:可以解决遗漏变量的问题,可以提供 更多动态行为的信息, 样本较多从而估计更准确。但面板数据一般不满足独立同分布的假设。 处理面板数据的一个方法是将面板数据当作横截面数据处理进行OLS回归,称为“混合 回归” ,但它忽略了同一个聚类存在的相关问题。虽然通常可以假定面板数据不同个体的扰 动项的独立性,但是对于同一个体却存在固
17、定效应和随机效应。 固定效应模型通常可以采用组内估计法(FE )和一阶差分法(FD) 。当 T=2 时, FD=FE; 当 T2,扰动项独立同分布时,FE优于 FD。因此,实践用FE较多,而对动态面板,则用FD 较多。 随机效应的存在使得OLS估计是一致但无效的。可使用广义最小二乘法(FGLS )来进行 估计。也可以使用组间估计量(BE) 用豪斯曼检验选择是选用固定效应模型还是随机效应模型,如果统计量大于零界值,则 拒绝假设。如果假设成立,RE 最有效,但是不适用于异方差的情形。解决方法是自助法和 辅助回归。 非平衡面板经常会损失数据,导致破坏样本的随机性。 xtset panelva tim
18、evar (设定面板数据的面板个体变量和时间变量) encode country, gen (cntry) (为面板个体编号使得面板个体为整数) 显示面板数据统计特征: xtdes (显示面板数据结构,是否为平衡面板) xtsum (显示组内、组间和整体的统计指标) xttab varname (显示组内、组间与政体的分布频率) xtline varname (对每个个体分别显示该变量的时间序列图,如果希望叠放,则选择 overlay) reg y x1 x2 x3, vce (cluster id) (混合回归, VCE是以 id 为 cluster 的聚类稳健标准差, 因为同一地区不同时间
19、扰动项之间一般存在自相关。) VCE是考虑到了同一聚类之间的同方 差现象。 xtreg Y X1 X2 X3, fe vce (cluster id) (使用固定效应模型回归) 得到的回归中rho 表示来自个体效应ui 的比例。 Xtreg YX1 X2 X3, fe 中的 F检验通过, 则可以使用混合回归模型。若拒绝假设 (p 小),则 FE更优,每个个体都有自己的固定效应。但此时的由于没有使用稳健回归,因此F 检验并 不有效, 还需要进一步用LSDV法观察。 LSDV法的 stata 命令为: xi: xtreg y x1 x2 x3 i.id, vce(cluster id) (xi 为
20、增添互动项interaction expansion,i.id表示 根据确定个体变量id 生成的虚拟变量,在这里是state) (P小,则说明个体虚拟变量很显著, 因此,不满足无个体效应的假设,则不能用混合回归模型。) 对于固定效应模型,也可以用一阶差分法FD的命令: xtserial y x1 x2 x3, output (我的 stata 不能识别xtserial 咋回事 ?)一般认为FE比 FD 有效,故较少使用FD。 也可以在固定效应中考虑时间效应,即双向固定效应: tab year gen(year) 定义年度虚拟变量 xtreg YX1 X2 X3 year2-year7, fe
21、vce (cluster id) (明明是 stata12,为什么说数据太多不能 计算?要把前面的计算保存等清空,那后面怎么对比?) test year1 year2 year3。 。year7 对年度虚拟变量的联合检验为 检验存在时间效应和固定效益后,还可能存在随机效应,对随机效应进行检查: xtreg y x1 x2 x3, re vce (cluster id) (随机效应 FGLS) xtreg y x1 x2 x3, mle (随机效应MLE) 检验个体随机效应存在一个LM 检验,需要在随机效应估计之后进行: Xt reg fatal spircons unrate perinc b
22、eertax, re vce (cluster, state) estimates store RE xttest0 如果 P很小,则拒绝假设,认为在“随即效应”与“混合回归”之间,应该选择“随即 效应” 。 如果数据质量不好,可以考虑使用组间估计量,但会损失较多信息量。 reg y x1 x2 x3, be estimates store BE 选用固定效应模型还是随机效应模型运用豪斯曼检验 xtreg y x1 x2 x3, fe estimates store FE xtreg y x1 x2 x3, re estimates store RE hausman FE RE, consta
23、nt sigmamore P小,则强烈拒绝使用随机效应模型,而应采用固定效应模型。 但是如果聚类稳健标准差和普通标准差相差较大,则传统的豪斯曼检验并不适用。这时 需要进行辅助回归。 目前在 stata 中需要手动进行。步骤如下: quietly xtreg fatal beertax spircons unrate perinck, re scalar theta=e(theata) (从回归中得到THETA) global yandxforhausman fatal beertax spircons unrate perinck (使用 yandxforhausman 时,代表了所有使用的变
24、量) foreach x of varlist $yandxforhausman by state: egen mean x=mean( x ) 到底用什么表示? gen mdx= x-mean x gen red x = x -theata*mean x quietly xtreg redfatal redbeertax redspircons redunrate redperinck mdbeertax mdspircons mdunrate mdperinck, vce(cluster state) test mdbeertax mdspircons mdunrate mdperinck
25、 检验发现 P小,则拒绝r=0 的假设,应该选用固定效应模型。 (疑问:那中间那个式子呢?) 面板数据在回归之前要通过平稳性检验,其处理步骤简化为:面板数据单位根检验协 整检验 回归。一般为了方便,采用相同单位根检验LLC检验和不同单位根检验Fisher-ADF 检验(非面板数据一般采用ADF检验) 。两种检验均拒绝存在单位根的元假设,则认为序列 平稳。 13.长面板和动态面板 (不能像短面板那样假定独立同分布,而应该运用广义最小二乘法FGLS 进行估计,解决组内和组间的自相关。) 解释变量包含被解释变量的滞后项,则为动态面板,反之为静态面板。 (1)仅解决组内自相关的FGLS tab sta
26、te, gen(state) 考虑个体效应,生成州虚拟变量。 gen t=year-1962 考虑时间趋势,生成时间趋势变量 reg Y X1 X2 X3 State2-state10 t, vce(cluster state) 用 LSDV估计双向固定效应模型 estimates store OLS 考虑组内自相关的情形:用命令stpcse stpcse Y X1 X2 X3 state2-state10 t, corr(ar1) 约束条件为自回归系数都相同的一阶。 考虑各组自回归系数不同的组内自相关情形 stpcse Y X1 X2 X3 state2-state10 t, corr(ps
27、ar1) 如果仅考虑不同个体扰动项存在异方差而忽略自相关,则可以用 stpcse Y X1 X2 X3 state2-state10 t, hetonly 将以上各估计的系数及标准差列表便于比较: 究竟应该采用OLS还是采用AR1 ,则需要检验自相关。 (2)同时处理组内自相关和组间同期相关的FGLS的命令xtgls xtgls Y X1 X2 X3state2-state10 t , panels(iid/het/cor) corr(ar1 /psar1) iid 表示不同个体 (组间 )的扰动项独立且具有相同的方差,het 表示不同个体的扰动项独 立但具有不同的方差,cor 表示不同个体的
28、扰动项同期相关且具有不同的方差。Corr 表示 组 内,解释同前。如果加上igls 则表示用的迭代FGLS, 而非两步FGLS. 若执行 xtgls 或者 xtpcse 时没有使用个体虚拟变量,则为随机效应模型,若使用了则为 固定效应模型。 (3)长面板数据自相关和异方差检验 组间异方差检验,运用似然比检验 Xtgls Y X1 X2 X3, igls panel(het) (允许异方差的迭代式FGLS估计 ) Estimates store hetro (将异方差条件下的估计结果储存为hetero) Xtgls y x1 x2 x2, igls (同方差条件下的FGLS) Estimates
29、 store homo (将同方差条件下的估计结果储存为homo) local df = e(N_g)-1 (计算自由度,即约束条件个数,其中e(N_g)为个体个数) lrtest hetero homo, df( df ) (制定自由度,进行似然比检验。) 符号到底是怎样的? P=0,则强烈拒绝LR检验的“组间同方差”假设。 另一种检验组间异方差的方法为xttest3,只能在xtreg,fe 或者 xtgls之后使用: Ssc install xttest3(安装命令“ xttest3” ) Xttest3 (进行组间异方差检验) 这个超级简单 组内自相关检验通过下载命令xtserial 来
30、实现这个检验 net install st0039 (安装命令stserial) 为什么下不了? xtserial y x1 x2 x3, output (进行组内组相关检验,若P小,则强烈决绝不存在一阶组 内自相关的假设。) 组间截面相关检验:非官方xttest2。其仅能在xtgls ,ivreg2,和 xtreg,fe 后使用,且能用 于场面版 ssc install xttest2 (安装 xttest2 ) xttest2 (组间截面相关检验) 当这一种方法无法检验时,可以采用另一种方法,xtcsd 命令,长短面板都能用,用在fe 之后? ssc install xtcsd (安装命令
31、“ xtcsd”) xtcsd, pesaran abs show (pesaran 的检验,服从正态分布) xtcsd, friedman abs show (friedman 的检验,服从喀方分布) xtcsd, frees abs show (frees 的检验) 对于长面板除了可以让不同个体拥有不同的截距项外还可以使其拥有不同的斜率,这成为 “变系数模型 ” ,如果其系数为常数,则可分别回归,但如果各个体扰动项相关,则应该把 所有个体回归方程叠放,然后使用“似不相关回归”(SUR ) ,但由于参数估计较多,会损失 自由度。如果考虑“部分变系数模型”,则 SUR不再适用,而应用LSDV法
32、,引入虚拟变量, 以及虚拟变量与可变细数解释变量的互动项(参见help xi) 如果将系数看作是随机 的,则 FGLS估计模型,即利用OLS残差估计协方差矩阵中的参数, 然后再使用GLS, 命令为: Xtrc y x1 x2 x3, betas (betas 表示显示对每一组系数的估计),其附带参数稳定性检验 虽然面板数据能在一定程度上解决遗漏变量问题,但如果存在内生解释变量,还是需要 用工具变量法,先解决遗漏问题,再使用2SLS 对于动态面板,就算是组内估计量(FE )也是不一致的。 差分 GMM 和水平 GMM 结合就成了系统GMM 估计。 差分 GMM 的 stata 命令为: xtab
33、ond depvar indepvars, lags(p) maxldep(q) pre(varlist) endogenous (varlist) inst(varlist) twostep vce(robust) 如:xtabond lwage occ south smsa ind, lags(2) maxldep(3) pre(wks, lag(1,2) endogenous(ms, lag(0,2) endogenous(union, lag(0,2) twostep vce(robust) 差分 GMM 存在的前提是扰动项不存在自相关,对此要进行检验,需要扰动项的差分不 存在二阶或更
34、高阶自相关即可。 命令为:estat abond ,p 小,则存在自相关,P大,则不存在自相关。 更高阶自相关的检验为:estat abond artests(3) 由于使用过多的工具变量,还需要进行过度识别检验 先回归,但要去掉最后的vce(robust) estat sargan 系统 GMM 的 stata 命令为: xtdpdsys depvarindepvars, lags(p) maxldep(q) pre(varlist) endogenous(varlist) inst(varlist) twostep vce(robust) 若要对比差分GMM 和系统 GMM 的系数和标准差
35、,则用命令: estimates table DGMM SGMM, b se 14.离散被解释变量(通常不适合用OLS, 而应该用二值模型,probit logit 和多值选择模型) 如果 F为标准正态的累积分布函数,则 P模型为 Probit 模型,若 F为逻辑分布的累积分 布函数,则P模型为 Logit 模型。计算Logit 模型通常比Probit 模型更方便。 二值模型的Stata 命令为: probit y x1 x2 x3 logit y x1 x2 x3 probit 和 logit 的分布函数不同,因此参数不能直接比较,需要分别计算二者的边际效 应,再进行比较,STATA 进行处
36、理的命令为: mfx (计算在样本均值处的边际效应) mfx, at(X1=0) (计算在 X1=0 时, X2,X3 取值样本均值处的边际效应) mfx, eyex (计算在样本均值处的弹性) predict yhat ( 计算发生概率的预测值,并记为yhat),对于 Logit 模型,系数表示解释变量 x 增加一个单位将引起的“对数几率比”的边际变化。 衡量二值模型的拟合优度采用“准R2” ,判断拟合优度还可以通过计算预测准确的百分 比,相应STAT命令为: estat clas logti 和 probit 模型虽然估计系数不同,但其估计系数没有可比性,其mfx 计算出的边 际效应及准R
37、2与正确预测比几乎一致。 如果接受似然比检验(LR ),则可用同方差probit 模型估计。在存在异方差的情况下进 行 probit 模型估计为: hetprob Y X1 X2 X3, het(varlist)那自相关呢? 多值选择模型: 多值选择模型的stata 命令为: mlogit Y X1 X2 X3, base(#) (多值 logit 选择模型, base(#)用来指定参照组) mlogit Y X1 X2 X3, rrr base(#) (多值 logit 选择模型,回报relative risk ratio ) mprobit Y X1 X2 X3, base(#) (多值
38、probit 选择模型 ) 排序数列模型的stata 命令: ordered probit/logit oprobit Y X1 X2 X3 ologit Y X1 X2 X3 oprobit 预测: predict p2 p3 p4 p5 列出第一个观测值的预测结果:list p2 p3 p4 p5 in 1/1 , ologit 预测: predict r2 r3 r4 r5 列出第一个观测值的预测结果:list r2 r3 r4 r5 in 1/1 , 计数模型 (1)有些被解释变量仅能取非负整数,如金牌数量, 看病次数 等,一般用泊松回归。Stata 命令为 poisson y x1
39、x2 x2, r (稳健标准差 ) estat gof (goodness of fitnes 拟合优度检验) 泊松回归的局限是其期望和方差一定相等,但有些被解释变量的方差明显大于期望,即 存在“过度分散” ,则可以考虑“负二项回归 ” (negative binomial regression ) ,使用 MLE 估 计。 Nbreg y x1 x2 x2, r 如果计数数据中含有大量的零值,则可以使用“零膨胀泊松回归” 。这可以 Vuong 统计 量来检验,如果Vuong 统计量很大,则选择零膨胀泊松回归或者零膨胀负二项泊松回归。 零膨胀泊松回归的stata 命令为: zip y x1 x
40、2 x3, inflate(varlist) vuong (零膨胀泊松回归) zipnb y x1 x2 x3, inflate(varlist) vuong (零膨胀负二项回归) 15.受限制的被解释变量(断尾回归、截取回归) 断尾回归stata 命令: truncreg y x1 x2 x3, ll(#) (左边断尾 ) truncreg Y X1 X2 X3, ul(#) (右边断尾 ) truncreg Y X1 X2 X3,ll( #)ul(#)(双边断尾) 截取回归stata 命令:tobit 模型 tobit y x1 x2 x3, ll(#) tobit y x1 x2 x3,
41、 ul(#) tobit y x1 x2 x3, ll(#) ul (#) 样本选择模型的 stata 命令: Heckman y x1 x2 x3, select (z1 z2) (默认使用MLE,选择方程的被解释变量为y),最下的似 然比检验P很小,则认为样本选择模型适用。 Heckman y x1 x2 x3, select (z1 z2) twostep (两步法 ,选择方程的被解释变量为y) Heckman y x1 x2 x3, select (w=z1 z2) (默认使用MLE,选择方程的被解释变量为w) 16 时间序列 (平稳时间序列、 非平稳时间序列。 AR自回归模型、 MA
42、 为移动平均模型结合起来为ARMA 模型、 自回归分布滞后模型ADL、向量自回归模型VAR、向量移动平均过程VMA、格兰杰因 果检验:条件是变量协整) (1)自相关和偏自相关 corrgrams y, lags (#) 第 1 至#阶 ACF和 PACF ac y, lags(#) pac y, lags(#) (2)ARIMA arima y, ar(1/#),ma(1/#) 或者 arima y, arima(#p,#d,#q) #p 表示 #阶自回归, #q 表示 #阶移动平均, #d 表示 #阶差分达到平 稳过程。 检验残差是否存在自相关: predict e1, res corrgr
43、am e1,lags(#) (检查残差是否存在第1 到第 #阶自相关 ) (3)ADL和 ARMAX ARMAX 的 stata 命令 arima y x1 x2 x3, ar(#) ma(#) 对于时间序列,首先要设置时间项,tset timevar 对于非平稳时间序列,首先要用差分使其平稳:g dx1=d.x1 (当然差分后会缺失一个变量) 如果自相关系数和偏自相关系数都存在断尾,则考虑ARMA 模型 :理由 计算信息准则estat ic ( 目的是什么?根据信息准则判断哪一个模型更优)还可以去掉不 显著的阶,回归后再运用信息准则比较。 (4)VAR varsoc x y z, maxla
44、g(#) (计算信息准则,最大滞后期默认值为4),根据信息准则可以估计 VAR系统的阶数 var x y z (进行 VAR估计,默认滞后期为2) var x y z, lags(1 /3) (滞后期为一至三期) var x y z, lags(3) (滞后期为第三期) var x y z, dfk (如果样本容量过小,可以用dfk 进行自由度调整) var x y z, small (显示小样本统计量) var x y z, exog(w1, w2) (引入外生变量w1, w2) varbasic x y z, irf (估计 VAR模型,画脉冲响应图,未正交化) varwle (进行 VA
45、R估计后,对每个方程及所有方程的各阶系数联合显著性进行wald 检 验, wle 表示 wald lag-exclusion statistics) varlmar (估计后,对残差是否自相关进行LM 检验 ) varnorm (检验残差是否服从正态分布) varstable,graph (进行 VAR估计后,检查VAR系统是否为平稳过程,如果平稳则所有 特征值都在单位圆内。 ) vargranger (估计后,进行格兰杰因果检验) irf create filename ,set (filename ) step(#) replace (建立脉冲文件,是脉冲文件 “filename ”成为当
46、前的脉冲文件,step 表示考察几期的脉冲响应函数,默认为8,replace 代表替代已有的文件名) irf graph irf (画脉冲响应图,未正交化) irf graph oirf (画正交化的脉冲响应图) fcast compute prefix, step(#) ( 估计 VAR后,计算被解释变量的未来#期的预测值,并把预 测值赋予被解释变量加上前缀“prefix ”之后的变量名,如可以加F-) fcast graph varlist,observed (执行命令“fcast compute”后,将变量“varlist”所代表 的预测值画图,其中“observed”表示与实际观测值比
47、较) 17 非平稳的时间序列 有确定性趋势存在的时候,则成为不平稳,去掉时间因素,则成为平稳序列的我们叫它 为趋势平稳序列;存在结构变动则为非平稳序列;存在随机趋势则也为非平稳序列。称平稳 时间序列为零阶单整,如果时间序列的一阶差分为平稳,则称为一阶单整,也称为单位根过 程, D 阶差分为平稳,则成为“d 阶单整”。单位根是用来检验是否平稳的。如果时间序列 存在单位根,则为非平稳序列。 如果序列非平稳,则可能带来A.自回归系数的估计值向左偏向于0;B.t 检验失效; C.两 个相互独立的变量可能出现伪回归或伪相关。 进行单位根检验的方法有: (1)DF检验, 使用一阶自回归来检验单位根,要求扰
48、动项为独立白噪声,故扰动项无自相关, 若有自相关,则可以引入更高阶的滞后项来控制。 (2)ADF 检验,多阶。在进行ADF 检验时,确定滞后阶数P 的大小,采用最大滞后阶数 Pmax=12.(T/100) 1/4,(stata 命令为: di 12*(t/100)(1 /4) 然后使用由大到小的序贯 t 规则,看 ADF 检验中最后一阶回归系数是否显著,也可以使用信息准则。 ADF 检验的 Stata 命令为: dfuller y (DF检验,不包含滞后差分项) ,若 DF 统计量较小,则拒绝单位根存在假设。 dfuller y, lags(p) (包含 p 阶滞后差分项) dfuller y
49、, noconstant ( 不带常数项 ) dfuller y, trend (带时间趋势项) dfuller y, regress (显示回归结果)e (3)phillips-perron 单位根检验( PP检验) PP检验使用一阶自回归,但使用异方差自相关稳健的标准差对DF统计量进行修正。 pperron y (默认设置带常数项,不带时间趋势项) pperron y, noconstant (不带常数项) pperron y,trend (带时间趋势项) pperron y,regress (显示回归结果) (4)DF-GLS单位根检验 ,是去趋势后再使用ADF检验 dfgls y (默认带时间趋势项,自动根据信息准则选择最佳滞后期数) dfgls y,notrend (不带时间趋势项) (5)KPSS单位根检验,将假设改为“时间序列为平稳”。 ssc install kpss (下载安装KPSS 程序 ) kpss y (默认包括时间趋势) kpss y notrend (不带时间趋势项) 如果进行单位根检验认为是非平稳的,则要判断为I(1)或者是 I(2) 。 协整概念和stata操作 : 协整检验就是为了考察几个变量之间的长期均衡关系 检验协整
链接地址:https://www.31doc.com/p-5198209.html