检测强影响点,并求出杠杆值.doc
《检测强影响点,并求出杠杆值.doc》由会员分享,可在线阅读,更多相关《检测强影响点,并求出杠杆值.doc(33页珍藏版)》请在三一文库上搜索。
1、摘要:针对问题一:本文通过利用SPSS,EVIEWS等数学软件对已知数据进行处理,首先在SPSS中用箱图进行分析,进而检测出强影响点,然后用SPSS计算得出杠杆值。其次,从回归残差的直方图与附于图上的正态分布曲线相比较,来验证正态分布。最后,从相关系数观察变量之间是否线性相关,由相关系数矩阵来检验自变量是否多重共线性。针对问题二:本模型是基于使用EVIEWS的使用对模型的分析检验。首先,绘制折线图和工业总产值自相关图进行平稳性和季节性分析得出相应的结果。从图中的分析消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。最后建立ARMA模型计算各模型参数估计结果和各模型检验结果
2、。用所建立的模型预测1998年1月到12月工业总产值和白噪声检验,以明确模型的可用性。 针对问题三:本模型采用聚类分析方法把数据分为两类,使用SPSS软件对已知数据进行处理,分析收入、个体数量及是否持信用卡三者之间的关系,得到聚类分析结果归属表及龙骨图,即可得到结果。关键字:回归分析 强影响点 杠杆值 残差分析 正态性检验 相关性检验 t检验 F检验 多重共线性检验 EVIEWS的使用 一阶自然对数逐期差分 季节差分 自相关与偏相关 聚类分析 欧氏距离 SPSS软件 一 问题重述问题一:根据所给数据进行以下分析:(数据见附录一)要求:1、检测强影响点,并求出杠杆值。 2、正态性检验。 3、相关
3、性检验。 4、自变量的多重共线性检测,若有多重共线性,试消除,再建模。 5、残差的自相关性分析,模型的合理性分析。 6、预测时的预测值。问题二:根据某地的工业总产值数据表进行以下分析:(数据见附录二)要求:1、根据数据分析当地工业总产值的变化特征。 2、根据变化特征试建立合理的模型描绘这种特征。 3、若有季节性变化,试分离出季节性变化因子,求出季节性因子。 4、对残差进行白噪声检验。 5、预测1998年的工业总产值。问题三:根据收入与持信用卡个体数量及是否持信用卡的调查表进行以下分析:(数据见附录三)要求:1、试对收入、个体数量及是否持信用卡三者之间的关系进行分析。 2、根据分析结果建立合理的
4、模型描述这三者间的关系。 3、根据预测结果提出合理化建议。二 问题分析问题一的分析:本模型中我们对强影响点,杠杆值,正态性检验,相关性检验,自变量的多重共线性检测,残差的自相关性等问题进行了求解分析,利用SPSS,EVIEWS等数学软件对已知数据进行处理,寻找各变量之间的关系,建立符合要求的数学模型。问题二的分析:1.绘制折线图和工业总产值系列自相关图并进行平稳性和季节性分析。2. 为消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。3.建立ARMA计算模型各模型参数估计结果和各模型检验结果。本模型是一个有关时间序列的问题,我们利用EVIEWS软件绘制折线图和工业总产值系
5、列自相关图并进行平稳性和季节性分析,并对该序列进行差分变换及一阶自然对数逐期差分且消除季节性,最后建立ARMA模型进行求解及预测。问题三的分析:本模型采用聚类分析方法把数据分为两类,并利用SPSS软件求解。三 模型假设问题一的假设:1、各变量的数据与所给的表格中的信息一致。2、随机误差项不相关。问题二的假设: 1、某地区的工业生产总值在一段时间内保持稳步发展。 2、工业总产值不会受其他因素的影响,只受季节性的影响问题三的假设: 假设数据间存在相似度。四 符号说明问题一的符号说明:1、 表示杠杆值2、 表示回归设计矩阵3、 表示样本预测值问题二的符号说明:1、:表示原时间序列;2、:表示时间序列
6、的一阶对数逐期差分;3、:表示序列的一阶季节差分;4、:表示对序列做差分计算;5、:表示季节自回归部分变量;6、:表示季节移动平均部分变量。问题三的符号说明:表示欧氏距离。五 模型建立与求解问题一:1.1用SPSS软件做如下的箱图可得到三个强影响点:2,3,34这三个点。图1.1.1 箱图1.2 杠杆值,用SPSS计算结果如下: 0.08927 0.17334 0.36372 0.08123 0.12384 0.10753 0.18045 0.27241 0.11972 0.24533 0.07050 0.25300 0.13616 0.18471 0.24417 0.15160 0.1152
7、0 0.11576 0.05475 0.02535 0.07332 0.14925 0.13162 0.08912 0.05099 0.17886 0.01226 0.18812 0.13499 0.06522 0.06165 0.06281 0.17065 0.97471 0.07830 0.11216 0.08678 0.13479 0.07252 0.063852、 检验正态性 (1)做统计量分析及直方图。图1.2.1 统计量分析图1.2.2 直方图从回归残差的直方图与附于图上的正态分布曲线相比较,可知道服从正态分布分布,即该项检验通过。(2)做P-P图检验正态性检验 图1.2.3 P-
8、P图从图1.2.3中可以看出自变量和因变量基本成线性关系,模型的散点几乎分布在一条直线上,可认为满足正态分布,所以该项检验通过。3、相关性检验图1.3.1 相关系数图从图1.3.1中可看出,是具有明显的相关性的,而与的相关性不显著。4、自变量的多重共线性检测图1.4.1 与的自相关性 输出结果中,的系数都不通过显著性检测。图1.4.2 残差图图1.4.3 相关系数矩阵 由此可以发现,与的相关系数都在1000以上,但输出结果中,解释变量的回归系数却无法通过显著性检验,可认为解释变量之间存在多重共线性。 用逐步回归克服多重共线性,分别做出与之间的回归模型:图1.4.4 与的自相关性 图1.4.5
9、与的自相关性 图1.4.6 与的自相关性 图1.4.7 与的自相关性 图1.4.8 与的自相关性 图1.4.9 与的自相关性 表1.1 由表1.1可知,对的影响最大,所以,选择作为初始的回归模型。 的最大,所以保留,以为基础上,顺次加入变量逐步回归得结果:表1.2120.410.8269(4.45,7.00,6.75)22.08()78.960.7936(2.26,8.24,5.68)2.11186.650.6256(4.26,7.63,1.08)2.05237.060.6260(6.11,7.86,-1.10)2.17116.330.7368(3.12,5.06,4.16)1.73 经表1.
10、2比较,新加入后,=0.8269最大,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示: 表1.347.520.9018(1.90,8.45,6.30,5.24)1.8572.990.8522(2.30,7.04,7.43,2.48)1.78135.250.8322(4.44,7.09,6.65,-1.06)2.1988.810.8492(3.05,5.66,5.18,2.30)1.78 经表1.3比较,新加入后,=0.9018最大,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示: 表1.4-0.520.9276(-0.02,9.10,7.54,6
11、.03,3.53)1.8364.010.9092(2.44,8.81,6.26.5.45,-1.68)1.9931.730.9112(1.25,7.15,5.20,4.95,1.93)1.61经表1.4比较,新加入后,=0.9276最大,但参数t检验不显著,而加入后,=0.9112,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示:表1.5-6.890.9316(-0.27,7,89,6.32,5.70,1.42,3.18)1.6347.770.9171(1.77,7.44,5.23,5.14,180,-1.55)1.81 经表1.5比较,新加入和后,两个的修正可绝系数都
12、较大,但参数检验不显著。所以与的相关性较强。做线性回归,如图:图1.4.10 线性回归所以经过多重共线性修正后的最终模型为:5.残差的自相关性分析,模型的合理性分析图1.5.1 残差分析 从图1.5.1可以看出AC自相关系数都小于1,大于-1,残差存在较弱的相关性,PAC值也是在(-1,1)的范围内,同样存在较弱的偏相关性。6.预测时的预测值取代入得: 362.86问题二:1、当地工业总产值的变化特征及其描述 时间序列特征分析:将数据绘制成折线图,如图2.1所示,序列具有明显的增长趋势,并包含有周期为12个月的季节波动。即有季节因子存在。图2.1.1 我国工业总产值折线图由折线图可看出,199
13、0年1997年该地区的工业总产值总体呈上升趋势,且每年2月份的观测值都远小于其他月份,表现出明显的季节波动。图2.1.2 工业总产值序列自相关图 由图2.1.2可知,工业总产值序列的自相关系数是逐渐趋向于0,该序列为非平稳时间序列,需要对其进行调整使之变成平稳系列在进行求解。图2.1.3 直方图为消除趋势同时减小序列的波动,使之变为平稳时间序列,对原序列做一阶自然对数逐期差分,在主命令窗口栏中输入:Series ilx=log(x)-log(x(-1)差分序列名定义为ilx(括号里的-1表示滞后一期),它的自相关与偏自相关分析图如图2.1.4。图2.1.4 序列ilx的自相关与偏自相关分析图图
14、2.1.5 序列ilx的折线图图2.1.6 序列ilx的一阶差分图2.1.7 序列ilx的二阶差分由图2.1.5至图2.1.7可见,序列的趋势基本消除,但是当k=12时,由图2.1.5知,样本的自相关系数和偏相关系数显著不为0,表明季节性还存在。因此对序列ilx做季节差分,在主命令窗口栏中输入:series silx=ilx-ilx(-12)得到新序列silx。为检验模型的预测的效果,将1997年的12个观测值作为评价预测的精度的参照对象。建模的样本期为1990年1月至1996年12月,在主命令窗口栏中输入smpl1990:01 1996:12绘制silx自相关和偏相关分析图,如图2.1.8。
15、图2.1.8序列silx的自相关与偏自相关分析图由图2.1.8可知,序列silx的样本自相关与偏相关系数很快落入随即区间,序列趋势已基本消除,且当k=12时,自相关与偏相关系数也明显减小,偏相关系数与0无显著差别,但自相关系数与0仍具有显著性差别。因此,我们对序列silx做二阶季节差分图,如图2.1.9。图2.1.9 序列silx的二阶季节差分图 由silx的二阶季节差分图可知,当k=12时,自相关与偏相关系数较之图2.1.8不但没有减小反而增大。因此对序列进行二阶差分,序列silx的季节性没有得到明显改善,故对该序列只需要做一阶差分即可。对序列silx进行0均值检验,在主窗口命令行输入sca
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检测 影响 求出 杠杆
链接地址:https://www.31doc.com/p-2553133.html