主成分分析作业解析.ppt
《主成分分析作业解析.ppt》由会员分享,可在线阅读,更多相关《主成分分析作业解析.ppt(51页珍藏版)》请在三一文库上搜索。
1、主成分分析作业解答,没有人看得懂SAS的输出。所以实验报告明确写出实验的结果:方程、向量、统计量是多少,不要写SAS的输出。,练习一、书p292,7-11题。用主成分分析确定信息损失不超过15%应取几个主成分,并解释这几个主成分的涵意。,data data711; input name : $18. x1-x8; cards; 1(冶金) 90342 52455 101091 19272 82.000 16.100 197435 0.172 2(电力) 4903 1973 2035 10313 34.200 7.100 592077 0.003 3(煤炭) 6735 21139 3767 17
2、80 36.100 8.200 726396 0.003 4(化学) 49454 36241 81557 22504 98.100 25.900 348226 0.985 5(机械) 139190 203505 215898 10609 93.200 12.600 139572 0.628 6(建材) 12215 16219 10351 6382 62.500 8.700 145818 0.066 7(森工) 2372 6572 8103 12329 184.400 22.200 20921 0.152 8(食品) 11062 23078 54935 23804 370.400 41.000
3、65486 0.263 9(纺织) 17111 23907 52108 21796 221.500 21.500 63806 0.276 10(缝纫) 1206 3930 6126 15586 330.400 29.500 1840 0.437 11(皮革) 2150 5704 6200 10870 184.200 12.000 8913 0.274 12(造纸) 5251 6155 10383 16875 146.400 27.500 78796 0.151 13(文教艺术用品) 14341 13203 19396 14691 94.600 17.800 6354 1.574 ; proc
4、princomp data=data711 prefix=z out=o711; var x1-x8; run; proc means data=data711; var x1-x8; run;,means过程可以不必要。因为用它来计算均值和标准差,但princomp过程自己就会计算均值和标准差。,Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.10491252 0.20747090 0.3881 0.3881 2 2.89744162 1.96722608 0.3622
5、 0.7503 3 0.93021555 0.28809329 0.1163 0.8666 4 0.64212226 0.33803813 0.0803 0.9468 5 0.30408413 0.21748637 0.0380 0.9848 6 0.08659776 0.05441338 0.0108 0.9957 7 0.03218438 0.02974261 0.0040 0.9997 8 0.00244178 0.0003 1.0000,相关系数矩阵的特征根(可以看出各主成分的贡献率和累积贡献率):,The SAS System 16:26 Tuesday, May 27, 2008
6、2 The PRINCOMP Procedure Eigenvectors z1 z2 z3 z4 z5 z6 z7 z8 x1 0.476650 0.295991 0.104190 0.045303 -.184219 -.065854 0.757619 0.245000 x2 0.472808 0.277894 0.162983 -.174431 0.305448 -.048451 -.518413 0.527105 x3 0.423845 0.377951 0.156255 0.058670 0.017475 0.099048 -.174045 -.780540 x4 -.212893 0
7、.451408 -.008544 0.516086 -.539407 0.287855 -.249427 0.220126 x5 -.388460 0.330945 0.321133 -.199416 0.449899 0.582289 0.232969 0.030623 x6 -.352427 0.402737 0.145144 0.279257 0.316835 -.713571 0.056436 -.042355 x7 0.214835 -.377415 0.140459 0.758169 0.418201 0.193587 0.052842 0.041160 x8 0.055034 0
8、.272736 -.891162 0.071855 0.322201 0.122168 0.067111 -.003300,相关系数矩阵的特征向量(可以看出各主成分的构成):,故:z1=0.47665*X1* + 0.472808*X2* + 0.423845*X3* -.212893 *X4* -.388460 *X5* -.352427*X6* + 0.214835 *X7* + 0.055034 *X8* ,Simple Statistics x1 x2 x3 x4 Mean 27410.15385 31852.38462 43996.15385 14370.07692 StD 4192
9、5.34721 53549.87903 61103.39007 6528.97650 Simple Statistics x5 x6 x7 x8 Mean 149.0769231 19.23846154 184280.0000 0.3833846154 StD 106.5518509 9.97501366 233247.4120 0.4493095701,均值和标准差:,这说明,标准后的变量X1*=(X1-27410.15385)/sqrt(41925.34721) =0.00488384*X1-133.86688 X2*=(X2- 31852.38462)/sqrt(53549.87903)
10、 ,各主成分的意义为: 第一主成分在各投入项上为正,在效率项上或负或接近0,而且投入项的绝对值大于效率项的绝对值,故代表投入与效率的对比,或者就叫做绝对投入。 第二主成分的意义不是很明显。可以认为,在除燃料项以外各项都为正,燃料为负,故代表总规模。也可以认为,在x4(劳动生产率)、x6(资金利税率)绝对值大,x3(工业总产值)、x5(百元资产实现产值)次大,燃料负绝对值也很大,可以看作效率。 第三主成分在能源利用效果上接近-1,故代表负的能源消耗。,故取三个主成分使信息损失少于15%:,z1 z2 z3 z4 z5 z6 z7 z8 x1 0.476650 0.295991 0.104190
11、0.045303 -.184219 -.065854 0.757619 0.245000 x2 0.472808 0.277894 0.162983 -.174431 0.305448 -.048451 -.518413 0.527105 x3 0.423845 0.377951 0.156255 0.058670 0.017475 0.099048 -.174045 -.780540 x4 -.212893 0.451408 -.008544 0.516086 -.539407 0.287855 -.249427 0.220126 x5 -.388460 0.330945 0.321133
12、-.199416 0.449899 0.582289 0.232969 0.030623 x6 -.352427 0.402737 0.145144 0.279257 0.316835 -.713571 0.056436 -.042355 x7 0.214835 -.377415 0.140459 0.758169 0.418201 0.193587 0.052842 0.041160 x8 0.055034 0.272736 -.891162 0.071855 0.322201 0.122168 0.067111 -.003300,Eigenvalue Difference Proporti
13、on Cumulative 1 3.10491252 0.20747090 0.3881 0.3881 2 2.89744162 1.96722608 0.3622 0.7503 3 0.93021555 0.28809329 0.1163 0.8666,省份 GDP 居民消 固定资 职工平 货物周 居民消费 商品零售 工业总 费水平 产投资 均工资 转量 价格指数 价格指数 产值 北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43 天津 920.11 2720 345.46 6501 342.8 115.2 110.6 582.51 河北
14、 2849.52 1258 704.87 4839 2233.3 115.2 115.8 1234.85 山西 1092.48 1250 290.90 4721 717.3 116.9 115.6 697.25 内蒙 832.88 1387 250.23 4134 781.7 117.5 116.8 419.39 辽宁 2793.37 2397 387.99 4911 1371.1 116.1 114.0 1840.55 吉林 1129.20 1872 320.45 4430 497.4 115.2 114.2 762.47 黑龙江 2014.53 2334 435.73 4145 824.8
15、 116.1 114.3 1240.37 上海 2462.57 5343 996.48 9279 207.4 118.7 113.0 1642.95 江苏 5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64 浙江 3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59 安徽 2003.58 1254 474.00 4069 908.3 114.8 112.7 824.14 福建 2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67 江西 1205.1
16、1 1182 282.84 4211 411.7 116.9 115.9 571.84 山东 5002.34 1527 1229.55 5154 1196.6 117.6 114.2 2207.69 河南 3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92 湖北 2391.42 1527 571.68 4685 849.0 120.0 116.6 1220.72 湖南 2195.70 1408 422.61 4797 1011.8 119.0 115.5 843.83 广东 5381.72 2699 1639.83 8250 656.5 11
17、4.0 111.6 1396.35 广西 1606.15 1314 382.59 5105 556.0 118.4 116.4 554.97 海南 364.17 1814 198.35 5340 232.1 113.5 111.3 64.33 四川 3534.00 1261 822.54 4645 902.3 118.5 117.0 1431.81 贵州 630.07 942 150.84 4475 301.1 121.4 117.2 324.00 云南 1206.68 1261 334.00 5149 310.4 121.3 118.1 716.65 西藏 55.98 1110 17.87
18、7382 4.2 117.3 114.9 5.57 陕西 1000.03 1208 300.27 4396 500.9 119.0 117.0 600.98 甘肃 553.35 1007 114.81 5493 507.0 119.8 116.5 468.79 青海 165.31 1445 47.76 5753 61.6 118.0 116.3 105.80 宁夏 169.75 1355 61.98 5079 121.8 117.1 115.3 114.40 新疆 834.57 1469 376.95 5348 339.0 119.7 116.7 428.76,练习二、试对全国30个省市自治区
19、经济发展基本情况的八项指标作主成分分析(自己按一定标准,指出选几个主成分,它们分别是什么,代表了什么涵意,为什么):,data ex02; input province $ x1-x8; cards; 北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43 . . . . 新疆 834.57 1469 376.95 5348 339.0 119.7 116.7 428.76 ; proc princomp data=ex02 prefix=z out=pca_ex02; var x1-x8; run;,程序为:,Simple Statistic
20、s x1 x2 x3 x4 Mean 1921.092667 1745.933333 511.5083333 5439.933333 StD 1474.806031 861.641934 402.8854765 1325.826325 Simple Statistics x5 x6 x7 x8 Mean 672.7866667 117.2866667 114.9066667 862.9740000 StD 481.3849107 2.0253111 1.8980813 584.6101337,均值和标准差:,这说明,标准后的变量X1*=(X1- 1921.092667)/sqrt(1474.8
21、06031) =0.0260395*X1-50.024282 X2*=(X2- 1745.933333)/sqrt(861.641934) ,Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.73686457 1.56412913 0.4671 0.4671 2 2.17273545 0.93993456 0.2716 0.7387 3 1.23280089 0.83093111 0.1541 0.8928 4 0.40186978 0.16534899 0.0502 0.
22、9430 5 0.23652079 0.09910454 0.0296 0.9726 6 0.13741625 0.07050229 0.0172 0.9898 7 0.06691396 0.05203563 0.0084 0.9981 8 0.01487833 0.0019 1.0000,相关系数矩阵的特征根(可以看出各主成分的贡献率和累积贡献率):,Eigenvectors z1 z2 z3 z4 z5 z6 z7 z8 x1 0.457196 0.260084 0.112739 -.325164 -.136509 0.045776 0.084692 0.759595 x2 0.31532
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 作业 解析
链接地址:https://www.31doc.com/p-2712131.html