[所有分类]本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf
《[所有分类]本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf》由会员分享,可在线阅读,更多相关《[所有分类]本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf(13页珍藏版)》请在三一文库上搜索。
1、武汉理工大学多元统计分析课程设计 1 我国各省市的污染类型分析 摘要 本文运用多元统计分析中介绍的主成分分析方法和聚类分析方法,在 2006 年中国统 计年鉴所提供的数据基础上,对所列出的 31 个省,市,自治区的环境指标进行主成分分 析后再以所得到的因子进行聚类分析,从而确定每个城市所处的类别得出其环境污染类 型。针对不同的污染类型,需要有侧重的进行治理,为环保部门提供一些依据。 关键词关键词: 主成分分析 ;因子分析 ; 皮尔逊相关系数 The PollutionTypeAnalysis of Our CountrysEvery Province Abstract In this arti
2、cle the factor analysis method and clustering analysis method which are introduced in the Applied Multivariate Statistical Analysis are used. On the number supplied by the China Yearbook 2006 , we use the factor analysis method to analysis the 10 environment variances about the given 31 provinces in
3、 order to get the main factors . Then, we can cluster the provinces by the main factors, so we can know the pollution type after clustering .Todifferent pollution type, different method are needed.Wewant to give some advices to the Environment Protection Department by the result of this article. Key
4、words:Keywords:Keywords:Keywords: Main Component Analysis, Factor Analysis, Pearson Correlation 武汉理工大学多元统计分析课程设计 2 1. 引言 由于人们对工业高度发达的负面影响预料不够,预防不利,导致了全球性的三大危 机:资源短缺,环境污染,生态破坏。环境保护,随着现在时代的进步,人民生活水平的 提高,这一字眼在人们的生活中出现的次数也越来越频繁。由于我国现在正处于迅速推进 工业化和城市化的发展阶段,对自然资源的开发强度不断加大,加之粗放型的经济增长方 式,技术水平和管理水平比较落后,污染物排放量
5、不断增加。从全国总的情况来看,我国 环境污染仍在加剧,生态恶化积重难返,环境形势不容乐观。我国的环境污染现状已经到 了非常严重的地步了,最近爆发的太湖水污染事件充分说明了事情的严重性。水污染事件 的发生导致沐阳 20 多万人没有干净水喝,这还只是单一方面的污染事件。有专家预计, 我国很多水域都有可能发生类似的大面积的污染事件。因此,充分认识各个地区的环境污 染特点,有针对性的采取相应的措施,虽然环境污染并不是只影响单一区域,而具有全球 性影响,但是各个地区将本地的污染最严重的方面进行治理后,将对治理全国范围内的污 染有比较好的效果。 2理论部分 2.1 主成分分析 主成分分析所关心的问题,是通
6、过一组变量的几个线形组合来解释这组变量的方差 协方差结构。它的一般目的是: (1)数据的压缩; (2)数据的解释。虽要求 P 个成分可以 再现全系统的变异性,但大部分变异性常常只用少数 K 个主成分就可说明。这时,这 K 个 主成分所包含的信息和那 P 个原变量所包含的信息(几乎)一样多。主成分,在代数学上 是 P 个随机变量的一些特殊的线形组合。而在几何学这些线形组合代表选取一 1,2P X XXL 个新坐标系,它是以为坐标轴的原坐标系旋转后得到的。设随机向量 12 , P XXXL 有协方差阵,其特征值。对应的特征向量为 12 , T P XXXX=L 12 0 P L 。 则 第i个 主
7、 成 分 由此 时 , 12 , p e eeL 1122 ,1,2. iiiipp Ye Xe Xe Xip=+=L ,.如某些相等,那么对应的( )ar,1,2. T iiii VYeeip=(),0, T ikik Cov Y Yeeik= i 系数向量的选取从而的选取,就都不是惟一的。 i e i Y 武汉理工大学多元统计分析课程设计 3 对于样本来说,其主成分的计算同总体的计算是一样的。但是在做样本的主成分时, 需要考虑是以样本的协方差阵还是以样本的相关系数阵来计算其特征值与特征向量。对于 这个问题我们采取以下原则:用于解释主成分时只用成分系数而不是用相关系数。虽说 i e 作为变量
8、对已知成分的重要性的测度,系数和相关可能导出不同的重要性等级,但是我们 的经验表明,这种等级的差别常常不是大到很明显。在实践中,有较大(按绝对值)系数 的变量,趋向于有较大的相关,故这两个重要性的测度(前者为多变量,后者为单变量) 经常给出相似的结果。建议既考虑系数又考虑相关,这有助于解释主成分。另外,在确定 主成分的个数时,也应该考虑我们所取的主成分是否能充分代表原有数据的信息。我们定 义:第 j 个主成分的贡献率为:。当我们取 m 个主成分时,它所解释的贡献率为 1 j p p i = ,当由此式所算出的结果大于等于 80%时就可以认为所取的主成分的个数能很好的 1 1 m i i p j
9、 j = = 代表原有变量的信息,此时则可取 m 个主成分。 2.2 聚类分析 聚类分析是从事物数量上的特征出发对事物进行分类,是事物分类学和多元统计技 术结合的结果,是一种较为粗糙的,理论并非完善的分析方法,但是其使用简便,分类 效果较好,其内容也在不断丰富中,是常用的数据探索性分析工具。 聚类分析(Cluster Analysis)又称为集群分析,其分析的基本思想是依照事物的数 值特征,来观察各样品之间的亲疏关系。而样品之间的亲疏关系则是由样品之间的距离 来衡量的,一旦样品之间的距离定义之后,则把距离近的样品归为一类。传统的聚类分 析要求聚类变量为数值变量。设为第 i 个样品的第 k 个指
10、标,每个样品测量了 p 个 ik X 变量,则样品和之间的距离()定义为:(7-1)。 i X j X ij D( ) 1 1 pq q ijikjk k DqXX = = 式(7-1)称为闵可夫斯基(Minkovshi)距离。其中 q 为大雨 0 的正数。当 q=1 时, 武汉理工大学多元统计分析课程设计 4 , 称为绝对值距离或曼哈顿 (Manhanan)距离 ,SPSS 称为“block”;( ) 1 p ijikjk k DqXX = = 当 q=2 时,称为欧氏距离(Euclidean Distance);也可以定义( ) 12 2 1 p ijikjk k Dqxx = = 变量之
11、间的距离,常用的两种定义方法是夹角余弦法和相关系数法。变量和的夹角 i x j x 余弦为;变量和的相关系数 ij C 1 12 22 11 n kikj k ij nn kikj kk x x C xx = = = i x j x 。和称为变量间的相似系数。变量间的距离 ()() ()() 1 12 2 2 11 n kiikjj k ij nn kiikjj kk xxxx r xxxx = = = ij C ij r ij D 由下式定义:或。聚类分析既可以对样品聚类,又可以对变 2 1 ijij DC= 2 1 ijij Dr= 量聚类,样品聚类也称为 Q 型聚类,变量聚类也称为 R
12、型聚类。根据样本量的大小, 可以使用层次聚类或 K 中心聚类的方法。后者属于一种快速聚类方法。当样本量较大, 数值变量和分类变量并存时,也可以使用二阶段聚类法。本文主要是采用层次聚类法。 层次聚类法(也称为系统聚类法)是实际工作中使用最多的一种方法。层次聚类法 的层次含义是:开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与 其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离,这样一步LL 步地进行下去,每一步减少一类,直至所有的样品都合并成一类为止。整个聚类过程可 绘成聚类图,类与类之间的距离有各种不同的定义方法,定义不同即产生不同的算法, 而不同的算法可能得到不同的
13、结果。 3主成分分析和聚类分析的具体应用 3.1数据来源与指标变量选取 本文所采用的数据全部来自 2006 年中国统计年鉴,其中所选取的指标来自年鉴第十二 章环境保护目录中。 ,我们共选取了十个指标,选取的指标有:工业废水排放量(万吨), 1 x 生活废水排放量(万吨) ,工业二氧化硫排放量(万吨) ,生活二氧化硫排放量(万 2 x 3 x 4 x 武汉理工大学多元统计分析课程设计 5 吨) ,工业烟尘排放量(万吨) ,生活烟尘排放量(万吨) ,工业粉尘排放量(万吨), 5 x 6 x 7 x 生活垃圾排放量(万吨) ,等效声级,工业固体废物排放量(吨) 。我们采用的数 8 x 9 x 10
14、x 据如表 1: 表1 排放指标数据表 工业废水 排放量 生活废水 排放量 工业二 氧化 排放量 硫 生活二 氧化 硫排放 量 工业 烟尘 排放 量 生活 烟尘 排放 量 工业 粉尘 排放 量 生活垃圾 排放量 等效 噪声 工业固体废 物排放量 128138819610.58.51.843.3454.653.291403 300813028024.12.47.71.41.9144.854.944.4 12453383991128.121.45617.371.3680.154424148.8 320996299712031.69121.269.5619.753.86046901 24967312
15、74129.61660.417.545.632954.3624957.7 10507211363396.123.651.722.845.376854.193938 411895681630.87.532.78.613.7580.456.418642 451586888343.17.745.49.412.41125.856300 5109714861337.513.856.61.1622.357.31233 296318223107131.26.142.62.635.5834.85453 19242612077083.12.919.91.323.1762.555.756379.6 6348793
16、10451.55.625.34.546.2476.653.7450 1309398145343.92.211.81.319.330356.257681.8 539726934855.55.8231.635264.455.9102819.1 139071141306171.528.748.513.437.31046.553.51376 123476139088147.115.385.77.170.4756.755.736353.7 9243214493662.69.226.66.433.8885.255167033.6 12244013319875.516.445.38.676.94865456
17、7049.9 231568406835127.4227.10.832.11722.655.1138537.8 14560912524897.54.953.81.255.6204.7561104791 7428278462.2010.11.181.255.7367.7 848856033668.315.413.18.521.3237.654.71844955 122590139061114.115.963.415.738.4600.754.61157015 148504081865.969.920.515.919.1176.555.61312832 329284227442.99.317.15.
18、615.5205.753.8706602 99135640.10.10.200.244.5073000 42819405498012.229.210.234370.755.4348678.6 167982693051.74.612.43.816.6297.857.9406347.2 76191174111.50.95.729.354.452.127625.4 214111440630.2410.22.2996.453.341046.8 200524336734.817.1151217.3343.654.91094286 武汉理工大学多元统计分析课程设计 6 我们的主要思想是:由于所选取的指标量
19、太多,对聚类分析不是有利的,因此首先运用主 成分分析的方法,将十个因子进行压缩得到几个主要因子,再利用这些主成分来对各个样 本(也就是各个城市)在相应因子上的因子得分来进行聚类分析,将 31 个城市进行分类, 最后分析分在一个类的城市在这几个主要因子上的得分有什么特点,从而可以知道相应城 市的污染类型。现在将上述思想具体进行。 3.2 主成分分析 先进行主成分分析。将这十个变量作为因子分析的变量进行分析,在因子分析过程中, 提取公因子是采用主成分法,可以得到以下的结果:表 2 给出的是因子分析的总方差解释 表2 总方差解释表 Extraction Method: Principal Compo
20、nent Analysis. 由上表及有关主成分的理论知:选取四个主成分是合适的,它所解释的比例占原方差的 85.219%,达到了 80%的要求,因而是合适的。因子数量的确定还可以直接取特征值大于 1 的个数,由上表知若仅取特征值大于 1 的个数,将只有两个因子,它所解释的比例只有 68.34%,效果并不是很好。由主成分的理论知道,经正交旋转(采用方差最大旋转)后各 个因子对所有变量的解释均能有很好的效果,旋转后的因子成分矩阵见表 3: componentInitial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums
21、of Squared Loadings Total % of Variance Cumulative %Total % of Variance Cumulative %Total % of Variance Cumulative % 14.33343.32643.3264.33343.32643.3262.97029.69729.697 22.50125.01468.3402.50125.01468.3402.57825.78155.478 3.9349.34277.682.9349.34277.6821.95919.58875.066 4.7547.53685.219.7547.53685.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 所有分类 所有 分类 本文 运用 多元 统计分析 介绍 成分 分析 方法 聚类分
链接地址:https://www.31doc.com/p-5117298.html