1、题 目基于聚类分析的我国各地GDP及影响因素分析 学生煌*1109014042所在学院数学与计算机科学学院专业班级数学与应用数学专业2021级数应1班指导教师 晓 康基于聚类分析的我国各地GDP及影响因素分析煌理工学院数学与计算机科学学院数学与应用数学1101班, 723001指导教师:晓康摘要:利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进展聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进展经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2021年国家统计年鉴.分析结果说明:市和市稳居第一类经济类型;省和、省、
2、省和多数处于第四类经济;其他25个省、直辖市、自治区根本在第二类型与第三类型变化.关键词:SPSS软件;聚类分析;经济类型;GDP1. 引言 在当今欧美主导的经济开展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好表达,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比拟.众所周知2021年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2021年在金融危机
3、的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济开展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的开展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了,所以我选择了对中国各地的GDP进展研究.为了我国能够均衡开展.2.预备知识2.1聚类分析的概述聚类分析是研究样品或变量分析问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合.严格的数学定义是较麻烦的,在不同问题中类的定义是不同的.为了将样品或变量进展分类,就需要研究样品之间的关系.目
4、前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离越远的点归为不同的类.聚类通过把目标数据放入少数相对同源的组或“类cluster里.分析表达数据,1通过一系列的检测将待测的一组基因的变异标准化,然后成比照拟线性协方差.2通过把用最严密关联的谱来放基因进展样本聚类,例如用简单的层级聚类hierarchical clustering方法.这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进展聚类.3多维等级分析multidimensional scaling analysis,MDS是一种
5、在二维Euclidean “距离中显示实验样本相关的大约程度.4K-means方法聚类,通过重复再分配类成员来使“类分散度最小化的方法. 聚类方法有两个显著的局限:首先,要聚类结果要明确就需别离度很好well-separated的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是,如果类是扩散且互相渗透,则每种算法的的结果将有点不同.结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据局部将产生单一的信息.为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式.对遗传学家来说,正确解释来自任一算法的聚类容的实际结果是困难的特别是边界.最终,将
6、需要经历可信度通过序列比拟来指导聚类解释. 第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比拟,大大减少发现表达类型关系的计算量,但无视了生物系统多因素和非线性的特点. 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、参加法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被参加到许多著名的统计分析软件包中,如SPSS、SAS等. 从机器学习的角度讲,簇相当于隐藏模式.聚类是搜索簇的无监视学习过程.与分类不同,无监视学习不依赖预先定义的类或带类
7、标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记.聚类是观察式学习,而不是例如式的学习. 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析. 聚类分析还可以作为其他数据挖掘任务如分类、关联规则的预处理步骤.一般的,聚类分析有二阶聚类分析TwoStep Cluster Analysis、逐步聚类分析K-Means Cluster和系统聚类分析;聚类分析Cluster Analysis又称集群分析,它是按“物以类聚的原则研究事物分类的一
8、种多元统计分析方法,根据样品的多指标变量、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图Dendrogram或冰柱图Icicle.聚类分析的优点是简单直观,大局部用于探讨研究,可以提供多种分析的结果,并且可以让研究人员根据自己的研究方向进展判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分方便!3.我国各地GDP及影响因素分析3.1问题提出与分析随着改革开放的进展,我国进入了一个前所未有的经济飞速开展时期,整体经济实力与日
9、俱增.但是,我们也应该看到各个地区的开展不平衡,沿海地区开展较快,经济增长也较快,而中西部开展相对较慢.因此,基于这种现状,本文对全国各地区的经济进展聚类分析.我选取了各省的国生产总值*1、农业生产总值*2、工业生产总值*3、建筑业生产总值*4、进出口总值*5、批发企业销售额*6和餐饮业*7这7个指标进展聚类分析.根据2021年国家统计年鉴,选取了2021年30个省、直辖市、自治区的7项经济指标,如下表.2021年我国30个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区国生产总值(*1)农业生产总值(*2)工业生产总值(*3)建筑业生产总值(*4)进出口总值(*5)批发企业销售额(*6
10、)餐饮业(*7)12153.03315.011039.1334297216533414822558.0341.7*7521.85281.713083.631564191744880518599.562.617235.483640.924062.762332805513435582730.626.57358.31908.79249.98165014631631502705.044.99740.251570.610699.4491292641086941487.641.115212.492704.628152.732855778530768826428.793.37278.751734.31002
11、6.55102412355557471049.418.28587.002251.17301.6012351015783452028.327.415046.45283.224091.26324765451867021520210.8292.634457.303816.073200.03892893532596971215364.8205.222990.351873.441035.2988614109692914813888.0166.510062.822569.513312.59195980715231402937.041.212236.532001.216762.821941583843774
12、554617.180.57655.181733.89783.96118532947706071002.824.733896.656003.171209.424051631775598357584.4262.619480.464871.527708.15322021973766123083.098.712961.102985.215567.02304684097037724259.081.413059.693207.913507.64232347341821771643.965.339482.563337.668275.77298060433824131818599.1384.4*7759.16
13、2377.26880.0487587303677651464.017.61654.21705.01057.451366053301396517.58.46530.01913.16772.90175240462950472864.073.714151.283689.818071.68290037109364692570.694.23912.68875.23426.69506015818647825.89.56169.751706.25197.4510774227435932591.017.0441.3693.451.609102749933.20.48169.801337.28470.40220
14、527622526261956.276.13387.56876.33770.385243473106931205.812.81081.27157.31080.35184815619432184.22.61353.31243.51461.58232358622142373.68.0*4277.051297.64001.127258850273622511.87.03.2 描述性统计分析 描述性Descriptives过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小sample size、均值mean、最小值minimum、最大值ma*imum、标准差standard dev
15、iation、方差variance、偏度skewness及其标准误差std.error. 通过spss statistics 21软件在数据编辑窗口的主菜单中选择“分析(A)“描述统计“描述性分析(D)将左侧框中的全部变量依次选入右侧框中,点击“选项(O)按钮,在“选项对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定按钮. 分析结果如表3.2所示:表3.2描述统计数字最小值(M)最大值(*)平均值(E)标准偏差方差偏度统计统计统计统计统计统计统计标准错误国生产总值(*1)31441.3639482.5611783.99009730.40
16、22094680726.9921.496.421农业生产总值(*2)3193.406003.101947.13231472.725802168921.268.861.421工业生产总值(*3)3151.6073200.0317687.464819988.82310399553048.9701.933.421建筑业生产总值(*4)31910274.0089289353.0021924060.806521019292.330536473.6002.144.421进出口总值(*5)3199.0038241318.003927349.58068552969.31774171.2203.037.421批
17、发企业销售额(*6)3133.2022558.005091.44196270.7771239322645.6531.738.421餐饮业31.40384.4086.6484104.0594910828.3781.703.421有效 N成列(*7)31由表3.2可知分析描述统计量的输出结果可知,统计量共为11个,在所有指标中,极大值最大的经济指标是建筑业生产总值*1(89289353.00) 极小值最小的经济指标是餐饮业*7(.40) 平均人均经济指标较高的三个指标分别是进出口总值(*5) 3927349.5806建筑业生产总值(*4) 21924060.8065工业生产总值(*3) 17687
18、4648标准偏差较大的三个经济指标是进出口总值(*5) 3927349.5806建筑业生产总值(*4) 21924060.8065工业生产总值(*3) 17687.46483.3 系统聚类分析PASW/SPSS Statistics的系统聚类分析Hierarchical Cluster或称分层聚类分析,其统计结果与图形有合并进程表Agglomeration schedule、距离相似性矩阵、聚类成员cluster membership结果的畴,并可绘制垂直冰柱图Vicicle、水平冰柱图Hicicle或树状图Dendrogram等,聚类分析根据用户选择不同的聚类方法Method、不同的测度M
19、easure、是否标准化、不同连结的图形Plots,其分类的结果是不尽一样的.在本文中所采用的是Q型聚类.具体方法采用欧式距离Euclidean距离和Ward法Ward离均差平方和法.在系统聚类分析中,欧式距离平方运用的最为广泛,它的表达式如下: 其中表示第i个样品的第k个指标的观测值,表示第j个样品的第k个指标的观测值,为第i个样品与第j个样品之间的欧氏距离.如果越来越下,则第i与j两个样品之间的性质就相对更接近,性质接近的样品就可以划为一类. Ward法Ward离均差平方和法,定义类间距离等于两类中所有样本的离均差平方和,此方法在实际应用中分类效果比拟好,应用广泛,但是要求样品间的距离必须
20、是欧式距离.3.4 输出结果分析:3.3个案处理摘要a个案有效缺失总计数字百分比数字百分比数字百分比31100.0%00.0%31100.0%a. 平方欧氏距离 已使用表3.4显示的是凝聚方案,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数,第2列和第3列表示的是聚合的类.从表中可知聚类共进展了10步,第一步首先合并距离最近的5号和7号样本,形成类G1,又因为下一阶为2,所以在第2步G1又与4号样本进展复聚类,形成G2,在首次出现阶群集里显示的群集1和群集2分别是0和1,在第一次出现的类的合并就在第6步,其中群集1和群集2分别是2和4,则表示第2步和第4步合并形成的类在第6步合并;其余
21、的类似,不再详细表达.另外,系数值伴随着聚类的进展逐渐增大,开场增加的慢,后来增加的快,说明聚类开场时类与类之间的差异小,完毕时类与类之间的差异大,这正是分层聚类所表现出来的特征.3.4凝聚方案阶段组合的集群系数首次出现阶段集群下一个阶段集群 1集群 2集群 1集群 212428.00800722930.0090043714.01200842629.02402125820.06200116422.102001072124.1140112857.125031192531.156001510427.22760171158.2668515122126.3087421131723.3530014141
22、718.3541301815525.40011917161213.64600201745.80610152018317.8190141919361.18718022204121.225171621214212.060201223223162.1061902523242.8390212524193.322002925235.95223222926101110.869002727101516.2912602828101922.28027030291222.5112425303011040.02229280 下表是冰柱图,是反映各个样本的聚类情况并显示包括所有聚类和聚类围的图.可以显示个案合并到聚类
23、的过程,假设是依照设定的类数,在那类数的行上从左到右就能够找到各类所包含的样本.由图可知:最先聚类的是序号24和28 ,其余的各自为一类,这时聚集数目为30.下表是用“Ward连结法聚类法生成的树状聚类图.可以直观地显示聚类的整个过程,当要分类的观测值变量个案较多时,就会比冰状图更加的清晰,并且树状图的上方横轴方向,标示出了各个指标类别之间的相对距离的大小,根据树状图还可以方便地了解指定聚类个数的分类结果,最简单的判断方法就是:可以在此图上垂直放一把尺子,将其左右移动,图中与尺子相交的每一根横线就是一类,每根横线左端与之联系的各个变量指标就是该分类里面的成员.通过上面结果可以看出:(1)使用聚
24、类分析可以看出大致可以分为四个类型.第一类:市、市(2个) 第二类:*市、省、省、省、省、省、省、省、*省、省、市、省、省、省、省、*(19个)第三类:省、省、省、省、省(5个)第四类:省、省、省、省(4个)3.5分类结果分析与建议根据聚类分析的结果可知,以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型.市和市分别作为全国的政治、经济中心,综合经济实力较为突出,各个领域均衡开展,所以被一起划分为第一类经济类型.省和省都是经济较为兴旺的地区,都为第三类型.它们的经济实力都很强,而且交通便利,拥有良好的开展空间和机遇.第四类经济类型仅为省,这可能是因为省的国民生产总值为39482.56
25、亿元,位居全国首位.其他省、直辖市、自治区均属于第二类型.这些地区开展较为缓慢,甚至有的地区的经济相对第一、第三、第四类型的省相差很多.这也说明我国的经济开展还存在很大的不平衡性,还需要国家投入更多的力量在开展第二类省份当中.当然,在上述分析中也存在一些问题,在选择变量时没有综合考虑其他因素等对经济的影响,分析结果可能存在较大偏差.但还是存在很好的参考价值.参考文献1任雪松,于秀林.多元统计分析M.:中国统计,2021.12. 2志辉,罗平.PASW/SPSS Staistics中文版统计分析教程M.电子工业,2021.419-425.3贾俊平.统计学第二版M.:清华大学,2006. 4中华人
26、民国国家统计局编.中国统计年鉴2021M.:中国统计.5晓松.医学统计学M.:高等教育,2021.6周衍庆.SAS的聚类分析功能在经济地理分区中的应用J.枣庄师专科学校学报,2003,(5):10-157白永秀,岳利萍.城乡一体化水平判别与区域经济协调开展模式研究J.学院学报,2005,(1):76-86.8罗姗,朱国会.全国区域经济开展水平的聚类分析J.交通学院学报,2005,(4):78-81.9Podolny,J.M.,Baron,J.N.Relationships and resources:Social networks and mobility in the workplaceJ.
27、 American Sociological Review,1997,(62).10瑶,周建萌,我国人均消费和人均国生产总值关系的实证研究J企业导报,2021,16Analysis of GDP and its influencing factors in China based on clustering analysisChen Huang(School of mathematics and puter science (shaan*i institute of mathematics and applied mathematics class 1101, shaan*i hanzhong
28、 723001).Tutor: *iao-kang liabstract : With the use of SPSS software to analyze the main economic inde* of the 30 provinces, municipalities directly under the central government and autonomous regions, its economy can be divided into several different types according to the corresponding methods of
29、analysis. These provinces over our country can be classified from the economy through this way.This paper chooses the seven indicators as to decide the influenial factors of economic type. And all the data are from the national statistical yearbook in 2021. The results of analysis show that Beijing
30、and Shanghai ranks in the first kind of economic type while Jiangsu, Shandong, Guangdong and Zhejiang provinces or other most in the fourth class economy; Other 25 provinces, municipalities directly under the central government and autonomous regions basicly range from the second type to the third type change. Key words:SPSS software;Clustering analysis;Economic type;GDP. z.