基于聚类分析的我国各地GDP及影响因素分析.doc
《基于聚类分析的我国各地GDP及影响因素分析.doc》由会员分享,可在线阅读,更多相关《基于聚类分析的我国各地GDP及影响因素分析.doc(11页珍藏版)》请在三一文库上搜索。
1、题 目基于聚类分析的我国各地GDP及影响因素分析 学生煌*1109014042所在学院数学与计算机科学学院专业班级数学与应用数学专业2021级数应1班指导教师 晓 康基于聚类分析的我国各地GDP及影响因素分析煌理工学院数学与计算机科学学院数学与应用数学1101班, 723001指导教师:晓康摘要:利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进展聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进展经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2021年国家统计年鉴.分析结果说明:市和市稳居第一类经济类型;省和、省、
2、省和多数处于第四类经济;其他25个省、直辖市、自治区根本在第二类型与第三类型变化.关键词:SPSS软件;聚类分析;经济类型;GDP1. 引言 在当今欧美主导的经济开展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好表达,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比拟.众所周知2021年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2021年在金融危机
3、的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济开展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的开展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了,所以我选择了对中国各地的GDP进展研究.为了我国能够均衡开展.2.预备知识2.1聚类分析的概述聚类分析是研究样品或变量分析问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合.严格的数学定义是较麻烦的,在不同问题中类的定义是不同的.为了将样品或变量进展分类,就需要研究样品之间的关系.目
4、前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离越远的点归为不同的类.聚类通过把目标数据放入少数相对同源的组或“类cluster里.分析表达数据,1通过一系列的检测将待测的一组基因的变异标准化,然后成比照拟线性协方差.2通过把用最严密关联的谱来放基因进展样本聚类,例如用简单的层级聚类hierarchical clustering方法.这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进展聚类.3多维等级分析multidimensional scaling analysis,MDS是一种
5、在二维Euclidean “距离中显示实验样本相关的大约程度.4K-means方法聚类,通过重复再分配类成员来使“类分散度最小化的方法. 聚类方法有两个显著的局限:首先,要聚类结果要明确就需别离度很好well-separated的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是,如果类是扩散且互相渗透,则每种算法的的结果将有点不同.结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据局部将产生单一的信息.为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式.对遗传学家来说,正确解释来自任一算法的聚类容的实际结果是困难的特别是边界.最终,将
6、需要经历可信度通过序列比拟来指导聚类解释. 第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比拟,大大减少发现表达类型关系的计算量,但无视了生物系统多因素和非线性的特点. 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、参加法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被参加到许多著名的统计分析软件包中,如SPSS、SAS等. 从机器学习的角度讲,簇相当于隐藏模式.聚类是搜索簇的无监视学习过程.与分类不同,无监视学习不依赖预先定义的类或带类
7、标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记.聚类是观察式学习,而不是例如式的学习. 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析. 聚类分析还可以作为其他数据挖掘任务如分类、关联规则的预处理步骤.一般的,聚类分析有二阶聚类分析TwoStep Cluster Analysis、逐步聚类分析K-Means Cluster和系统聚类分析;聚类分析Cluster Analysis又称集群分析,它是按“物以类聚的原则研究事物分类的一
8、种多元统计分析方法,根据样品的多指标变量、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图Dendrogram或冰柱图Icicle.聚类分析的优点是简单直观,大局部用于探讨研究,可以提供多种分析的结果,并且可以让研究人员根据自己的研究方向进展判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分方便!3.我国各地GDP及影响因素分析3.1问题提出与分析随着改革开放的进展,我国进入了一个前所未有的经济飞速开展时期,整体经济实力与日
9、俱增.但是,我们也应该看到各个地区的开展不平衡,沿海地区开展较快,经济增长也较快,而中西部开展相对较慢.因此,基于这种现状,本文对全国各地区的经济进展聚类分析.我选取了各省的国生产总值*1、农业生产总值*2、工业生产总值*3、建筑业生产总值*4、进出口总值*5、批发企业销售额*6和餐饮业*7这7个指标进展聚类分析.根据2021年国家统计年鉴,选取了2021年30个省、直辖市、自治区的7项经济指标,如下表.2021年我国30个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区国生产总值(*1)农业生产总值(*2)工业生产总值(*3)建筑业生产总值(*4)进出口总值(*5)批发企业销售额(*6
10、)餐饮业(*7)12153.03315.011039.1334297216533414822558.0341.7*7521.85281.713083.631564191744880518599.562.617235.483640.924062.762332805513435582730.626.57358.31908.79249.98165014631631502705.044.99740.251570.610699.4491292641086941487.641.115212.492704.628152.732855778530768826428.793.37278.751734.31002
11、6.55102412355557471049.418.28587.002251.17301.6012351015783452028.327.415046.45283.224091.26324765451867021520210.8292.634457.303816.073200.03892893532596971215364.8205.222990.351873.441035.2988614109692914813888.0166.510062.822569.513312.59195980715231402937.041.212236.532001.216762.821941583843774
12、554617.180.57655.181733.89783.96118532947706071002.824.733896.656003.171209.424051631775598357584.4262.619480.464871.527708.15322021973766123083.098.712961.102985.215567.02304684097037724259.081.413059.693207.913507.64232347341821771643.965.339482.563337.668275.77298060433824131818599.1384.4*7759.16
13、2377.26880.0487587303677651464.017.61654.21705.01057.451366053301396517.58.46530.01913.16772.90175240462950472864.073.714151.283689.818071.68290037109364692570.694.23912.68875.23426.69506015818647825.89.56169.751706.25197.4510774227435932591.017.0441.3693.451.609102749933.20.48169.801337.28470.40220
14、527622526261956.276.13387.56876.33770.385243473106931205.812.81081.27157.31080.35184815619432184.22.61353.31243.51461.58232358622142373.68.0*4277.051297.64001.127258850273622511.87.03.2 描述性统计分析 描述性Descriptives过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小sample size、均值mean、最小值minimum、最大值ma*imum、标准差standard dev
15、iation、方差variance、偏度skewness及其标准误差std.error. 通过spss statistics 21软件在数据编辑窗口的主菜单中选择“分析(A)“描述统计“描述性分析(D)将左侧框中的全部变量依次选入右侧框中,点击“选项(O)按钮,在“选项对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定按钮. 分析结果如表3.2所示:表3.2描述统计数字最小值(M)最大值(*)平均值(E)标准偏差方差偏度统计统计统计统计统计统计统计标准错误国生产总值(*1)31441.3639482.5611783.99009730.40
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 聚类分析 我国 各地 GDP 影响 因素 分析
