数据分析课程设计论文.docx
《数据分析课程设计论文.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计论文.docx(20页珍藏版)》请在三一文库上搜索。
1、基于K-均值的Iris数据聚类分析姓名谢稳学号1411010122班级信科14-1成绩基于K-均值的Iris数据聚类分析姓名:谢稳信息与计算科学14-1班摘要数据挖掘在当今大数据新起的时代是一项必须掌握的技能,聚类分析是数据挖掘技术中一项重要的研究课题,在很多领域都有具有广泛的应用,如模式识别、数据分析等。聚类分析的目的是将数据对象分成若干个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象之间相似度较低5通过聚类分析,人们能够识别出数据分布密集和稀疏的区域,发现全局的分布模式以及数据属性之间一些意想不到的相互关系。本文对R.A.Fisher在1936年发表的Iris数据进行
2、数据挖掘,使用聚类分析中的K-Means对该问题进行进一步分析研究。实验证明两种方法都是适合的解决此类问题的。关键词Iris数据;聚类分析;K-均值聚类.0前言本文对聚类分析的原理进行阐述,并聚类分析中的谱系聚类法和K-means对R.A.Fisher的Iris数据进行了数据分析,得到了几乎相同的结论,数据量太少,回带误差大约是20%。1数据分析预处理1.1数据来源分析的数据来自R.A.Fisher在1936年发表的Iris数据(见附录B表B.1),据表可知前50个数据为牵牛一类,再50个数据为杂色一类,后50个数据为锦葵一类。将数据样本X变量放入matlab变量名X,保存为matlab的hu
3、aban.mat文件。1.2数据分析采用谱系聚类分析方法和K-means聚类法解决例如Iris类的分类等问题。2聚类分析2.1聚类的概述聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法;聚类分析把分类对象按一定规则分成若干类,这些类非事先指定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似;职能是建立一种能按照样品或变量的相似程度进行分类的方法。聚类准则为“亲者相聚,疏者相分”。2.2.1 2.2分类R型聚类分析R型聚类分析是对变量(指标)的分类,其主要作用:不但可以了解个别变量之间的亲疏程度,而且
4、可以了解各个变量组合之间的亲疏程度。2.2.2 Q型聚类分析Q型聚类分析是对样品的分类,其主要作用:可以综合利用多个变量的信息对样本进行分析;分类结果直观,聚类谱系图清楚地表现数值分类结果;所得结果比传统分类方法更细致、全面、合理。其常用的统计量是距离。常用的聚类方法为谱系聚类法等。2.3谱系聚类法2.3.1概念谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后
5、把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。2.3.2选择距离(参考文献1p209页)在使用系统聚类法进行聚类的过程中,尤其是Q型聚类是建立在样品之间距离矩阵的基础上的,通常需要对原始数据进行参考点的建立和去量纲化的处理,然后求出样品距离矩阵D,我们采用比较广泛的闵可夫斯基(Minkowski)距离:mP1dj(|xik-xjk|)Qdijmp1(|Xik-xjk|)2k1更新涉及类间距离的计算,需要事先计算类与方法,我们可以把系统聚
6、类法分为最短距离法、k1当p=2时即为欧几里得CEuclidean)距离。然后进行类的搜索、合并于距离矩阵的类之间的距离。依据类问距离不同的计算最长距离法、重心法、离差平方和法(ward)等。设Gp,Gq为前一轮操作中形成的某两个聚类,在本轮操作中归聚为新类Gr=GpGq则新类Gr与前一轮操作中形成吨,Gq之外的任意一类G,的距离递推公式如下:最短距离法drlmin(dp*dql),其中lp,q.最长距离法drlmin(dpl,dql),其中lp,q.中间距离法2121221drl-dpl+dlqdpq,-0.中心距离法2nP.2nq2npnq2drldpl+dlqdpq,nrnrnrnr其中
7、np和n分别为Gp和G包含的聚类对象个数,n=np+nqWard法2nl+npj2.nl+n,2nlJ2drldpldlqdpq,nr+nlnr+nlnr+nl注意,Ward法要求初始距离矩阵采用欧式距离公式计算各个对象的距离。2.4得到闵可夫斯基(Minkowski)距离谱系聚类法函数(见附录A.1)(1) pdist创建聚类对象的Minkowski距离矩阵。(2) squarform拉直矩阵D。(3) linkage用D或其拉直矩阵创建信息矩阵G,默认的类间距离为最短距离法。(4) dendrogram创建G的谱系聚类图。(5) cluster创建G的指定个数类。2.5画谱系聚类图(见图
8、2.1)08-1rrrnnH229273105f12262161625302915ZD4111724iti1232图2.1Iris花瓣数据谱系聚类图2.6得出分类由图2.1得出Iris花瓣数据截断处可选择d=1,d=0.8,d=0.666对应的分类个数为2,3,5类。2.7cluster创建G的指定个数类。(matlab程序见A.3)分3类图(见图2.2)4.51111紫-第类*-*米*米暮斋*-*第一类-*来*米米*米*-*果*-*米*来*-*#翔H类*-*来*.JkJIhkII43.52.54,555.566,5图2.2谱系聚类分析分为三类图2.8结论3类不太恰当,应该两类K-means我
9、们将更改距离。3.1 由图2.2将数据谱系聚类分析分为三类图可知,将数据分为或者5类更合适,不过也有可能是我们选择的距离有问题。下面3k-均值聚类K-Means算法思想1967年Macqueen提出了K-means算法4,基本思想是把数据集中的数据点随机生成k组,把每组的均值作为中心点。重新计算每个数据点与各组的中心点的相似性,根据数据点相似性的度量准则,把每个数据点重新分组,计算每组新的均值作为中心点。不断重复上述过程,直到中心点的均值收敛,停止迭代过程。K-means算法是一种比较快速的聚类方法,时间复杂度为O(nkt),其中n是数据点的数目,k是分组数目,t是迭代次数。K-means算法
10、也存在不足,最大问题要指定分组数目并且在运行过程中容易导致局部最优。3.1.1 K-均值算法K-均值算法是一种已知聚类个数的“无监督学习”算法。首先指定表示聚类个数的K值,然后对数据集聚类,算法结束时用K个聚类中心表示聚类结果。对于设定的目标准则函数,通过向目标准则函数值减小的方向进行迭代更新,目标准则函数值达到极小值时算法结束,得到较优的聚类结果。设数据集为Xxi|XiRdK个距离中心为V1,V2,.,Vk。令Cj(j1,2,.,k)表示K个聚类的类别,则:Vi|C|xCi定义目标准则函数为:kCiISSE=dxj,Vi(2)i1j1其中|CiI表示Ci类包含样本的个数,使用欧式距离dx,X
11、jJ(XjXj)(xXj)T(3)度量样本间的相似性。欧式距离适用于类内数据对象符合超球形分布的情况,目标准则函数SSE表示为每个数据对象到相应聚类中心距离的平方和,即聚类均方误差的最小值。3.1.2 K-均值算法的流程如下:(1) 随机选取K个初始聚类中心V1,V2,.,Vk;(2) 按照最小距离原则,对数据集聚类,确定每个样本的类属关系;(3) 使用公式(1)更新K个簇的中心;(4) 重复执行(2)到(4),直到目标准则函数收敛或聚类中心稳定。显然,初始聚类中心对K-均值算法产生很大的影响,簇集中易存在平均误差较大的簇,聚类结果仅能收敛到局部最优。即使选取不同的初始聚类中心执行多次K-均值
12、算法,也只是在庞大的初值空间里进行简单的搜索,聚类结果很难达到全局最优。当数据集中存在较多噪音或孤立点时,已有的初始聚类中心优化方法很难发现合适的初始聚类中心。3.2复合相关系数的计算(计算过程见附录A.4)分别记最短、最长、类平均、重心、离差平方和距离为G1、G2、G3、G4、G5,相对应的复合相关系数分别记为R1、R2、R3、R4、R5,以欧式距离为样本间距离计算得到表3-1表3-1复合相关系数R1R2R3R4R50.86390.72760.87680.87700.8728由表2可知以重心距离进行聚类分析效果应该最为理想3.3聚类结果(见图3.1)以重心距离为类间距离进行谱系聚类分析得到(
13、matlab程序参考附录A.1-4)102570150923321206154S1S1113141/3021712a26IDIS24192922252/2B图3.1谱系聚类图4.555.566.577.583.4谱系聚类结果(见图3.2)4r米米1第二类*吐1.*11#1择3.5米#来来*来豢拳星w*-*来来米*来第噗-32.5-亲*L*M*-*米*M米*来*糊J片类*事*米*Jill米米*.*图3.2谱系聚类结果3.4K-Means聚类结果(见图3.3)4.511111r1*京4-笫二类*来*米察率*米3.5*#*第一类-米米:*米*聚建*米*事来*拳米米*3米米*米*来米*米*案事章*:湛
14、米*寄*亲*2.5-*第王美*聚2Ljj11iJ44.555.566.577.5&图3.3K-Means聚类结果3.5分析结果由图3.2结果可得第1类有36个样本,第2类有64个样本,第3类有50个样本,由图3.3可知第1类有62个样本,第2类有49个样本,第3类有39个样本两种方法基本得到的结论基本一致,不过都不太理想。这可能是数据量太小了的原因。大数据时代,需耍大量的数据。1 参考文献包研科.数据分析教程.北京:清华大学出版社,2011曾繁慧.数值分析.徐州:中国矿业大学出版社,2009袁方,周志勇,宋鑫.初始聚类中心优化的K-means算发J.计算机工程,2007,33(3):65-66
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课程设计 论文
