第12章聚类分析.ppt

上传人：本田雅阁

文档编号：3124804

上传时间：2019-07-13

格式：PPT

页数：64

大小：401.53KB

《第12章聚类分析.ppt》由会员分享，可在线阅读，更多相关《第12章聚类分析.ppt（64页珍藏版）》请在三一文库上搜索。

1、作者贾俊平,统计学 (第三版),2008,2008年8月,现实是复杂的，是绝对不可能由一个有组织的科学模型完全描述出来的。 Thomas Kuhn,统计名言,第 12 章聚类分析,12.1 聚类分析的基本原理 12.2 层次聚类 12.3 K-均值聚类,2008年8月,学习目标,聚类分析的基本思想和原理层次聚类和K-均值聚类的基本过程解释聚类的结果层次聚类和K-均值聚类的差异及应用条件聚类分析的注意事项用SPSS进行聚类分析,2008年8月,怎样把消费者分类？,南京雅兴市场研究有限公司在A城市的14个城区抽取3000个15岁以上具有独立购买能力的消费者样本，研究消费者的

2、生活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述，请消费者根据自己的情况做出评价。评价结果采用7分评价法，1分表示“非常同意”，7分表示“非常不同意” 对调查结果先通过因子分析将一系列的测试语句进行综合，根据消费者的回答情况，将这些语句分为几大类，最后得到5个主要因子，它们的含义分别是：对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分，然后根据这些评价进行聚类分析根据每一类消费者的因子的特征，最终将消费者的生活方式分为6个类别，即：时尚型、自保型、领袖型、上进型、迷茫型(缺乏生活目标

3、型)和平庸型,2008年8月,怎样把消费者分类？,时尚型：这类消费者约占样本量的约21%，主要特征为：年龄相对较轻，平均年龄在35岁左右，教育程度相对较高，一般具有高中以上文化程度，虽然平均家庭月收入较好，平均在2200元左右，同时也是分散程度最高的，表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大，未婚的比例较大，约占1/4，女性的比例为55%，高于男性自保型：这类消费者占16%，他们更多的是为自己的生计考虑，考虑自己能否有稳定的经济来源，维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低，中年人的比例较高，平均年龄在44岁左右，家庭月收入较低，平均在16

4、00元左右，国营企业员工以及离退休人员的比例较高。女性的比例高于男性领袖型：这类消费者占13%。教育程度处于社会平均水平，主要为中年人，有较多的生活阅历，年龄多在45-54岁之间。家庭月平均收入一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的，这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占55%，高于女性,2008年8月,怎样把消费者分类？,上进型：占消费者总人数的不到13%。他们对生活的态度积极，多为未婚青年，平均年龄在28岁左右，25岁以下的占40%，单身未婚的比例占1/2以上。职业上的显著特征是：1/3为学生，三资企业员工的比例达1/10。男性的比例高

5、于女性。这类消费者是受教育程度最高的，他们的平均家庭收入却是最高的，月平均收入在2300元左右迷茫(缺乏生活目标)型：约占15%，他们既不注重经济保障，也不参加培训，生活节奏较缓慢。这类消费者主要为退休人员，约占该类型人员的2/3，剩下的主要为国营企业员工。平均年龄在50岁以上，他们的教育程度是最低的，家庭收入也是最低的，平均不到1600元。在性别分布上，女性的比例远远高于男性，占62% 平庸型：这类消费者约占23%，最大的特点是生活没有计划，日常生活没有规律，而其他指标则均处于中间状态。这类消费者在年龄上比较分散，从15岁到54岁之间的各年龄段均有相当比例，平均教育程度一般，家庭月平均收入

6、在1900元左右。在职业上没有显著特征，但待岗人员的比例稍高于其他各类型。在性别上，男性稍高于女性,2008年8月,在现实生活中，分类问题是十分常见的根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家按照消费者的特征对消费者分类，按照产品特征对产品分类这些分类中，有的事先并不知道存在什么类别，完全按照反映对象特征的数据把对象进行分类，这在统计上称为聚类分析；有的则是在事先有了某种分类标准之后，判定一个新的研究对象应该归属到哪一类别，这在统计上则称为判别分析(discriminant analysis) 本章主要介绍聚类分析方法,聚类分析 (cluster analysis)

7、,12.1 聚类分析的基本原理 12.1.1 什么是聚类分析? 12.1.2 相似性的度量,第 12 章聚类分析,12.1.1 什么是聚类分析？,12.1 聚类分析的思想和原理,2008年8月,把“对象”分成不同的类别这些类不是事先给定的，而是直接根据数据的特征确定的把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大聚类分析就是按照对象之间的“相似”程度把对象进行分类,什么是聚类分析？ (cluster analysis),2008年8月,聚类分析的“对象”可以是所观察的多个样本，也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为

8、Q型聚类按照多项经济指标(变量)对不同的地区(样本)进行分类按照样本对多个变量进行分类，则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类两种聚类没有什么本质区别，实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类),什么是聚类分析？ (两种分类方式),2008年8月,按对象的“相似”程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具，也称为相似系数变量间的相似系数越大，说明它们越相近根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类，而离得比较远的放在不同的类,什么是聚类分析？ (按什么分类),1

9、2.1.2 相似性的度量,12.1 聚类分析的思想和原理,2008年8月,聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性在第13章例13.1中，31个地区的人均GDP数据就是直线上的31个点，每一个点对应一个地区如果按照人均GDP对它们进行分类，就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入，那么人均GDP和财政收入就是二维平面上的一个点，31个地区就是平面中的31个点多个变量就是高维空间中的一个点，31个地区就是高维空间中的31个点各个点之间距离的远近就是分类的依据,相似性的度量,2008年8月,在对样本进行分类时，度量样本之间的相似性使用点间距离点间距

10、离的计算方法主要有欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离,相似性的度量 (样本点间距离的计算方法),2008年8月,相似性的度量 (样本点间距离的计算方法),2008年8月,在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有,相似性的度量 (变量相似系数的计算方法),12.2 层次聚类 12.2.1 层次聚类的两种方

11、式 12.2.2 类间距离的计算方法 12.2.3 层次聚类的应用,第 12 章聚类分析,12.2.1 层次聚类的两种方式,12.2 层次聚类,2008年8月,层次聚类又称系统聚类事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类根据运算的方向不同，层次聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反,层次聚类 (hierarchical cluster),2008年8月,将每一个样本作为一类，如果是k个样本就分k成类按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了k-1个类别再计算出新产生的类别与其他各类别之间的距

12、离，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于1，则继续重复这一步，直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并合并越晚的类，距离越远事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，再视具体情况选择一个合适的分类结果,层次聚类 (合并法),2008年8月,分解方法原理与合并法相反先把所有的对象(样本或变量)作为一大类，然后度量对象之间的距离或相似程度，并将距离或相似程度最远的对象分离出去，形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度，并将最远的分离出去，不断重复这一过程，直到所有的对象都自成一类为止 S

13、PSS中只提供了合并法,层次聚类 (分解法),12.2.2 类间距离的计算方法,12.2 层次聚类,2008年8月,在层次聚类法中，当类别多于1个时，就涉及到如何定义两个类别之间的距离问题计算类间距离(与上面介绍的点间距离不同)的方法有很多，不同方法会得到不同的聚类结果实际中较常用的是离差平方和法(Wards method)，又称Ward法,类间距离的计算方法,2008年8月,类间距离的计算方法,2008年8月,Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法)用两个类别中各个数据

14、点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离 Wards method(离差平方和法)使各类别中的离差平方和较小，而不同类别之间的离差平方和较大,类间距离的计算方法,12.2.3 层次聚类的应用,12.2 层次聚类,2008年8月,【例】根据我国31个省市自治区2006年的6项主要经济指标数据，采用层次聚类法进行分类，并对结果进行分析,层次聚类的应

15、用 (实例分析),31个地区的6项经济指标,2008年8月,用SPSS进行层次聚类,第1步选择【Analyze】下拉菜单，并选择【Classify- Hierarchical Cluster】，进入主对话框第2步将用于聚类的所有变量选入【Variable(s)】；把区分样本的标签 (本例为“地区”)选入【Label Cases by】；若对样本进行聚类，在【Cluster】下选择【Cases】(本例选择对样本聚类)，若对变量进行聚类，在【Cluster】下选择【Variables】第3步点入【Statistics】选中【Agglomeration schedule】，点击【

16、Continue】回到主对话框第4步点入【Plots】选中【Dendrogram】，点击【Continue】回到主对话框,2008年8月,用SPSS进行层次聚类,第5步点入【Method】，在【Cluster Method】中选择类间距离的定义方法(本例选择Wards method)；在【Measure】下选择点间距离的定义方法(本例使用Squared Euclidean distance)；在【Transform Values】的【Standardize】框中选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第6步点入【S

17、ave】，在【Cluster Membership】下选择在原始数据中保留分类结果，其中【Single solution】表示指定要分成类时各样本所属的类，【Range of solution】表示指定要分成最少类、最多类时各样本所属的类(SPSS会将分类的结果以变量形式保存到原数据窗口中)，点击【Continue】【OK】,用SPSS进行层次聚类,2008年8月,SPSS的输出结果 (实例分析),层次聚类过程的步骤号,2008年8月,SPSS的输出结果 (实例分析),层次聚类过程的步骤号,第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区) 首

18、先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中，对于包含多个样本的新类别，实际上是用类中的一个样本来代表该类别，比如，第2步被合并的是21和地区29(青海)，这里的“21”实际上是指在第1步中被合并的类别，只是用“21”表示21(海南)所在的类别,2008年8月,SPSS的输出结果 (实例分析),层次聚类过程的步骤号,第4列给出每一步被合并的两个类之间的聚类系数(即距离)。距离按从小到大排列，越早合并的类距离越近。0.013是地区21(海南)和地区30(宁夏)之间的距离，而0.040是先被合并的第一小类与地区29(

19、青海)之间的距离第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类，0表示本步聚类的是原始的样本，第一次出现在聚类过程中，其他数字则表示第几步聚类生成的小类参与了本步聚类。第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如，在第2步中，参与聚类的是第1步形成的小类(21号样本所在的类)和地区29(青海)，第5列的“1”表示21号类是在第1步中形成的小类，而“0”表示地区29(青海)是第一次出现在本步聚类中的原始样本，第7列中的“10”表示这一类将在第10步中与其他类别合并，其余类推,2008年8月,Cluster Membership,分成2类到5

20、类时各地区所属的类别,2008年8月,层次聚类的树状图,分成两类,分成四类,最大距离作为相对距离25 ，其余的距离都换算成与之相比的相对距离大小,cut,2008年8月,层次聚类的应用 (分类汇总),2008年8月,使用SPSS中的Means过程 (计算分类统计量),注意使用Means过程时可直接在聚类分析的数据中进行，数据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果，然后按下列步骤操作第一步选择【Analyze】下拉菜单，并选择【Compare Means-Means】主对话框第二步将用于描述的所有变量选入【De

21、pendentlist】，把地区所属的类别号变量选入【Independent list】第三步点击【Options】并选择所需要的统计量，点击【Continue】主对话框【OK】,使用SPSS的Means过程,2008年8月,层次聚类的应用 (类别检验),各类别所属地区的描述统计量,2008年8月,层次聚类的应用 (类别检验),不同类别6项经济指标的方差分析表,方差分析,12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程 12.3.2 K-均值聚类的应用 12.3.3 使用聚类方法的注意事项,第 12 章聚类分析,2008年8月,层次聚类事先不需要确定要分多少类，聚类过

22、程一层层进行，最后得出所有可能的类别结果，研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图，方便使用者直观选择类别，但其缺点是计算量较大，对大批量数据的聚类效率不高 K-均值聚类事先需要确定要分的类别数据，计算量要小得多，效率比层次聚类要高，也被称为快速聚类(quick cluster),K-均值聚类 (K-means cluster),12.3.1 K-均值聚类的基本过程,12.3 K-均值聚类,2008年8月,第1步：确定要分的类别数目K 需要研究者自己确定在实际应用中，往往需要研究者根据实际问题反复尝试，得到不同的分类并进行比较，得出最后要分的类别数量第2步：确定K

23、个类别的初始聚类中心要求在用于聚类的全部样本中，选择K个样本作为K个类别的初始聚类中心与确定类别数目一样，原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑使用SPSS进行聚类时，也可以由系统自动指定初始聚类中心,K-均值聚类 (步骤),2008年8月,第3步：根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的距离欧氏距离，并根据距离最近的原则将所有的样本分到事先确定的K个类别中第4步：根据所分成的K个类别，计算出各类别中每个变量的均值，并以均值点作为新的K个类别中心。根据新的中心位置，重新计算每个样本到新中心的距离，并重新进行分类,K-均值聚类 (步骤),2008年

24、8月,第5步：重复第4步，直到满足终止聚类条件为止迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次) 新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性，究竟分多少类合适，需要研究者对研究问题的了解程度、相关知识和经验,K-均值聚类 (步骤),12.3.2 K-均值聚类的应用,12.3 K-均值聚类,2008年8月,【例】根据我国31个省市自治区2006年的6项主要经济指标数据，采用层次聚类法进行分类，并对结果进

25、行分析,K-均值聚类的应用 (实例分析),31个地区的6项经济指标,2008年8月, 数据检查若原始变量取值差异较大，应先将原始数据进行标准化，避免变量值差异过大对分类结果的影响可以先观察6项经济指标的有关描述统计量,K-均值聚类的应用 (实例分析),2008年8月, 数据标准化(SPSS) 【Analyze】【Descriptive Statistics】【Descriptives】主对话框将需要标准化的变量选入【Variable(s)】【Save standardized values as variables】【OK】,K-均值聚类的应用 (实例分析),31个地区的6项经济指

26、标的标准化,2008年8月,K-均值聚类的应用 (实例分析),分成4类的初始聚类中心, 该表列出每一类别的初始聚类中心，本例的这些中心是由SPSS自动生成的，它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如，第一类的聚类中心是3.17960，这实际上就是上海的人均GDP标准化后的值。第二类聚类中心是1.83293则是天津的标准化人均GDP，等等,2008年8月,K-均值聚类的应用 (实例分析),分成4类的迭代过程, 该表从表中可以看出每次迭代过程中类别中心的变化，随着迭代次数的增加，类别中心点的变化越来越小。本例只4次就已经收敛了,2008年8月,K-均值聚

27、类的应用 (实例分析),分成4类的最终聚类中心, 表中的数据表示各个类别在各变量上的平均值。如，第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值,2008年8月,K-均值聚类的应用 (实例分析),分类后各个变量在类别之间的方差分析表, 利用方差分析表可以判断所分的类别是否合理。从表中可以看出，分类后各变量在不同类别之间的差异都是显著的(P值均接近0),2008年8月,K-均值聚类的应用 (实例分析),分成4类时每一类的地区数量, 由该表可以看出，第一类包括2个地区，第二类包括11个地区，第三类包括4个地区，第四类包括14个地区,2008年8月,K-均值聚类的

28、应用 (实例分析),分成4类时每个地区所属的类别,2008年8月,K-均值聚类的应用 (分类汇总),12.3.3 使用聚类方法的注意事项,12.3 K-均值聚类,2008年8月,除分层聚类法和K-均值聚类法外，1996年还提出一种新的聚类方法，即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序) 无论那种分类方法，最终要分成多少类别，并不是完全由方法本身来决定，研究者应结合具体问题而定聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同而已使用聚类方法时，首先要明确分类的目的，再考虑

29、选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。至于分类结果是否合理，该如何解释，更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验,聚类分析的注意事项,2008年8月,从数据要求上看参与分类的变量首先应符合要求各变量的取值不应有数量级上的过大差异，否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理，而K-均值聚类法则需要单独做标准化处理，尔后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析，在测度距离时，就加大了它们的贡献，而其他变量则相对被削弱,聚类分析的注意事项,2

30、008年8月,从聚类方法的选择上首先看数据的类型，如果参与分类的变量是连续变量，层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量)，则需要将先对离散变量进行连续化处理，否则应该使用两步聚类法。当数据量较少时(比如小于100)，三种方法都可以选用，当数据量较多时(比如大于1000)，则应该考虑选用K-均值聚类法或两步聚类法要看分类的对象。如果是对样本分类，三种方法都可用；如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样),聚类分析的注意事项,2008年8月,注意对分类结果的检验分类结果是否合理取决于它是否“有用”，但分类结果是否可靠和稳定，则需要反复聚类和比较一般来说，在所分的类别中，各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些,聚类分析的注意事项,2008年8月,本章小节,聚类分析的基本思想和原理层次聚类和K-均值聚类的基本过程解释聚类的结果层次聚类和K-均值聚类的差异及应用条件聚类分析的注意事项用SPSS进行聚类分析,结束,THANKS,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 12 聚类分析

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第12章聚类分析.ppt
链接地址：https://www.31doc.com/p-3124804.html