聚类分析.ppt
《聚类分析.ppt》由会员分享,可在线阅读,更多相关《聚类分析.ppt(40页珍藏版)》请在三一文库上搜索。
1、第18章 聚类分析,中国疾病预防控制中心,学习目标,了解聚类分析的基本思想; 了解聚类分析的一些常见统计量; 掌握聚类分析的基本方法; 通过实例练习掌握聚类分析的SAS过程步。,概述,聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;,概述,这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。
2、这一章主要讨论聚类分析。,聚类分析的基本思想,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。,聚类分析的基本思想,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此得知,聚类分析的任务有两个,第一就是寻找
3、合理的度量事物相似性的统计量;第二是寻找合理的分类方法。,聚类分析的基本思想,在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。,聚类分析的基本思想,R型聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且
4、可以了解各个指标组合之间的亲疏程度;根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。 Q型聚类分析的作用是:可以综合利用多个变量的信息对样本进行分类;分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。,聚类分析的基本思想,例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。,聚类分析的统计量,无论是R型聚类或是Q
5、型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。 聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。,距离,明氏距离 马氏距离 兰氏距离 类间距离,类间距离,最短距离法 最长距离法 重心距离法 平均距离法 中间距离法 Ward离均差平方和法,相关系数,相关系数是最容易理解的一种统计量,它就是统计中经常用的
6、两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。 是第s个指标变量, 是第t个指标变量,,相关系数,两个指标变量和之间的相关系数是: 这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。,类间相似系数,夹角余弦 相关系数,聚类分析的方法,聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。,聚类指标,一般用系统聚类法来聚类指标,它的基本思想是先把k个指标看成
7、一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。,聚类指标,系统聚类法对k个指标进行聚类的具体步骤如下: 确定每一类的类内指标总变异被类成分所解释的最低比例P; 把所有指标看成一类,计算类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行;,聚类指标,将这个类分解成两个类,分类原则是使得每一类内的指标总变异尽可能地被
8、该类的类成分所解释且类间相关系数达到最小,计算每一类的类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行; 最解释比例最小的一类在继续进行分解; 重复以上步骤,直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。,系统聚类法聚类样本,用系统聚类法聚类样本 用系统聚类法聚类样本的基本思想是先把n个聚类样本看成n类,然后按类间距离将相似程度最大的两个类合并为一类,再将所有的类(包括合并形成的新类)中相似程度最大的两个类合并为一类。重复此过程,直到所有的类间距离达到一定的要求为止,或直至所有的样本被合并为一类为止,然后根据类间距离的要求以及实际意义选
9、择一个适当的分类。,系统聚类法聚类样本,用系统聚类法对样本进行聚类的具体方法步骤如下: 把n个样本看成n类,类的个数g=n; 计算两两类间距离,并将类间距离最小的两个合并为一类,则g=n-1; 继续计算两两类间距离,并将类间距离最小的两个合并为一类,则g=n-2; 重复上述步骤,直到类间距离达到一定的要求为止,或所有的样本被合并为一类为止; 根据类间距离的要求以及实际意义选择一个适当的分类。,逐步聚类法聚类样本,用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点,这些凝聚点可以是所有样本中的任意几个样本,也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近的凝聚
10、点所代表的初始类中,再以这些初始类的“重心”(类内各样本观察值的平均值)作为新的凝聚点重新将样本归类。重复以上步骤,直到分成的类再没有什么变化为止。,逐步聚类法聚类样本,用逐步聚类法对样本进行聚类的具体方法步骤如下: 确定初始凝聚点; 计算样本与每一个初始凝聚点的距离,并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中; 计算上述初始类的新凝聚点,等于类内各样本观察值的平均值; 计算样本与上述新凝聚点的距离,并将每一个样本归入到与该样本最近的新凝聚点所代表的类中; 重复上述步骤,直到新分成的类再没有什么变化为止。,VARCLUS过程,SAS系统中利用VARCLUS过程步进行指标聚类。 V
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析
链接地址:https://www.31doc.com/p-2587651.html