第十九章聚类分析ClusteringAnalysis.ppt
《第十九章聚类分析ClusteringAnalysis.ppt》由会员分享,可在线阅读,更多相关《第十九章聚类分析ClusteringAnalysis.ppt(39页珍藏版)》请在三一文库上搜索。
1、第十九章 聚类分析 (Clustering Analysis),Content,Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis,判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计
2、分析方法。,聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行: (1)R型聚类: 又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。 (2)Q型聚类: 又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。,无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数(similarity coefficient)的定义。,第一节 相似系数 1R型(指标)聚类的相似系数 X1,X2,Xm表示m个变量,R型聚类常用简单
3、相关系数的绝对值定义变量与间的相似系数: 绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。,2Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离: 欧氏距离(Euclidean distance) (2)绝对距离:绝对距离(Manhattan distance) (3)Minkowski距离: 绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Mi
4、nkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。,(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobis distance)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。,第二节 系统聚类 系统聚类(hierarchical clustering analysis)是将相似的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相
5、似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。,一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。,当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。 1最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其
6、中最大者定义为与的类间相似系数。 注意距离最小即相似系数最大。 2最小相似系数法 类间相似系数计算公式为 3重心法(仅用于样品聚类) 用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,4类平均法(仅用于样品聚类) 对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数 类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。,5离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和
7、定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。,例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵: 试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。,聚类过程如下: (1)各个指标独自成一类G1=X1,G2=X2,G3=X3,G4=X4,共4类。 (2)将相似系数最大的两类合并成新类,由于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十九 聚类分析 ClusteringAnalysis
链接地址:https://www.31doc.com/p-2584482.html