聚类分析-07ppt课件.ppt
《聚类分析-07ppt课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析-07ppt课件.ppt(67页珍藏版)》请在三一文库上搜索。
1、1,第十九章 聚类分析 (Cluster Analysis),古语: “物以类聚”,找出特征相似的类别,研究其规律性。,第二军医大学卫生统计学教研室 孟 虹,2,本章的内容,第一节 相似系数* 第二节 系统聚类* 第三节 动态样品聚类* 第四节 有序样品聚类 第五节 应用注意事项* 重点:掌握聚类分析用途、概念、方法的区别、注意问题。,3,概 述,聚类分析是将未知现象进行归类的多元统计方法 。 主要用途: 对研究的事物分类或做探索性的研究。 目的: 通过分类,找出同类的共性和不同类的差异,为决策提供参考.,4,聚类分析,聚类对象的类型: R型聚类:对n个指标(变量或variable )归类(i
2、ndex-cluster-analysis)。 Q型聚类:对n个观察对象(样品或case)归类(samples-cluster-analysis)。,5,例:中医证型研究 对临床症状分类(指标聚类),6,2002年中国部分省市国民经济数据,研究问题:对31省市分类,了解中国各省市地区居民生活水平的差异. (对样品聚类),经济学研究,7,聚类方法,根据分类样品(变量)的多少及特点。 方法: 系统(层次)聚类-(例数少)* 动态样品聚类-(例数多)* 有序聚类-(样品在时间和空间有自然顺序) 神经网络的聚类-(自动确定类别) * SPSS和SAS软件可得到.,8,聚类分析基本思想与步骤,思想: 根
3、据指标和样品的相似性. 步骤: 1.计算描述样品(变量)间相似性的指标:用距离系数或相关系数. 2.根据相似性对样品(变量)归类. 方法:有多种聚类方法,9,第一节 相似系数,意义:用相似系数度量指标和样品间的相似程度. 1.指标(变量)间的相似系数: 变量为计量数据 相关系数(r) (19-1),10,变量为计数数据(等级或两分类) 列连系数(C) (19-2),11,2.个体(样品)间的相似系数,用个体间某变量(x)的距离(dij)表示: 欧氏距离:(Euclidean distance) 绝对距离:,距离越小,样品间相似程度越高.,i和j表示不同个体,12,第二节 系统聚类(层次聚类)
4、(hierarchical clustering),步骤如下: 1.将每个变量(样品)各视为一类. 2.将相似系数最大(距离最小)的两类合并新类, 计算新类与其他类的类间相似系数. 3.重复第2步过程,直到全部合并为一类. 4.结果:得到聚类的树状图。,13,x1,x3,x4,x2,系统聚类结果的树状图,相似系数,14,系统聚类(对变量聚类),例: 19-1 测量3454例成年女性的身高(x1)、下肢长(x2)、腰围(x3)、胸围(x4),问4个指标可以分为几类。 数据略.,15,1.计算变量间的两两相似系数(r) 并认为各变量各为一类,即G1,G2,G3,G4。,R0,找出最大相似系数值组成
5、新类.,聚类步骤:,16,系统聚类类间相似系数计算,当聚类的两类变量(样品)各只含一个变量时, 如G1,G2, 两类间的类间相似系数为 rij或dij。 当聚类两类变量(样品)含有两个变量时,两类间的类间相似系数的计算有讲义5种。,17,类间相似系数的计算 (讲义401页),聚类的方法 最大相似系数法 最小距离法 重心法 类平均法 离差平方和法 统计软件有11种方法,但基本思想一致.,18,最大相似系数法(401页),rpq表示第p类和第q类的类间相似系数. Gp类中的n个变量与Gq类中的n个变量两两间共有npnq个相似系数,以其中最大者为Gp与Gq的类间相似系数。,19-7,19,最大相似系
6、数法聚类方法,2.计算新类(G5)与G3、 G4的类间相似系数,进行合并,得到R1距阵.,20,3.根据最大相似系数法, 组成合并后相似系数距阵(R1),R1,4.重复上面步骤,21,例19-1的聚类过程,步 合并类别 相关系数 新类命名 类内指标 1 G1G2 0.875 G5 1,2 2 G3G4 0.732 G6 3,4 3. G5G6 0.234 G7 1,2,3,4,22,身高,下肢长,腰围,胸围,相关系数,聚类结果:分为两类,x1=身高和x2=下肢长为长度指标,x3和x4为围度指标。,1,0,23,例19-2 样品聚类(表19-1),6个运动员4个运动项目的测定值(均数) 运动 能
7、耗(x1) 糖耗(x2) x1 x2 项目 (单位) (单位) 负重下蹲 27.892 61.42 1.315 0.688 引体向上 23.475 56.83 0.174 0.088 俯卧撑 18.924 45.13 -1.001 -1.441 仰卧起坐 20.913 61.25 -0.488 0.665,首先对数据进行标准化转换(x),消除数据单位的差别,24,1.计算4个样品的两两距离指标(欧氏距离),25,1.构建样品间距离(dij)距阵,2.将相似系数距离最小两类合并新类和其他类计算类间相似系数,26,类间相似系数-最小相似系数法,19-8,27,3.重复第2步,在距阵中合并新类,并计
8、算与其他的类间系数,28,图19-2 4个运动项目样品聚类图,最小相似系数法聚类,29,系统聚类步骤,1.根据研究目的,确定聚类的对象(样品或变量)。 2. 如样品聚类,先对数据进行标准化 3.选择相似系数和聚类方法(常用多个方法) 4.分类的结果: 结合专业和树状图得到分类结果。,30,三、系统聚类实例分析与应用,例1:讲义19-3 利用9个生物标志物检测指标数据对27名焦炉工进行样品聚类. 方法: 1.对数据进行标准化, 2.确定相似系数:选用欧氏距离 3.聚类的方法:最小相似系数法、类平均法、离差平方和法。,31,讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 07 ppt 课件
链接地址:https://www.31doc.com/p-2575073.html