聚类分析PAM算法.ppt
《聚类分析PAM算法.ppt》由会员分享,可在线阅读,更多相关《聚类分析PAM算法.ppt(35页珍藏版)》请在三一文库上搜索。
1、聚 类 分 析 PAM算法,报告时间: 2004年6月日 报 告 人: 陈晓宇 王晖,什么是聚类,聚类 ( clustering ) 是一个将数据集划分为若干组 ( class ) 或类 ( cluster ) 的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。,什么是聚类过程,将一组 ( set ) 物理的或抽象的对象,根据它们之间的相似程度,分为若干组 ( group ) ;其中相似的对象构成一组,这一过程就称为聚类过程( clustering ),什么是聚类分析,一个聚类 ( cluster ) 就是由彼此相似的一组对象所构成的集合;不同聚类中对象是不相
2、似的。就是从给定的数据集中搜索数据项 ( items ) 之间所存在的有价值联系。 在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析等操作,许多领域,包括数据挖掘、统计学和机器学习都有聚类研究和应用!,聚类分析的典型应用,商业方面 聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群 生物方面 聚类分析可以用来获取动物或植物所存在的层次结构,以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。,聚类分析的典型应用,聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。此外还可以帮助分类识别互联网上
3、的文档以便进行信息发现。 作为数据挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。 聚类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤,聚类方法,划分类方法 分层类方法 基于密度类方法 基于网格类方法 基于模型类方法,聚类方法划分类方法,给定一个包含n个对象或数据行,划分方法将数据集划分为k个子集 ( 划分 ) 。其中每个子集均代表一个聚类 ( k n )。也就是说将数据分为k组,这些组满足以下要求 每组至少应包含一个对象 每个对象必须只能属于某一组,聚类方法划分类方法,给定需要划分的个数k,
4、一个划分方法创建一个初始划分;然后利用循环再定位技术,即通过移动不同划分 ( 组 ) 中的对象来改变划分内容。一个好的划分衡量标准通常就是同一个组中的对象“相近”或彼此相关;而不同组中的对象“较远”或彼此不同。当然还有许多其它判断划分质量的衡量标准。,聚类方法划分类方法,为获得基于划分聚类分析的全局最优结果就需要穷举所有可能的对象划分。为此大多数应用采用一至二种常用启发方法 k-means 算法,该算法中的每一个聚类均用相应聚类中对象的均值来表示; k-medoids 算法,该算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。,聚类方法分层类方法,层次方法就是通过分解所给定的数据对象
5、集来创建一个层次。根据层次分解形成的方式,可以将层次方法分为自下而上和自上而下两种类型。自下而上的层次方法从每个对象均为一个(单独的)组开始;逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止。自上而下层次方法从所有均属于一个组开始;每一次循环将其(组)分解为更小的组;直到每个对象构成一组或满足终止条件为止。,聚类方法基于密度类方法,基于密度概念的聚类方法实际上就是不断增长所获得的聚类直到“邻近”(数据对象或点)密度超过一定阈值(如:一个聚类中的点数,或一个给定半径内必须包含至少的点数)为止。这种方法可以用于消除数据中的噪声(异常数据),以及帮助发现任意形状的聚类。,聚类方法
6、基于网格类方法,基于网格方法将对象空间划分为有限数目的单元以形成网格结构。所有聚类操作均是在这一网格结构上进行的。这种方法主要优点就是处理时间由于与数据对象个数无关而仅与划分对象空间的网格数相关,从而显得相对较快,聚类方法基于模型类方法,基于模型方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。一个基于模型的算法可以通过构造一个描述数据点空间分布的密度函数来确定具体聚类。它根据标准统计方法并考虑到“噪声”或异常数据,可以自动确定聚类个数;因而它可以产生很鲁棒的聚类方法,聚类分析,划分方法,给定包含 n 个数据对象的数据库和所要形成的聚类个数 k ,划分算法将对象集合划分为 k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 PAM 算法
链接地址:https://www.31doc.com/p-2587654.html