聚类方法Clustering周源06.ppt
《聚类方法Clustering周源06.ppt》由会员分享,可在线阅读,更多相关《聚类方法Clustering周源06.ppt(46页珍藏版)》请在三一文库上搜索。
1、聚类方法(Clustering) 周源 2010.12.06,什么是聚类,聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。,聚类分析,对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。,聚类的应用领域,经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻
2、画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究,有贡献的研究领域,数据挖掘 聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等 统计学 主要集中在基于距离的聚类分析,发现球状类 机器学习 无指导学习(聚类不依赖预先定义的类,不等同于分类) 空间数据技术 生物学 市场营销学,聚类分析原理介绍,聚类分析中“类”的特
3、征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship,聚类分析原理介绍,什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢?,聚类分析原理介绍,分成四组 每组里花色相同 组与组之间花色相异,花色相同的牌为一副 Individual suits,聚类分析原理介绍,分成四组 符号相同的牌为一组,符号相同的的牌 Like face c
4、ards,聚类分析原理介绍,分成两组 颜色相同的牌为一组,颜色相同的配对 Black and red suits,聚类分析原理介绍,本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的(两个状态具有同等价值和相同的权重,例如性别的两个状态:男和女),没有什么不同。 相似性Similar的度量(统计学角度) 距离Q型聚类 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣
5、可参考应用多元分析(第二版)王学民 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离 这里不详细介绍这种聚类度量方法,聚类分析原理介绍,变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等,聚类分析原理介绍,当对象是同时被各种类型的变量描述时,怎样描述对象之间的相异度呢? 一种可取的办法是把所有变量一起处理,将不同类型的变量组合在
6、单个相异矩阵中,把所有有意义的变量转换到【0,1】的区间上,只进行一次聚类分析。详见参考书,主要聚类算法的分类,划分方法(partitioning method) 层次的方法(也称系统聚类法)(hierarchical method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的聚类方法(model-based method) 聚类高维数据 基于约束的聚类分析 离群点分析 其中,前两种算法是利用统计学定义的距离进行度量,划分方法,1 典型的划分方法:k均值和k中心点 2 大型数据库的划分方法:从k中心点到CLARA
7、NS 思想: 随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。,划分方法,特点: k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的样本数据 适用于发现球状类 缺陷: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值,划分方法,K-均值 首先,随机地选择k个对象,每个对象代表一个簇
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方法 Clustering 周源 06
链接地址:https://www.31doc.com/p-2567731.html