书签分享收藏举报版权申诉 / 147

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 第5章聚类分析ppt课件.ppt

第5章聚类分析ppt课件.ppt

上传人：本田雅阁

文档编号：2606882

上传时间：2019-04-17

格式：PPT

页数：147

大小：3.08MB

《第5章聚类分析ppt课件.ppt》由会员分享，可在线阅读，更多相关《第5章聚类分析ppt课件.ppt（147页珍藏版）》请在三一文库上搜索。

1、第1页,第5章聚类分析,本章概述本章的学习目标主要内容,第2页,什么是聚类,聚类（Clustering）就是将数据分组成为多个类（Cluster或译为簇）。在同一个类内对象之间具有较高的相似度，不同类之间的对象差别较大。,第3页,从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。,第4页,什么是聚类,早在孩提时代，人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗，动物和植物将周围的人分为家人和非家人,第5页,聚类分析无处不在,谁

2、经常光顾商店，谁买什么东西，买多少？按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以. 识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）刻画不同的客户群的特征（用变量来刻画，就象刻画猫和狗的特征一样）,第6页,什么情况下需要聚类,为什么这样分类？因为每一个类别里面的人消费方式都不一样，需要针对不同的人群，制定不同的关系管理方式，以提高客户对公司商业活动的响应率。,第7页,聚类分析无处不在,挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告，比在大街上乱发传

3、单命中率更高，成本更低！,第8页,聚类分析无处不在,谁是银行信用卡的黄金客户？利用储蓄额、刷卡消费金额、诚信度等变量对客户分类，找出“黄金客户”！这样银行可以制定更吸引的服务，留住客户！比如：一定额度和期限的免息透资服务！百盛的贵宾打折卡！在他或她生日的时候送上一个小蛋糕！手机套餐的制定,第9页,聚类的应用领域,经济领域：帮助分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途，在什么时间，打到那里？对住宅区进行聚类，确定自动提款机ATM的安放位置股票市场板块分析，找出最具活力的板块龙头股企业信用等级分类 ,第10页,生物学领

4、域推导植物和动物的分类(门、纲、目、科、属、种)；对基因分类，获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研究,第11页,聚类分析原理介绍,聚类分析中“类”的特征：聚类所说的类不是事先给定的，而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定,第12页,簇(类)的概念可能是模糊的,如何对汉语方言进行分类？,第13页,聚类分析原理介绍,我们看以下的例子：有16张牌如何将他们分为一组一组的牌呢？,第14页,聚类分析原理介绍,分成四组每组里花色相同组与组之间花色相异,花色相同的牌为一副 Individual s

5、uits,第15页,聚类分析原理介绍,分成四组符号相同的牌为一组,符号相同的的牌 Like face cards,第16页,聚类分析原理介绍,分成两组颜色相同的牌为一组,颜色相同的配对 Black and red suits,第17页,聚类分析原理介绍,分成两组大小程度相近的牌分到一组,大配对和小配对 Major and minor suits,第18页,聚类分析原理介绍,这个例子告诉我们，分组的意义在于我们怎么定义并度量“相似性” (Similar) 因此衍生出一系列度量相似性的方法,大配对和小配对 Major and minor suits,第19页,聚类分析原理介绍,变量按测量尺度

6、（Measurement Level）分类区间（Interval）值变量连续变量，如长度、重量、速度、温度等有序（Ordinal）值变量等级变量，不可加，但可比，如一等、二等、三等奖学金名词性（Nominal）变量类别变量，不可加也不可比，如性别、职业等下面介绍对各种不同类型的变量如何进行度量,第20页,度量对象间的相似与差异,对象间的相似度或相异度通常基于每对对象间的距离的计算欧几里得距离 Minkowski距离,第21页,度量对象间的相似与差异,曼哈顿距离(Block距离) 欧几里得距离是当q=2时的Minkowski距离的特例曼哈顿距离是当q=1时的Minkowski距

7、离的特例当q=时得到无穷距离(无穷范数)，由向量间各分量的最大差决定,第22页,度量对象间的相似与差异,距离所应满足的数学性质 d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 除此之外，还可以使用加权的距离,第23页,二元属性变量,二元变量只有两种状态：0或1 例如给定描述患者的变量smoker，1表示患者抽烟，0表示不抽烟像处理一般数值量一样来处理二元变量会产生误导的聚类结果,第24页,二元属性变量的相依表,如果所有的二元变量具有相同的权重，则可以得到上表所示的两行两列的相依表 q是对象i和j值都为1的变量的数目 r是

8、在对象i值为1，但对象j值为0的变量数目变量的总数是p=q+r+s+t,第25页,对称二元变量和非对称二元变量,对二元变量的相异度计算还要考虑变量的对称性对称二元变量如果他的两个状态具有同等价值和相等的权重输出用0或1编码没有优先权，如性别对称二元相异度,第26页,对称二元变量和非对称二元变量,非对称二元变量如果状态的输出不是同等重要的例如基本检查的阳性和阴性结果。根据惯例，将比较重要的输出结果(通常也是出现机率较小的结果)编码为1，而将另一种结果编码为0(如HIV阴性) 给定两个非对称二元变量，两个都取值1的情况认为比两个都取值0的情况更有意义非对称二元相异度,第27页,对称

9、二元变量和非对称二元变量,有时采用两个二元变量的相似度而不是相异度来测量他们之间的距离。非对称二元相似度sim(i,j)如下定义系数sim(i,j)常称作Jaccard系数,第28页,例二元变量之间的相异度,假设一个患者记录表包含上述属性，其中name是标识符，性别是对称二元属性，其余的属性都是非对称二元属性对于非对称属性，值Y和P(positive)置为1，值N(no或negative)置为0,第29页,例二元变量之间的相异度,假设对象之间的距离只基于非对称变量来计算。根据公式，三个患者Jack、Mary和Jim两两之间的相异度如下：度量显示Jim和Mary不大可能患相似的疾病，

10、而Jack和Mary最可能患相似的疾病,第30页,名词性属性变量,可取多个相异值，之间没有序关系如产品颜色可以取：红、黄、绿、蓝等也可以用0，1，2，3等代码来表示，但注意这里的数字仅是标识，不能做运算两个对象i和j之间的相异度简单的处理方法是计算不匹配率：其中p是全部变量的数目，m是匹配的数目也可以构造一个大的二元变量数组，再按二元变量处理,第31页,余弦相似度,文档数据,第32页,在信息检索、文本文档聚类和生物学分类中，需要对包含了大量符号实体的复杂对象进行比较和聚类为了测量复杂对象间的距离，通常期望放弃传统的度量距离计算，而引入非度量的相似度函数如果d1 和 d2 是两个文

11、档向量，则 cos( d1, d2 ) = (d1 d2) / |d1| |d2| , 其中表示向量的点积(内积)，| d |表示向量的范数. 问题：余弦相似度的范围？取最大值时是否两个向量相等？,余弦相似度,第33页,余弦相似度计算的例子,d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 d2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 |d1| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)

12、 0.5 = 6.481 |d2| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 5/(6.481*2.245).3150,第34页,如何选择恰当的度量,有很多方法用来选择一个具体的相似度或距离函数，但是还没有一个通用的标准用来指导这样的选择这种度量的选择高度依赖于具体的应用。,第35页,主要聚类方法的分类,划分方法：给定n个对象，划分方法构建数据的k个划分，每个划分表示一簇，k=n，满足如下要求每组至少包含一个对象每个对象必须只属于一个组(在软聚类技术中可放宽) 对于给

13、定的划分数目k，通常创建一个初始划分，然后采用迭代方法尝试通过对象在组间移动来改进划分,第36页,主要聚类方法的分类,好的划分的标准：同一个簇中的对象之间尽可能相似，不同簇的对象尽可能有大的差异常用方法： k均值方法：每个簇都用该簇中对象的均值来表示 k中心点法：每个簇用接近簇中心的一个对象来表示,第37页,层次方法创建给定数据对象的层次分解根据使用的方法，层次的方法可以分类为凝聚的或分裂的方法凝聚法：也称自底向上的方法，开始将每个对象形成单独的组，然后逐次合并相近的对象或组，直到所有的组合并为一个或满足某个终止条件分裂法：自顶向下的方法，一开始将所有对象置于一个簇中，每次迭代，簇分裂

14、为更小的簇，直到每个对象在一个簇中或满足终止条件,层次方法,第38页,基于模型的方法,为每簇假定一个模型，并寻找数据对给定模型的最佳拟合常见算法 EM算法：基于统计模型并进行期望最大化分析 COBWEB：概念学习算法，进行概率分析并把概念作为簇模型 SOM(自组织映射)：一种基于神经网络的算法，通过把高维数据映射到2维或3维特征空间进行聚类,第39页,划分聚类,原始点,划分聚类,第40页,层次聚类,Traditional Hierarchical Clustering,Non-traditional Hierarchical Clustering,Non-traditional Dendr

15、ogram,Traditional Dendrogram,第41页,互斥的与非互斥的在非互斥聚类中，点可以属于多个簇. 可以表示多重类或边界类模糊聚类与非模糊聚类模糊聚类中，一个点到隶属于每个簇的情况可以用一个在0到1之间的隶属度描述,其他的聚类类型的差别,第42页,不同的簇类型,明显分离的簇基于中心的簇基于近邻的簇基于密度的簇概念簇,第43页,不同的簇类型,明显分离的簇: 每个点到同簇中任意点的距离比到不同簇中所有点的距离更近,3 个明显分离的簇,第44页,不同的簇类型,基于中心的簇每个点到其簇中心的距离比到任何其他簇中心的距离更近簇的中心通常是重心，簇中所有点的平均值，或

16、者是簇的原型，即一个簇中最具代表性的点,4 center-based clusters,第45页,不同的簇类型,基于近邻的簇(基于图的连通分支) 每个点到该簇中至少一个点的距离比到不同簇中任意点的距离更近,8 contiguous clusters,第46页,不同的簇类型,基于密度的簇簇是被低密度区域分开的高密度区域. 当簇不规则或互相盘绕，并且有噪声和离群点时，通常使用基于密度的簇定义,6 density-based clusters,第47页,划分方法,对于一个给定的n个对象或元组的数据库，采用目标函数最小化的策略，通过迭代把数据分成k个划分块，每个划分块为一个簇，这就是划分方法。划分

17、方法满足两个条件：（1）每个分组至少包含一个对象；（2）每个对象必属于且仅属于某一个分组。常见的划分方法有k-均值方法和k-中心点方法。其他方法大都是这两种方法的变形。,第48页,k-均值算法,k-均值聚类算法的核心思想是通过迭代把数据对象划分到不同的簇中，以求目标函数最小化，从而使生成的簇尽可能地紧凑和独立。随机选取k个对象作为初始的k个簇的质心；将其余对象根据其与各个簇质心的距离分配到最近的簇；再求新形成的簇的质心。这个迭代重定位过程不断重复，直到目标函数最小化为止。,第49页,k-均值算法,第50页,初始质心的选择非常重要,第51页,使用K均值算法的迭代过程,第52页,K-均

18、值算法,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2 Arbitrarily choose K object as initial cluster center,Assign each objects to most similar center,Update the cluster means,Update the cluster means,reassign,reassign,第53页,欧几里得空间中的数据,通常使用误差的平方和(sum of the squared error, SSE)作为度量聚类质量的目标函数 SSE也称散布(sc

19、atter)：计算每个数据点的误差即它到最近质心的欧几里得距离，然后计算误差的平方和给定由两次运行K均值产生的两个不同的簇集，我们更喜欢误差的平方和最小的那个，这意味着聚类的原型(质心)是簇中点的更好代表,第54页,欧几里得空间中的数据,可以证明在欧几里得空间中是簇的SSE最小的质心就是均值 K均值算法的第3步和第4步试图直接最小化SSE 步骤3通过将点指派到最近的质心形成簇，最小化关于给定质心集的SSE 步骤4重新计算质心，进一步最小化SSE 问题：K均值的步骤3和4只能找到关于SSE的局部最小值，因为它们是对选定的质心和簇，而不是对所有可能的选择来优化SSE,第55页,初始质心的

20、选择非常重要,第56页,初始质心的选择非常重要,第57页,随机初始化,由于K均值算法会陷入局部最小值而得到次优聚类，一种常用的选取初始质心的方法是多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE的簇集下面我们看一看这种方法的问题下页的图中有5个簇对，每个簇对有上下两个簇。如果每个簇对有两个初始质心，则效果较好如果有一个簇对中只有一个初始中心，而另一个簇对中有三个初始中心，则会出现错误。,第58页,Starting with two initial centroids in one cluster of each pair of clusters,5个簇对，10个簇的例子

21、,第59页,Starting with two initial centroids in one cluster of each pair of clusters,5个簇对，10个簇的例子,第60页,Starting with some pairs of clusters having three initial centroids, while other have only one.,5个簇对，10个簇的例子,第61页,Starting with some pairs of clusters having three initial centroids, while other have

22、only one.,5个簇对，10个簇的例子,第62页,解决初始质心设置问题的方法,多次运行不一定总有效对数据作采样并使用层次聚类，从中提取K个簇并使用这些簇的质心作为初始质心选取多于k个的初始质心，然后从其中选择k个最分离的k个点后处理二分K-均值,第63页,二分K均值,基本思想：为了得到K个簇，将所有点的集合分裂成两个簇，从这些簇中选取一个继续分裂，如此下去直到产生K个簇可以使用多种方法选择待分裂的簇最大的簇具有最大SSE的簇基于大小和SSE 二分K均值得到的最终的簇集并不代表使SSE局部最小的聚类,第64页,二分K均值算法,第65页,二分K-均值的例子,第66页,K

23、-均值方法的缺陷,K-均值方法当簇在下述方面有较大不同时会出现问题不同大小不同密度非球形的形状,第67页,Original Points,K-means (3 Clusters),K-均值的缺陷：不同的簇大小,WHY？,第68页,Original Points,K-means (3 Clusters),K-均值的缺陷不同的密度分布,WHY？,第69页,Original Points,K-means (2 Clusters),K均值的缺陷：非球形形状,K均值目标函数是最小化等尺度和等密度的球形簇，或明显分离的簇,第70页,Original Points K-means Clusters,一

24、种方法是使用更多的簇，再反过来使其部分合并,克服K均值方法的缺陷,第71页,Original Points K-means Clusters,克服K均值方法的缺陷,第72页,Original Points K-means Clusters,克服K均值方法的缺陷,第73页,层次聚类方法,定义：对给定的数据进行层次的分解：凝聚的（agglomerative）方法（自底向上）思想：一开始将每个对象作为单独的一组，然后根据同类相近，异类相异的原则，合并对象，直到所有的组合并成一个，或达到一个终止条件为止。分裂的方法（divisive）（自顶向下）思想：一开始将所有的对象置于一类，在迭代的每一步

25、中，一个类不断地分为更小的类，直到每个对象在单独的一个类中，或达到一个终止条件。,第74页,凝聚的和分裂的层次聚类,第75页,层次聚类方法,产生一个相邻簇的集合，通常用一棵树来表示 Can be visualized as a dendrogram 树状图记录了分裂或合并的序列,以树状图和嵌套簇图显示的4个点的层次聚类,第76页,层次聚类法的特点,不用预知(预设)簇的数目任何需要簇数的聚类可以通过在树状图的适当层次切割而得到得到更有意义的结构如生物学中的分类传统的层次聚类算法使用相似度矩阵或距离矩阵每次合并或分裂一个簇,第77页,1 计算距离矩阵 2 令每个点为一个簇 3 Repea

26、t 4 合并最接近的两个簇 5 更新距离矩阵 6 until 仅剩下一个簇,基本凝聚层次聚类算法,第78页,关键步骤在于计算两个簇之间的邻近度不同的定义簇之间的距离的方法区分了不同的算法,基本凝聚层次聚类算法,第79页,开始.,每个点为一个簇，计算各个簇两两之间的距离矩阵,距离矩阵,第80页,接下来.,经过若干凝聚步骤，得到如下的簇,C1,C4,C2,C5,C3,距离矩阵,第81页,接下来.,合并两个最靠近的簇 (C2 和 C5) 并更新距离矩阵,C1,C4,C2,C5,C3,距离矩阵,第82页,合并后,问题变为如何更新距离矩阵,C1,C4,C2 U C5,C3,? ? ? ?,?,?,?,

27、C2 U C5,C1,C1,C3,C4,C2 U C5,C3,C4,距离矩阵,第83页,距离,MIN(单链) MAX(全链) Group Average(组平均) 质心的距离其他的源自目标函数的方法 Ward方法使用平方差,距离矩阵,如何定义簇之间的邻近度,第84页,距离矩阵,MIN(单链) MAX(全链) Group Average(组平均) 质心的距离其他的源自目标函数的方法 Ward方法使用平方差,如何定义簇之间的邻近度,第85页,距离矩阵,MIN(单链) MAX(全链) Group Average(组平均) 质心的距离其他的源自目标函数的方法 Ward方法使用平方差,如何定义簇之

28、间的邻近度,第86页,距离矩阵,MIN(单链) MAX(全链) Group Average(组平均) 质心的距离其他的源自目标函数的方法 Ward方法使用平方差,如何定义簇之间的邻近度,第87页,距离矩阵,MIN(单链) MAX(全链) Group Average(组平均) 质心的距离其他的源自目标函数的方法 Ward方法使用平方差,如何定义簇之间的邻近度,第88页,MIN或单链,两个簇之间的邻近度基于两个簇中最近的两个点的距离由一个点对决定，或者说由图中的一条链决定,第89页,Nested Clusters,Dendrogram,层次聚类: MIN,第90页,Original Poin

29、ts,Two Clusters,可以处理非椭圆的形状,MIN的优点,第91页,Original Points,Two Clusters,对噪声点和离群点很敏感,MIN的不足,第92页,MAX或全链,两个簇之间的邻近度由两个簇间最不相似的(最大距离的)点对决定由两个簇中所有的点对决定,第93页,Nested Clusters,Dendrogram,MAX或全链,第94页,Original Points,Two Clusters,对噪声点和离群点不太敏感,MAX的优点,第95页,Original Points,Two Clusters,倾向于分裂大的簇倾向于球状的簇,MAX的不足,第96页,组

30、平均,两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度 Need to use average connectivity for scalability since total proximity favors large clusters,第97页,Nested Clusters,Dendrogram,组平均,第98页,组平均,是单链和全链之间的一个折中，该法利用了所有样本的信息，被认为是较好的层次聚类法优点对噪声和离群点不太敏感不足倾向于球状的簇,第99页,Ward方法和质心方法,两个簇的邻近度定义为两个簇合并时导致的平方误差的增量，该方法使用的目标函数与K均值相同可以证明，

31、当取距离的平方作为两个点间的邻近度时，Ward方法与组平均方法相似对噪声和离群点不太敏感倾向于球状的簇可以用来初始化K均值方法,第100页,层次聚类法：比较,Group Average,Wards Method,MIN,MAX,第101页,O(N2) 空间复杂度，因为要存储邻近度矩阵，N为点的数目最坏情况下O(N3) 的时间复杂度共有N步，在每一步中要更新和搜索N2规模的邻近度矩阵在某些算法中可以接近O(N2 log(N) ) 的时间复杂度,层次聚类：时间和空间复杂度,第102页,层次聚类方法的优缺点,层次聚类方法的优点在于可以在不同粒度水平上对数据进行探测，而且容易实现相似度量或

32、距离度量。单纯的层次聚类算法终止条件含糊，而且执行合并或分裂簇的操作后不可修正，这很可能导致聚类结果质量很低。通常考虑把层次聚类方法与其他方法（如迭代重定位方法）相结合来解决实际聚类问题。,第103页,DBSCAN是一种基于密度的聚类算法密度 = 给定半径(Eps)内点的数目核心点(core point ) 在半径Eps的邻域内拥有多于特定数目(MinPts)的邻点的点，在基于密度的簇内部的点边界点(border point )在半径Eps的邻域内拥有多于特定数目(MinPts)的邻点的点，但是落在某个核心点的邻域内噪声点(noise point )既非核心点也非边界点的任何点,基

33、于密度的聚类：DBSCAN,第104页,DBSCAN: 核心点，边界点和噪声点,第105页,DBSCAN 算法,算法 1：将所有点标记为核心点、边界点或噪声点 2：删除噪声点 3：为距离在Eps之内的所有核心点之间赋予一条边 4：每组连通的核心点形成一个簇将每个边界点指派到一个与之关联的核心点的簇中,第106页,原始点,点的类型: 核心, 边界和噪声,Eps = 10, MinPts = 4,DBSCAN 算法,第107页,原始点,得到的簇,对噪声不敏感可以处理不同形状和大小的簇,当DBSCAN工作良好时,第108页,原始点集,(MinPts=4, Eps=9.75).,(MinPts=

34、4, Eps=9.92),变密度的簇对高维数据计算量巨大,当DBSCAN工作不佳时,第109页,基本方法：观察点到它的k个最近邻的距离(称作k-距离)。对于属于某个簇的点，如果k不大于簇的大小的话，则k-距离将很接近噪声点由于不在簇中，其k-距离将相对较大对于某个k，计算所有点的k-距离，以递增次序将它们排序，然后绘制排序后的值，则预期会看到k-距离的急剧变化处对应于合适的Eps值,DBSCAN算法: 确定EPS和 MinPts,第110页,DBSCAN算法: 确定EPS和 MinPts,第111页,簇评估,对于有监督的分类，我们可以有多种方式评价模型的优劣准确度, 精度, 召回率对

35、于聚类分析, 相应的问题是如何评价聚类结果是否是 “好”的评估簇的目的避免寻找噪声中的模式比较不同的聚类算法比较两个聚类的结果比较两个簇,第112页,在随机数据中发现的簇,100个随机分布的点,K-均值,DBSCAN,全链聚类,第113页,确定数据的聚类趋势( clustering tendency ), 即识别数据中是否实际存在非随机结构. 比较聚类分析的结果与通过外部知识得到的类标(确定正确的簇个数). 评估聚类分析的结果在不引用附加信息的情况下是否能较好拟合数据. 比较两个不同的聚类结果的优劣. 确定“正确”的类的个数对于 2, 3, 4, 还可以进一步分为是要比较整个分类结

36、果还是其中的某个簇,簇评估,第114页,用于评估簇各方面的评估度量或指标分成如下三类监督的(外部指标): 度量聚类算法发现的聚类结构与某种外部结构的匹配程度。例如熵，度量簇标号与外部提供的标号的匹配程度非监督的(内部指标): 聚类结构的优良性度量，不考虑外部因素。如SSE(平方误差和)。簇的有效性的非监督度量常常可以进一步分成两类：簇的凝聚性（紧凑性）：度量簇中对象如何密切相关簇的分离性（孤立性）：度量确定一个簇如何不同于其它簇,度量簇的正确性,第115页,用于评估簇各方面的评估度量或指标分成如下三类相对指标: 比较不同的聚类或簇。是用于比较的监督或非监督评估度量，例如SSE或熵,度

37、量簇的正确性,第116页,通过相关性度量簇的有效性,给定数据集的相似度矩阵和数据集聚类分析得到的类标号，则可以通过考察相似度矩阵和基于类标号的相似度矩阵的理想版本之间的相关性，来评估聚类的优良性一个理想的簇：它的点与簇内所有点的相似度为1，而与其它簇中的所有点的相似度为0 如果我们将相似度矩阵的行和列排列，使得属于相同簇的对象在一起，则理想的相似度矩阵具有块对角结构：在相似度矩阵中代表簇内相似度的相的块内部相似度非0，而其它地方为0,第117页,通过相关性度量簇的有效性,理想的相似度矩阵如下构造：创建一个矩阵，每个数据点一行一列，矩阵的一个项为1，如果它所关联的一对点属于同一个簇，否则为0

38、理想和实际相似度矩阵之间高度相关表明属于同一个簇的点相互之间很接近。由于实际和理想相似度矩阵都是对称的，所以只需要对矩阵对角线下方或上方的n(n-1)/2个项计算相关度,第118页,对如下的两个数据集使用K-均值算法得到的簇计算相似度矩阵,Corr = 0.9235,Corr = 0.5810,实际的和理想的相似度矩阵,第119页,按照簇标号调整相似度矩阵的行列次序，然后画出它们。如果有明显分离的簇，则相似度矩阵应当粗略的是块对角的,通过相似度矩阵可视化的评价聚类,第120页,随机数据的簇的相似度矩阵,DBSCAN,随机数据的簇的相似度矩阵,第121页,随机数据的簇的相似度矩阵,K-mean

39、s,随机数据的簇的相似度矩阵,第122页,Complete Link,随机数据的簇的相似度矩阵,第123页,在随机数据上，DBSCAN、K均值和全链发现的簇的重新排序的相似度矩阵中也存在弱对角模式,第124页,DBSCAN,通过相似度矩阵可视化的评价聚类,第125页,有更复杂图像的簇很难被分离内部指标: 不使用外部信息而独立簇结构的优良性 SSE SSE可以较好地比较两个聚类结果或具体的两个簇,内部测度: SSE,第126页,可以用来估计簇的个数。左图的数据集有10个自然簇。当簇个数等于10时，SSE有一个明显的拐点,内部测度: SSE,第127页,内部测度: SSE,更复杂数据集的SSE曲

40、线,SSE of clusters found using K-means,第128页,聚类趋势,确定数据集中是否包含簇的一种显而易见的方法是使着对它聚类。给定数据，几乎所有的聚类算法都会发现簇。为了处理这一问题，我们可以评估结果簇，至少有些簇具有好的质量，才能说数据集包含簇问题在于数据集中可能存在不同于我们是有的聚类算法所能发现的簇类型尝试使用多种方法，并评估结果簇的质量。如果簇都很差，则可能表示数据中确实没有簇。,第129页,Hopkins统计量,使用统计检验来检验空间随机性产生p个随机地分别在数据空间上的点，并且也抽取p个实际数据点。对于这两个点集，找出每个点到原数据集的最近

41、邻距离。设ui是人工产生的点的最近邻距离，而wi是样本点到原数据集的最近邻距离。 Hopkins统计量H由下式定义,第130页,Hopkins统计量,如果随机产生的点与样本点具有大致相同的最近距离，则H将在0.5左右。H接近0或1表明数据是高度聚类的和数据在数据空间是有规律分布的。对于p=20和100的不同实验，左图的H平均值为0.95，标准差为0.0006，右图的H平均值为0.59，标准差为0.03,第131页,类别解释,据类算法的一个长处是它是一种非监督的知识发现方法。由于不知道自己在找什么，有时候即使真正找到了，也可能意识不到。据类算法产生的结果并不都保证有实际价值，一旦类别产生后，

42、就由使用者来解释了常用的几种理解类别的方法如下：把类别作为一个目标变量建立一个决策树，并用它们产生一些规则解释说明如何把新的样本正确地归类使用可视化方法研究观察这些类别如何受输入变量变化的影响检查一类与另一类变量分布的差异，每次一个变量,第132页,Microsoft 聚类分析算法,Microsoft 聚类分析算法提供两种创建分类并为分类分配数据点的方法。第一种方法是 K-means 算法，属于硬聚类方法。这意味着一个数据点只能属于一个分类第二种方法是“期望值最大化”(EM) 方法，这是“软聚类分析”方法。这意味着一个数据点总是属于多个分类，并会为每个数据点和分类的组合计算一个概率

43、。可以通过设置 CLUSTERING_METHOD 参数来选择要使用的算法。聚类分析的默认方法是可缩放的 EM。,第133页,EM 聚类分析,在 EM 聚类分析中，此算法反复优化初始分类模型以适合数据，并确定数据点存在于某个分类中的概率。当概率模型适合于数据时，此算法终止这一过程。用于确定是否适合的函数是数据适合模型的对数可能性。 EM 聚类分析方法的结果是概率性的。这意味着每个数据点都属于所有分类，但数据点向分类的每次分配都有一个不同的概率。,第134页,Microsoft 实现提供两个选项：可缩放 EM 和不可缩放 EM。默认情况下，在可缩放 EM 中，前 50,000 个记录用于为初

44、始扫描设种子。如果成功，则模型将仅仅使用这些数据。如果使用 50,000 个记录时模型不适合，则会继续读取 50,000 个记录。在不可缩放 EM 中，总是读取整个数据集，而不考虑数据集的大小。此方法可能会创建更准确的分类，但内存需求非常高。,第135页,因为可缩放 EM 作用于本地缓冲区，所以循环访问数据要快得多，并且此算法对 CPU 内存缓存的利用率比不可缩放 EM 要高得多。此外，可缩放 EM 比不可缩放 EM 快三倍，即使所有数据都可容纳于主内存中也是如此。在大多数情况下，性能改进不会导致完成的模型的质量下降。,第136页,k-means 聚类分析,k-means 通过尽量缩小

45、一个分类中的项之间的差异，同时尽量拉大分类之间的距离，来分配分类成员身份。 k-means 中的 “means“ 指的是分类的“中点”，它是任意选定的一个数据点，之后反复优化，直到真正代表该分类中的所有数据点的平均值。 “k“ 指的是用于为聚类分析过程设种子的任意数目的点。k-means 算法计算一个分类中的数据记录之间的欧几里得距离的平方，以及表示分类平均值的矢量，并在和达到最小值时在最后一组 k 分类上收敛。,第137页,k-means 聚类分析,k-means 算法仅仅将每个数据点分配给一个分类，并且不允许成员身份存在不确定性。分类中的成员身份表示为与中点的距离。通常，k-means

46、算法用于创建连续属性的分类，在这种情况下，计算与平均值的距离非常简单。但是，Microsoft 实现通过使用概率针对分类离散属性对 k-means 方法进行改编。注意：Microsoft 聚类分析算法不公开用于计算 k-means 的距离函数，并且在完成的模型中不能测量距离。但是，可以使用预测函数返回与距离对应的值，在这种情况下，距离计算为某个数据点属于此分类的概率。请参阅 ClusterProbability。,第138页,k-means 聚类分析,k-means 聚类分析是一种广为人知的方法，它通过尽量缩小一个分类中的项之间的差异，同时尽量拉大分类之间的距离，来分配分类成员身份。k-me

47、ans 中的 “means“ 指的是分类的“中点”，它是任意选定的一个数据点，之后反复优化，直到真正代表该分类中的所有数据点的平均值。“k“ 指的是用于为聚类分析过程设种子的任意数目的点。k-means 算法计算一个分类中的数据记录之间的欧几里得距离的平方，以及表示分类平均值的矢量，并在和达到最小值时在最后一组 k 分类上收敛。 k-means 算法仅仅将每个数据点分配给一个分类，并且不允许成员身份存在不确定性。分类中的成员身份表示为与中点的距离。对于离散属性，数据点与特定分类的距离按如下公式计算： 1 - P(数据点, 分类) 注意：Microsoft 聚类分析算法不公开用于计算 k-me

48、ans 的距离函数，并且在完成的模型中不能测量距离。但是，可以使用预测函数返回与距离对应的值，在这种情况下，距离计算为某个数据点属于此分类的概率。有关详细信息，请参阅 ClusterProbability。,第139页,自定义 Microsoft 聚类分析算法,Microsoft 聚类分析算法支持几个参数，这些参数会影响所生成的挖掘模型的行为、性能和准确性。设置算法参数这些参数影响生成的挖掘模型的性能和准确性。 CLUSTERING_METHOD：指定算法要使用的聚类分析方法，默认值为 1（可缩放 EM）。,第140页,CLUSTER_COUNT 指定将由算法生成的大致分类数。如果无法基于相应的数据生成该大致数目的分类，则算法将生成尽可能多的分类。如果将 CLUSTER_COUNT 设置为 0，则算法将使用试探性方法最准确地确定要生成的分类数。默认值为 10。,第141页,CLUSTER_SEED 指定在为建模初始阶段随机生成分类时所要使用的种子数字。通过更改此数字，可以更改生成初始分的方法，然后使用不同的种子比较已生成的模型。如果种子已更改，但所发现的分类并没有太大的更改，则模型可被视为相对稳定。默认值为 0。,第142页,MINIMUM_SUPPORT 指定生成某个分类至少需要的事例数。如果分类中的事例数小于此数目，则此分类将被视为空，并将被丢弃。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 聚类分析 ppt 课件

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第5章聚类分析ppt课件.ppt
链接地址：https://www.31doc.com/p-2606882.html