一种不精确数据的聚类挖掘方法.doc

上传人：吴起龙

文档编号：1591926

上传时间：2018-12-26

格式：DOC

页数：11

大小：19.65KB

《一种不精确数据的聚类挖掘方法.doc》由会员分享，可在线阅读，更多相关《一种不精确数据的聚类挖掘方法.doc（11页珍藏版）》请在三一文库上搜索。

1、一种不精确数据的聚类挖掘方法（1.湖南商学院计算机与电子工程系, 长沙 410205; 2.中南大学信息科学与工程学院, 长沙 410083） ?丶?词：非精确数据； K平均算法； FK聚类算法；密度概率函数 Algorithm in clustering location datafor uncertain data mining LI Qingfeng1，2， ZHOU Xiancheng1,2, WANG Li1，2， ZHOU Weilin1 （1.Dept. of Computer& Electronic Engineering, Hunan Business College

2、, Changsha 410205, China; 2.School of Information Science & Engineering,Central South University, Changsha 410083, China) Abstract:To consider data uncertainty in the clustering process, this paper proposed a FKmeans clustering algorithm that enhanced the Kmeans algorithm tothe goal of minimizing th

3、e expected sum of squared errors E(SSE). Specially noted that a data object xi was specified by an uncertainty region with an uncertainty pdf f(xi). This paper applied FKmeans to the particular pattern of movingobject uncertainty. Experimental results show that by considering uncertainty, the cluste

4、ring algorithm can produce more accurate results. Key words：data uncertainty; Kmeans algorithm ; FKmeans clustering algorithm; pdf ? 现实生活中数据的不精确性是固定存在的，如距离测量数据、传感器检测数据等。由于测量偏差、取样精度及非实时性等往往使得到的数据出现一定的误差，这种数据称为噪声数据。对噪声数据处理已经有了多种较成熟的方法，但对不确定数据的挖掘工作做得还比较少。由于不确定性，数据不再具有确定值的粒子特性，传统的数据挖掘技术多是对确定数据的分析处理，因此采用

5、这些技术之前应平滑数据、去掉噪声。对噪声数据处理的方法不同，将对数据挖掘的结果有较大的影响。图1描述了不确定性位置的运动物体的一种聚类算法，如果仅仅考虑表面记录的数值，许多物体将可能被划入错误的类，甚至有可能会改变各类的聚类质心，导致一系列的错误。对这种问题通常采用的技术是归纳不确定的数据信息，例如用统计概率密度函数，这样能使数据挖掘的结果更接近现实的情况。本文研究了怎样对不确定数据进行归纳合并，以便使聚类挖掘结果更准确，同时提出了一种基于K中心点聚类的新算法。图1(a)中现实的数据由三个聚类点(a, b, c)构成；(b)中分析记录的数据时，可能会推导出四个聚类（a,b,c and c）；

6、(c)中当运用线性不确定性进行分析时，推导的结果是a, b and c三个聚类，显而易见，这个结果与（b）中分析相比更接近真实的数据聚类（a）。 1 相关的工作近年来不确定数据的分析处理研究逐渐引起了人们的关注和兴趣。很多研究致力于非精确数据的查询，以便发现可信度比效高的结果。例如，在文献1中, Cheng等人提出了在序列范围内查询非精确数据的解决思想，他们在文献2中又提出了在最邻近序列查询聚类序列的方法。现在这些研究结果主要是应用在单一数据库序列的非精确数据管理领域，还没有涉及到更复杂数据库的分析和挖掘等问题的研究。聚类在数据挖掘中的作用是很大的，但在对非精确数据的聚类分析和数据挖掘的

7、研究工作还进行得比较少。 Hamdan等人3用EM算法对混合型高密度数据库的非精确数据聚类进行了探索，然而EM算法的约束条件多、局限性大，在其他环境条件下的使用受到了限制。与此相关的另一种探索是模糊聚类，在模糊聚类中一簇表示成模糊数据集，每个对象根据不同的属性或分类等级可能聚类到不同的簇。目前，K平均模糊聚类算法是应用较广泛的方法。 K平均算法以K为参数，把n个对象分为k个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似性的计算根据一个簇中对象的平均值（被看做簇的重心）来进行。其算法处理流程如下：a)随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心；对剩余的每个对象，根据其与

8、各个簇中心的距离，将它赋予最近的簇。b)重新计算每个簇的平均值，不断重复这个过程，直到准则函数收敛。通常，采用平方误差准则，其定义为 E=ki=1pci?Op-mi?O2。其中：E是数据库中所有对象的平方误差的总和；p是空间中的点，表示给定的数据对象；mi是簇ci的平均值（p和mi均是多维的）。这个准则试图使生成的结果簇尽可能地紧凑和独立。算法描述：K平均。划分的K平均算法基于簇中对象的平均值。输入：簇的数目k和包含n个对象的数据库。输出：k个簇，使平方误差准则最小。方法： a）任意选择k个对象作为初始的簇中心; b）repeat; c)根据簇中对象的平均值，将每个对象（重新）赋予最类

9、似的簇; d）更新簇的平均值，即计算每个簇中对象的平均值; e)until不再发生变化。该算法尝试找出使平方误差函数值最小的k个划分。当结果簇是密集的，而簇与簇之间区别明显时，它的效果较好。对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度是O(nkt)。其中：n是所有对象的数目；k是簇的数目；t是迭代的次数。通常k 2 对不确定数据的聚类算法分析 2.1 问题的分析本文介绍基于密度分布函数的聚类算法。该算法主要基于下面的思想： a）每个数据点的影响可以用一个数学函数来形式化地模拟，它描述了一个数据点在邻域内的影响，被称为影响函数（influence function）； b)

10、数据空间的整体密度可以被模型化为所有数据点的影响函数的总和； c）然后聚类可以通过确定密度吸引点（density attractor）来得到，这里的密度吸引点是全局密度函数的局部最大。假设x和y是d维特征空间Fd中的对象。数据对象y对x的影响函数是一个函数fBy,它是根据一个基本的影响函数fBy（x）=fB(x,y)来定义的。原则上，影响函数可以是一个任意的函数，它由某个邻域内的两个对象之间的距离来决定。距离函数d(x,y)应当是自反的和对称的，例如欧几里德距离函数。它用来计算一个方波影响函数（square wave influence function）: fsquare(x,y)=0 i

11、f d(x,y)1 otherwise 或者一个高斯影响函数fGauss(x,y)=d(x,y)2/22。在一个对象x(xFd)上的密度函数被定义为所有数据点的影响函数之和。给定n个数据对象，D=x1,xnFd，在x上的密度函数定义为fDB(x)= ni=1fBxi(x)。例如，根据高斯影响函数得出的密度函数是FDGauss(x)=ni=1-d(x,y)2/22。根据密度函数，能够定义该函数的梯度和密度吸引点（全局密度函数的局部最大）。一个点x是被一个密度吸引点x*的，如果存在一组点x0,x1,xk,x0=x,xk=x*,对0ik,xi-1的梯度是在xi的方向上。对一个连续的和可微的影响

12、函数，一个用梯度指导的爬山算法能用来计算一组数据点的密度吸引点。基于这些概念，能够形式化地定义中心定义簇（centerdefined cluster）和任意形状的簇（arbitraryshape cluster）。密度吸引点x*的中心定义簇是一个被x*密度吸引的子集C，在x*的密度函数不小于一个阈值；否则（即如果它的密度函数数值小于）它被认为是孤立点。一个任意形状的簇是子集C的集合，每一个是密度吸引的，有不小于阈值的密度函数值，并从每个区域到另一个均存在一条路径P，该路径上每个点的密度函数值都不小于。 2.2 算法介绍设S是V维向量xi的集合,这里i=1 to n表示数据记录的各属性值，每

13、个数据记录oi有个相应的密度概率函数(pdf) fi(x),这里fi(x)表示对象oi的属性值x 随时间t变化的关系。聚类的目的是找出聚类集C，其集合类Cj（这时j=1 to K）中每个数据元素具有相似性,不同类之间的数据元素具有较大差异。不同的聚类算法采用不同的目标函数，以找出高度相似的簇类。降低簇类内部的差别是指将属于Cj类的数据元素xi间的差距减小。在聚类过程中考虑到数据的非确定性，本文提出的算法思想是减小总均方误差的期望值E(SSE)（expected sum of squared errors）。需说明的是本文对数据对象xi采用在非确定区域内用非确定密度概率函数pdf f(xi)进

14、行描述。对给定的一个簇类, Cj的总均方误差值SSE采用式(1)计算： E(kj=1icjCj-Xi2=kj=1icjCj-Xif(xi)dxi（1）这里•是数据元素xi和一个簇cj的距离。簇按式(2)划分： Cj=E(1/cj icjXi)=1/cj icjxi f(xi)dxi（2）对非确定数据的聚类，本文提出的一种新K平均算法，叫做FK算法。算法如下： a)Assign initial values for cluster means c1 to cK b)repeat c)for i = 1 to n do d)Assign each data xi to clus

15、ter Cj where E(cj-xi) is the minimum e)end for f)for j= 1 to K do g)Recalculate cluster mean cj of cluster Cj h)end for i)untilconvergence j)return C FK算法与传统的K平均算法的主要不同在于数据距离的计算方法和簇的聚类方法。FK算法计算均方误差的期望值和簇的质点是建立在非确定数据模式上的，算法的收敛可按不同的标准来要求。在d)步中, 对代数式E(cj-xi)的确定比较困难，尤其是非确定数据域的几何形状（线条域、圆形域等）的确定；同时，不同的非确

16、定数据密度概率函数pdf f(xi)采用不同的积分方式也是必要的，这里采用的是期望值差的平方E(cj-xi2), 主要是这样处理比较方便。 3 FK聚类算法在运动物体分析中的应用 FK算法的主要优越性在于可应用于任何非确定数据和密度概率函数。这里介绍FK聚类算法物体在二维空间不确定运动模式分析中的应用。根据文献1,4,有两种不确定的运动模式，即线性运动和自由运动。在线性运动中，假设一个物体以小于Vmax速度沿一个固定方向运动,但不确定的线性运动模式可能是单向的或双向的。非确定的自由运动模式假设运动对象在某区域内以小于Vmax的速度运动。设物体运动的初始位置是(h,k)，初始时间是t0, 物体

17、位于以半径为Vmax •(t-t0)的圆圈内，假设这里有一个质心c=(p, q)，线段的端点是(a,b)和(c,d)，则直线方程可以用两点(a+t(c-a),b+t(d-b)确定，这里t取值为 0,1，非确定数据密度概率函数pdf为f(t),同时线段的距离可表示为D=(c-a)2+(d-b)2则有： E(c-x2)=10f(t)(D2t2+Bt+c) dt（3）这里B=2(c-a)(a-p)+(d-b)(b-q),C=(p-a)2+(q-b)2。若f(t)是相同的,使其归一化成为f(t)=1, 则上式变为 E(c-x2)=d2/3+b/2+c（4）对非确定的自由运动模式,假设有

18、一个质心c=(p,q)和一个数据对象x在圆的不确定区域范围内，圆中心为(h,k)半径为R，且圆的非确定数据密度概率函数为f(r,)。那么有 E(c-x2)=R020f(r,)(A cos +B sin +c)ddr 其中：A=2r(h-p)；B=2r(k-q)；C=r2+(h-p)2+(k-q)2。这样较方便地计算出不确定的两种运动模式，即线性运动和自由运动的距离平方期望值。这里限定同样的运动区域只是作为样例来介绍。当数据密度概率函数是个变化函数(如高斯函数等)时，可采用相同的方法计算E(cj-xi)。 4 实验在本文实验中，模仿一个游戏情节，对一组运动对象的运动轨迹进行了快照记录，这

19、些存储在数据库记录中的位置数据标记为recorded，每个运动对象按不确定运动模式运动的数据本文标记为uncertainty。本文比较了两种聚类算法：a）应用K平均算法分析recorded数据；b)应用FK算法分析recorded+uncertainty数据。首先在100200的二维空间内抽取一组随机数据称为recorded数据；然后对每个数据点根据选定的不确定运动模式抽取其数据，称为uncertainty数据，同时也将模仿的游戏情节中运动对象的实际位置数据记录下来，称为actual数据。进而从下面的数据能计算和比较出聚类结果：a)recorded(用K平均算法分析)；b)recorded+uncertainty(用FK算法分析)；c)actual(用K平均算法分析)。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种不精确数据挖掘方法

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：一种不精确数据的聚类挖掘方法.doc
链接地址：https://www.31doc.com/p-1591926.html