书签分享收藏举报版权申诉 / 58

立即下载加入VIP免费专享

当前位置：首页 > 高中教育 > 最近邻分类的若干改进算法研究.pdf

最近邻分类的若干改进算法研究.pdf

上传人：椰子壳

文档编号：3582393

上传时间：2019-09-13

格式：PDF

页数：58

大小：2.02MB

《最近邻分类的若干改进算法研究.pdf》由会员分享，可在线阅读，更多相关《最近邻分类的若干改进算法研究.pdf（58页珍藏版）》请在三一文库上搜索。

1、硕士论文最近邻分类的若干改进算法研究目录摘要I A b s t r a c t I I 目j 录I H l 绪论1 1 1 模式分类的研究意义1 1 1 1 模式分类的地位1 1 1 2 分类算法的应用3 1 2 模式分类算法综述。5 1 2 1 贝叶斯分类方法5 1 2 2 支持向量机分类方法5 1 2 3 最近邻分类方法6 1 2 4 多种分类方法融合方法8 1 3 本文研究工作概述8 1 4 本文的内容安排8 2 最近邻分类的改进算法1 1 2 1 引言1 1 2 2 目前基于最近邻的改进算法1 l 2 2 1 基于稀疏表示的K N N 改进算法1 1 2 2 2 基于中心的K N

2、 N 改进算法13 2 2 3 基于S V M 的K N N 改进算法15 2 2 4 基于属性值的K N N 改进算法1 7 2 2 5 基于特征加权的改进算法18 2 2 6 布尔序列的一种K N N 改进算法1 8 2 3 本章小结1 9 3K 最近邻均值算法2 1 3 1 引言21 3 2 传统呵N 及其不足2 1 3 2 1K 最近邻算法2 l 3 2 2K - 最近邻的不足2 2 3 3 局部均值算法2 3 3 4K 最近邻均值算法2 4 I I I 目录硕士论文 3 5K 最近邻均值算法的优点2 5 3 6 试验与分析2 6 3 6 1 引言2 6 3 6 2 在N U S T

3、6 0 3 H W 上的试验2 6 3 6 3 在C E N P A R M I 上的试验2 9 3 6 4 试验分析3 2 3 7 本章小结3 3 4K _ 最近邻回归分类算法3 5 4 1 引言3 5 4 2 最近邻线、最近邻面算法。3 5 4 3 最近邻子空间算法3 6 4 4 线性回归分类算法。3 8 4 5K 最近邻回归分类算法3 8 4 6 试验与分析3 9 4 6 1 引言。3 9 4 6 2 在Y a l eB 上的试验：一3 9 4 6 3 在F K P 上的试验4 1 4 6 4 在A R 上的试验4 2 4 6 5 在O R L 上的试验4 3 4 6 6 试验分析4 4

4、 4 7 本章小结4 5 5 全文总结与展望4 7 5 1 工作总结4 7 5 2 工作展望4 7 垂i 谢。4 9 参考文献5 1 附j 录5 5 I V 硕士论文最近邻分类的若干改进算法研究 1 绪论 1 1 模式分类的研究意义 1 1 1 模式分类的地位随着科学技术的发展，模式识别已经成为人们日常生活中经常用到的技术手段。从 1 9 4 0 年代计算机的出现，到1 9 5 0 年代人工智能的崛起，人们越来越多的使用计算机的智能功用来代替人脑。模式识别( P a t t e mR e c o g n i t i o n ) 是指对表征事物或现象的各种形式的( 数值的、文字的和逻辑

5、关系的) 信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分L l l 。有两种基本的模式识别方法，即统计模式识别方法和结构( 句法) 模式识别方法，与此相对应的模式识别系统都有两个过程所组成，即设计和实现；设计是指用一定数量的样本( n q 做训练集或学习集) 进行分类器的设计，实现是指用所设计的分类器对待识别的样本进行分类决策【2 】。通常我们研究的都是基于统计方法的模式识别系统，其基本过程如下：将研究对象经过测量和量化，变成计算机可以计算的符号，比如矩阵或向量。然后经过预处理，其目的是去除噪声，加强有用信息并且对于输入或

6、者其他因素造成的干扰进行修复。接着对测量空间进行变换，抽取最能反映分类特征的维数较低的特征空间。最后利用统计方法确定的判决规则把被识别样本进行分类，使得错误识别率最小。具体主要有4 个部分组成：数据获取，预处理，特征提取和选择，分类决策【l 】，如下图所示。图1 1 模式识别的组成 l 绪论硕士论文下面简单说明下各个部分。 1 信息获取我们使用计算机能够计算的符号去表示所研究的事物，以便它对所研究的各种对象能够进行分类识别。一般情况下，有以下三种输入对象的信息类型： ( 1 ) 二维图像：如文字，指纹，地图，照片等。 ( 2 ) 一维波形：如脑电图，心电图，机械振动波形等。 (

7、 3 ) 物理参量和逻辑值：物理参量比如在工业生产中产品的大小和各种属性数据等；逻辑值比如对于某个指标是否合格的判断或者对于具体特征的描述，例如是否需要外包装，是否易碎等，可用逻辑值0 来表示“是”且用1 来表示“否”。现在很多系统中，也引入了模糊逻辑的概念，除了0 和1 之外还可以使用模糊逻辑值来表示，例如有点疼，特别疼等等。为了使机器( 也包括人) 能够辨认，我们通过测量采样和量化，把二维图像或者一维波形用矩阵或向量表示。这就是信息获取的过程。 2 预处理对原始数据进行预处理是为了降低其噪声，突出加强有用的信息，在数据获取时，经常出现一些退化现象( 例如输A 澳J J 量仪器

8、的不精确或者其他因素所造成的影响) ，预处理就是对这些退化现象进行复原，为下面的特征抽取和分类做准备，以便获得更好的结果。这就是预处理的过程。 3 特征提取和选择一般待测对象的数据量是比较大的，常常动辄几千个、几万个，甚至上百万个数据，如果直接对这些数据进行识别，效率显然会比较低。为了更加有效的进行分类识别，我们只抽取得到最能反映分类本质的特征，利用这些特征就代替原始数据进行识别。这就是特征提取和选择的过程。目前比较主流的方法基本上都是基于整体的特征提取方法，例如主分量分析法 ( P C A ，又称为K - L 变化) ，线性鉴别分析( L D A ) 方法，基于独立分量分析(

9、I C A ) 的方法，基于神经网络的方法等等。 4 分类决策在特征抽取和选择之后，在特征空间确定某个判别规则，这个规则通常是用统计的方法，根据规则把被识别对象归为某一类别，其基本做法是：在经过特征抽取的样本训练集上，对待测样本进行分类，利用某个分类判别规则使得误分类率尽可能的小。这就是分类决策的过程。随着模式识别的应用不断加深扩宽，对其研究的热潮也在随之升温。模式分类作为模式识别中的一个重要环节，一直以来都是学者们重点研究的对象。模式分类是一种机器学习程序，因此归为人工智能的范畴中。人工智能的多个领域，包括数据挖掘，专家系统，模式识别都用到此类程序。分类算法的好坏，直接影响着

10、分类的正确率及时间空 2 硕+ 论文最近邻分类的若f ：改进算法研究间效率。因此，对于分类算法的研究更加显得必要。 1 1 2 分类算法的应用在1 9 6 0 年代以前，模式识别更多地贡献在以统计学为主的理论研究。计算机诞生后，模式识别实际应用的能力不断增强，从而促进了分类算法的发展和应用。经过多年的研究和发展，分类算法己广泛被应用于各个方面：比如智能系统、计算机视觉、生物信息学、海洋探测、航空航天技术、工业生产、安全监控、科学理论研究等许多重要领域。分类算法的不断创新改进，使得人们的生活生产都得到了切实的促进，从而提高了国家的整体经济国防实力。分类算法应用广泛，下面介绍几种比

11、较流行的应用，图1 2 依次为字符识别、语音识别、人脸识别、指纹识别、细胞识别和掌纹识别。图1 2 儿种常见的分类应用 1 字符识别字符识别是分类算法应用的重要分支，处理的信息可分为两大类：第一类是印刷体字符识别，主要处理各种印刷字体，包括汉语、英语、R 语、韩语、阿拉伯数字等各个国家民族的语言和文字，由于印刷体字符识别发展时间较长，目前使用的技术也比较完善，市面上已有不少趋于成熟的应用系统；另一类是手写体字符识别，典型的商业应用如银行支票的识别，邮政编码的识别，及统计报表、财务报表的识别等等，这满足了人类技能接口的需求，同时也获得了巨大的商业利益。 2 语音识别 1 绪论硕

12、十论文语音识别是分类算法的另一个研究领域。语言是人类最普遍的沟通交流方式，因此，能够建立语音识别的智能机器将会带来莫大的便利与利益。近几年来，生物识别技术领域不断发展，人们对日常生活和工作中的安全要求也不断提高，将语音识别应用到需要门禁监控，人员验证的场景中，不仅提供了准确便捷的安全保证，也节省了人力成本增加经济效益，因此越来越受到人们的关注。 3 人脸识别人脸识别可谓分类算法应用的重要组成部分。人脸识别技术是一门多学科交叉的技术，它涉及到计算机视觉、图像处理、模式识别、心理学、生理学、人工神经网络等多个研究领域。人脸识别技术是以计算机为辅助手段，将静态图像或视频图像和数据库中

13、的人脸图像进行对比，从中识别出对应的人脸，从而达到身份识别的最终目的。目前广泛应用于智能门禁，安检系统等。 4 指纹识别指纹识别是分类算法继人脸识别之后又一新的应用。人的皮肤有三部分组成，分别是表皮、真皮和皮下组织。指纹就是表皮上突起的纹线，总体可以划分成如下几种类型：一种叫斗形纹，另一种叫箕形纹，还有弓线纹等等。世界上没有指纹完全相同的两个人，于是我们利用这种特性，可以进行身份识别等应用。 5 细胞识别细胞识别作为新兴的一个应用，目前在识别技术中引起广泛讨论。过去，我们只能通过望闻问切等古老手段对疾病进行诊断，后来虽然有了先进的仪器和技术，但是仍然主要依赖人的经验进行判断，

14、难免出现误判错判的情况，这是因为医疗数据较难解释并且解释结果过分依赖医生的经验；现在，我们利用计算机技术对疾病进行自动识别，通过一系列疾病的研究和分析去总结归纳疾病的病因，建立研究医疗方案系统，抽取疾病特征并且确定分类规则，还可以持续观测医疗疗效泳衣反馈，最终实现错误诊断率的降低。 6 掌纹识别掌纹包含屈肌线( P r i n c i p a ll i n e ) 、褶皱线( W r i n k l e ) 、三角点( D e l t ap o 硫) 、脊线细节点( M i n u t i a e ) 等特征。屈肌线的形状和空间信息是掌纹中最明显最突出最稳定的特征。褶皱线是比屈肌

15、线细的直线或曲线且不规则。手掌中三角区域有一些中心点，叫做三角点。脊线细节特征是指类似指纹的细小规则的纹路。高分辨率( 4 0 0 d p f ) 图像能够获得上述全部特征，可用于刑侦侦查；而低分辨率( 1 0 0 d p i ) 图像只能获得主线、褶皱等，统称为线特征，更适合用在商业与公共场合下。掌纹具有唯一性，即使双胞胎的掌纹特征也不相同。因此，近年来模式识别已经将掌纹特征列入研究，并越来越受关注。 4 硕士论文最近邻分类的若干改进算法研究 1 2 模式分类算法综述模式分类能力其实很早就被人们所掌握应用，生活中最简单的对人类性别、动物种类的分类，工作中繁琐多样的对事物属性、人

16、际关系的分类，研究中抽象复杂的对公式结果、文子图像的分类我们几乎无时不刻都在进行模式分类。在进入信息时代之后，人们很自然地试图利用计算机进行分类。在这个过程中，我们发现，需要为计算机指定一个方法( 即分类决策函数) ，并建立反映该方法优劣的指标才能进行识别，而这个方法的选取并不像人们以为的那样简单，这就使得分类算法成为一个研究方向。新分类方法的不断涌现，加上传统分类方法的进一步发展，使得分类方法向着更加高级、更加综合化和更加多样化的方向发展。 1 2 1 贝叶斯分类方法贝叶斯( B a y e s ) 分类是一种用概率统计进行分类的分类方法，根据贝叶斯定理来预测一个未知类别的样

17、本的可能属性，并且将该样本归类为可能性最大的那个类别。但是应用贝叶斯分类法必须假设各个样本类别中特征属性的取值是相互独立的，而且必须满足一定的条件：即各类别总体的概率分布是已知的，被决策的分类数是一定的 3 1 。由于这个条件在实际情况中经常不能达到，所以其分类的准确率受到影响。基于最小错误率的贝叶斯决策规则，和基于最小风险的贝叶斯决策规则，是两种常用的贝叶斯分类规则【2 】。目前也出现了许多贝叶斯改进分类算法，比如降低独立性假设的T A N ( t r e ea u g m e n t e db a y e sn e t w o r k ) 算法【4 J 。该算法发现了属性对之间的

18、依赖关系，并且利用该关系来降低朴素贝叶斯( N a i v eB a y e s ) 算法中任意属性之间独立的假设，跟朴素贝叶斯网络相比，它在网络上增加了属性对之间的关联。其方法是：属性用结点来表示，属性之间的依赖关系用有向边来表示，根结点为类别属性，其子节点即为它剩余的所有属性，属性彳，对类别变量C 的影响取决于属性4 ，用属性A 与西之间的边来表示。 T A N 算法考虑了甩个属性中两两属性间的关联性，尽可能地降低了属性之间独立性的假设，但没有考虑属性之间可能存在更多的其他关联性，因此，其适用范围仍然受到限制。此外，还出现了贝叶斯信念网络、半朴素贝叶斯算法、B A N 算法等多

19、种改进算法【5 1 ，但贝叶斯分类算法学习是很困难的，有些研究已经证明其学习属于N P c o m p l e t e 问题。 1 2 2 支持向量机分类方法 1 9 9 5 年，C o r i n n aC o r t e s 和V a p n i k 提出支持向量机( S u p p o r tV e c t o rM a c h i n e ，S V M ) 理论，用来解决二分类问题。它基于结构风险最小化原则，具体过程为：首先在向量空间中寻找一个决策面，这个面能够最好地分割两个分类中的数据点；支持向量机的原理是通过一个事先选择的非线性映射将一个线性不可分的空间映射到一个高维的线性可

20、分的空间，在这个空间利用结构风险最小化原则构造最优分类超平面，使两类模式之间 5 1 绪论硕士论文的空白最大1 6 J 。支持向量机是一种有效的数据挖掘工具，主要用于进行分类、聚类和时间序列分析。但是，随着数据集的增大，S V M 的训练时间也会跟着增加，所以S V M 往往需要较长的训练时间去处理大规模数据集。但在实际的应用中，经常出现大规模数据的情况，这就使得S v 】受到局限。针对这个问题，文【7 t 8 】的基本思想是选择- d , 部分最有代表性的数据来代替整个训练数据集，使得学习效果最大化，用选择性采样或者主动学习方法来训练S V M 。随机采样 g A o 】也

21、是与主动学习思想类似的方法，这两种方法都需要多次对数据集进行扫描。与这两种方法不同，文【1 1 】层次聚类( h i e r a r c h i c a lc l u s t e r i n g ) 跟S V M 相结合，使得S V M 对大规模数据的处理速度加快。文中所提出的新方法称C l u s t e r i n g B a s e dS V M ( C B S V M ) ，C B S V M 用一个层次微聚类( h i e r a r c h i c a lm i c r o c l u s t e r i n g ) 算法对整个数据集进行单遍扫描，为支持向量机提供高质量的样本，

22、该样本带有整个数据集的统计概要信息。另外，为了解决实际应用中数据集大小动态变化的问题，F u n gG 和M a n g a s a d a n O L 【1 2 1 提出了增量式S V M ，新提出的方法用于二分类问题。文【1 3 1 在文【1 2 】的基础上，提出了一种支持多分类问题的有效算法，该算法是一种基于内存的增量算法。 1 2 3 最近邻分类方法最近邻规则是一个最古老，最简单也是最重要的模式识别和类别推理的方法之一。如今最近邻规则已被广泛利用各种人工智能的问题，如模式识别，数据挖掘，后验概率的估计，基于相似性的分类，计算机视觉和生物信息学等。最近邻的发展涉及各个方面，

23、从算法创新到理论分析，还有跟可视化的结合。给定一个样品集U ，用一些输入变量C ( t g 称为条件属性，特征) 和输出变量D ( 分类决定) 来进行描述，分类学习的任务是在训练样本集的基础上构建从特征到分类的映射。最流行的学习和分类技术之一是最近邻搜索，是F i x 和H o d g e s ( 1 9 5 1 ) 提出的。它已被证明是一个简单但功能强大的识别算法。1 9 6 8 年，C o v e r 和H a r t 提出了最初的近邻法 2 1 。最简单的近邻决策规则是最近邻决策规则。所谓最近邻决策，是寻找与待测样本最近的已知样本，认为待分类样本与后者同属一类。最近邻分类器因

24、其简单高效性而成为广泛应用的分类器之一，由此也引发了相当大的研究兴趣。 K 最近邻分类算法( 以下简称为K N N ) 是最近邻法的一个推广，也是在实践中比较流行的一种分类方法。该算法将最近邻中取最近邻的1 个样本扩展为K 个，在这K 个样本中，哪个类的样本多，就把待测样归为哪个类。较最近邻算法，K N N 利用了更多的测试样本，可以获得更好的B a y e s 估计的错误率，其错误率趋近于最优贝叶斯的错误率 ( D u d a 和H a r t ，1 9 7 3 ) 。 6 硕士论文最近邻分类的若干改进算法研究 K N N 是一种有效的分类方法，直到现在仍然是学者们研究的热点。但是它

25、有两个最大的缺陷：第一，对于大规模数据集进行分类时，由于要存储所有的训练实例所以效率不高；第二，对于k 值选择的好坏直接影响到K N N 分类的效果。于是，一系列的改进算法被相继提出来处理这些问题。 O w e n 于1 9 8 4 年提出了一种分类方法，它使用所有近邻中的数据点信息，对近邻的中心点进行分类。这种基于近邻的分类算法在处理一些陆地卫星数据时的性能超越线性判别分析。S a l z b e r g 在1 9 9 1 年提出了基于嵌套广义模块( n e s t e dg e n e r a l i z e d e x e m p l a r s , N G E ) 的学习算法

26、，这里一个模块是一个单独的训练集，广义模块是一个轴平行的超矩形，这个超矩形可能包括若干个训练集。一旦广义模块被学习，就可以通过计算测试样本和每个广义模块的欧氏距离将测试样本分类。如果一个样本属于广义模块，则它到广义模块的距离为零，和广义模块最近的那个类作为测试样本的类别。 1 9 9 5 年，W e t t s c h e r e c k 和D i e t e r i c h 把N G E 和K N N 算法相比，发现在大多数情况下，K N N 优于N G E 。然后一些基于N G E 的改进版本被提出，被称为N O N G E ，B N G E 和O B N G E 。其中N O N

27、 G E 不允许重叠的矩形，而是保留嵌套的矩形，且普遍优于N G E ，而O B N G E 是一个批处理算法，采用改进的搜索算法：不允许嵌套矩形( 但允许重叠的矩形) ，少数情况下优于N G E 而多数情况比N G E 差；B N G E 作为N O N G E 的批次版本是非常有效的，且不需要用户调整参数。他们还指出以下问题还需要进一步研究，即改进类似N G E 的算法，使其可以非轴平行的超矩阵情况下具备鲁棒性。 G o n g d eG u o 和H u iW a n g 等人【1 4 】提出了一种基于K N N 类型的分类方法，称为基于 K 最近邻模型的分类方法。该方法针对K

28、N N 的两个缺陷提出解决对策，首先将原数据集替换成K N N 模型的构造数据集，并以此作为分类的基础，这样便解决了要存储所有的训练实例的问题；其次，新方法中减少了对k 值的依赖，根据不同的数据集自动选择 k 值，这样便解决了过分依赖k 值的问题，不仅提高了分类速度，而且精确度也有所提高。通过实验我们看到，在分类精确度上，基于K N N 模型的分类方法与C 5 0 和标准的 K N N 不相上下。这种方法也被应用于文本分类，并且也取得了成功【1 4 J 。除此之外，N o n gY e 和X i a n g y a n gL i t ”】将聚类方法用于经典的K N N 方法，提出了另

29、一种改进的分类方法，该方法也是针对K N N 方法的第一个缺陷，称为C C A S l l 引。 C C A S 既有优点又有不足，优点是能够处理大规模数据集的情况，支持增量式学习，可伸缩性好。但是C C A S 只能针对两类的分类问题，而且只能处理连续属性的情况，造成使用时的局限性。如何让C C A - S 能够处理多类别的情况是下一步要去研究的问题。文【1 6 】是一种基于K N N F u z z y 的优化方法【l 刀，该方法通过遗传算法来寻找最优的k 值，使得分类精确度得到提高。文【1 8 】提出了一种新的K 最近邻分类方法，该方法基于模糊粗集理论，与传统的最近邻和f u

30、z z y 最近邻相比，此方法在预测精准性上有更佳的表现。 7 l 绪论硕士论文 1 2 4 多种分类方法融合方法在实际应用中，由于数据的多样性、复杂性，使得单一的分类方法不能发挥其功效。因此对于多种分类方法的融合方面的研究，就显得十分必要，这些引起了学者们的广泛关注，并且取得了一系列的研究成果，总结归纳为以下几类：投票机制( v o t i n g ) 、行为知识空间方法( B e h a v i o r - K n o w l e d g eS p a c eB K S ) 、证据理论( D u m p s t e r - S h a f e rt h e o r y ) 、贝叶

31、斯方法和遗传编程( g e n e t i cp r o g r a m m i n gG P ) ；采用投票机制的方法主要有装袋( b a g g i n g ) 和推进( b o o s t i n g ) 1 9 2 3 1 。 1 3 本文研究工作概述本文主要关注的是对的K 最近邻分类器的研究，以及基于K 最近邻的改进算法研究。主要内容归纳如下： ( 1 ) 本文首先概述了分类算法的地位及应用，对模式分类算法进行了综述，着重介绍了贝叶斯，支持向量机，最近邻和多种分类方法的融合； ( 2 ) 接着对现有基于K 最近邻改进算法进行了详细的归纳，着重介绍了基于稀疏表示、基于中心、基于

32、支持向量机、基于属性值、基于特征加权、基于布尔序列六种K 最近邻改进算法，并且分析其优劣； ( 3 ) 针对传统K N N 的不足和局部均值算法无法处理非均衡数据的弱点，提出了K _ 最近邻均值算法。在N U S T 6 0 3 H W 手写体汉字库和C E N P A R M I 阿拉伯数字库上的实验结果表明：K - 最近邻均值算法在识别率上高于传统K N N 算法，并且在非均衡数据下比局部均值算法具有更优的分类性能； ( 4 ) 提出了一个K - 最近邻回归分类算法，该算法充分利用K - 最近邻的结构信息，弥补了K N N 的不足。在Y a l eB ，F K P ，A R 和O

33、R L 四个数据库的实验结果表明：所提出的K - 最近邻回归分类算法由于传统的K N N 算法、最近邻子空间算法和线性回归算法。 1 4 本文的内容安排本文的内容分5 章进行展开。第一章首先概述了分类算法的地位及应用，对模式分类算法进行了综述，着重介绍了贝叶斯，支持向量机，最近邻和多种分类方法的融合，最后介绍了本文研究的主要工作。第二章展现了本文的前期准备工作部分。我们在该章回顾了现有基于K N N 改进算；第三章首先回顾了传统K N N 和局部均值算法，然后提出了K - 最近邻均值算法。在试验中，我们分别在两种特征提取方法的两个数据库上进行试验，并且跟K N N 及局部均值

34、算法对比，得到了较好的试验结果，并给出一定的结论分析。硕士论文最近邻分类的若干改进算法研究第四章提出了K 最近邻回归分类算法。在所有训练样本中取与待测样本最近邻的 K 个样本；然后用这K 个样本重构待测样本，并计算重构系数使得重构误差最小；最后分别计算这K 个样本中每个类的样本与待测样本的重构误差，并将样本归为重构误差最小的那一类。在后续的四个试验中可以看到传统的K N N 算法已经不能很好地适用于此，从而造成识别率不高的情况。第五章总结了已经完成的工作，并且对未来的工作和对课题的研究前景进行了展望。 9 l 绪论硕士论文 1 0 硕士论文最近邻分类的若干改进算法研究 2 最近邻

35、分类的改进算法 2 1 引言上一章我们概述了分类算法的地位及应用，并且对模式分类算法进行了综述，着重介绍了贝叶斯，支持向量机，最近邻和多种分类方法的融合。最近邻算法发展至今，涌现了许多改进算法。本章各节我们主要阐述几种现有基于K N N 的改进算法，为后续工作做准备。 2 2 目前基于最近邻的改进算法假设我们给定一个训练数据集，X = 五，屯，，薯R ，相应的类标为 Y = 轨，Y 2 ，靠) ，咒 q ，c 0 2 ，) 。给定一个待测样本X ，K N N 规则首先确定在m 个训练样本中的K 个最近邻，计算属于蛾类的个数岛，然后把x 归类到第，类，这里哆，乃= m a ，x

36、k f 。为了提高K N N 的计算或分类性能，提出了一系列改进：原型压缩，距离测量，加权等方法。原型压缩技术利用过滤，抽取特征，或者组合的方法，从原来的训练样本集中选取有代表性的少量数据集。快速最近邻分类方法通过有效地利用度量结构和硬件资源进行了研究，距离测量方法输出分类判别能力更佳的矩阵或度量，加权最近邻方法对不同的特征或者不同的近邻赋予不同的权值。在这里，我们重点介绍以下几种基于K N N 的改进算法。 2 2 1 基于稀疏表示的K N N 改进算法稀疏表示分类器( S R C ) 在模式分类上很具潜力，但是其运行速度相对较慢。稀疏表示分类器将测试样本用所有训练样本稀疏表

37、示，根据稀疏系数计算测试样本与每类训练样本的剩余量，确定训练样本的分类。结合二者各有优势不足，张楠，杨健提出K 近邻局部稀疏表示分类器【2 4 】。此方法结合K 近邻方法和稀疏表示分类方法，选取测试样本的K 个最近邻，根据该局部训练样本对测试样本进行稀疏表示，根据稀疏系数计算测试样本与每类并属于测试样本K 近邻训练样本的剩余量来确定测试样本的类别。稀疏表示算法 J W r i g h t 提出了稀疏表示分类方法【2 5 l 。稀疏表示分类的基本思想就是将给定的测试样本表示为训练样本的稀疏线性组合。在理想情况下，测试样本的非零稀疏表示系数应该集中于同一类别的训练样本上。最稀疏解由零

38、范数优化问题求得，然而这是一个 N P 难问题，甚至很难估算【2 酗。在稀疏表示分类器中，以l 范数来代替零范数优化问题。 2 最近邻分类的改进算法硕士论文稀疏表示分类方法被证明有效，特别是对人脸识别。稀疏表示分类器( S R c ) 简述如下：假设已知c 类，第f 类训练样本A ，有膨个元素， A s = 【石l ，石2 ，】R 删。彳由所有的训练样本组成，即 A = A l ，A 2 ，A c 】R 州，其中，M = 三。膨。给定测试样本y ，用训练样本作为基向量表示Y ，即Y = A W 。Y = A W 的最稀疏解由求解下式得到成= “叫l。，s，Aw=argminll A w

39、y( 2 1 ) W 2 叫l 。，s ， y L z 1J 其中，呲表示向量中非零元素的个数，即零范数。研究发现，对于确定的基，如果解或足够稀疏，求解该零范数优化问题等同于求解下面的l 范数优化问题：也= a r 缈i n l N I 。s ，A w = y ( 2 2 ) 得到稀疏解协后，我们可以设计一个稀疏表示分类器如下所述。对于每类i ，设 6 ，：R 斗R 为第f 类选择系数的特征函数。对于w R ，6 ，( w ) 是W 中与第f 类关联的重构系数组成的向量。只使用与第f 类关联的系数，重建给定的测试样本y ，即V = 筋r ( 惭) 。第f 类与矿与Y 之间的重构误差定

40、义为： ) = 0 y y ：= I l y - A S , ( 荫, , ) I I ： ( 2 3 ) 稀疏表示分类器的决策规则是：如果n ) = m i n n ( y ) ，那么判别Y 属于第J 类。稀疏表示分类器使用所有的训练样本稀疏来表示测试样本，它是一种全局的分类方法。 K N N 稀疏表示算法 K 近邻局部稀疏表示分类器的基本思想是：将K 近邻方法和稀疏表示分类方法结合，选取测试样本的K 个最近邻，根据该局部训练样本对测试样本进行稀疏表示，根据稀疏系数计算测试样本与每类并属于测试样本K 近邻训练样本的重构误差确定测试样本的类别。设彳是来自c 类的训练样本集，使用K 近

41、邻方法以测试样本Y 在训练样本彳里选取 K 个最近邻，在第f 类中并属于K 近邻的共有尼个，定义为五i l y 彳n ，彳，其中 K - + K 2 + + 尼= K 。并且慰可能等于零。有K 个近邻组成训练样本j ，稀疏表示测试样本y ，如下： m i H Is t Y = A w ( 2 4 ) 鉴于足的选取，K 个近邻有不能完全表示测试样本y 的可能，有两种方式使得我们的方法可行，如下： m i n l l 叫l 。s t I l J ，彳叫I ：tg ( 2 5 ) m i n l l 叫l 。+ 60 y 五圳： ( 2 6 ) 由上式求得测试样本y 的稀疏表示，。最后按照下式对

42、测试样本分类， 1 2 硕士论文最近邻分类的若干改进算法研究 m i n l l Y - 盈1w f l 以2 w 2 。一吨I l ，这里f _ l ，2 ，c ， ( 2 7 ) K I + K 2 + + 心= K 其中w f ，J = 1 ，2 ，K 是指K 近邻中属于第f 类第，个系数，j 驴是指K 近邻中属于第f 类第，个训练样本。如果第i X 训练样本彳，求得的重构误差( 2 7 ) 最小，即判断为该测试样本y 属于第 i X 。把这种方法称为K 近邻局部稀疏表示分类器，该分类器具有以下优点：首先，稀疏表示分类器分类时采用全体训练样本，而K 近邻局部稀疏表示分类器是选取训练样本中的K 个最近邻，仅用K 近邻局部稀疏表示测试样本，K 近邻局部稀疏表示分类器时间复杂度远远小于稀疏表示分类器，所以计算速度较稀疏表示分类器快很多。更重要的是，由于稀疏表示分类器采用全体训练样本，就有可能将测试样本稀疏表示为与其距离较远的部件样本的线性组合，造成误分类。而K 近邻局部稀疏表示分类器先行选取训练样本中的K 最近邻，距离测试样本较远的部件样本将被排除在外，也就避免了稀疏表示分类器上述误分类的情况。 2 2 2 基于中心的K N N 改进算法模式分类是人工智能等领域一个基本问题。问题一般可描述如下：N 个已知类别的训练样本，可划分为C 类，

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 近邻分类若干改进算法研究

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：最近邻分类的若干改进算法研究.pdf
链接地址：https://www.31doc.com/p-3582393.html