文本分类过程PPT课件.ppt
《文本分类过程PPT课件.ppt》由会员分享,可在线阅读,更多相关《文本分类过程PPT课件.ppt(18页珍藏版)》请在三一文库上搜索。
1、文本分类Contents目录01文本分类概述02文本分类过程第一部分文本分类概述01文本分类概述互联网使得信息的传播速度以及规模达到了空前的水平。“信息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确获取所需要的信息变得非常困难。当前的知识信息主要以文本作为载体,大部分文本信息以非结构化或半结构化的形式存在,如电子邮件、电子文档以及电子档案等,它们不易被机器理解也不可能完全依靠人工进行管理。因此,采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要。01文本分类概述文本分类技术(Text Categorization,TC)作为组织和管理文本信息的有效手段,主要任务是自动分类无
2、标签文档到预定的类别集合中。文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别时事先定义好的,因此分类是有监督的。01文本分类应用领域自动文本分类技术应用于数字图书馆不但可以节省大量的人力、物力,还可以提高图书分类的准确率,减少冗余资料的数量,提高图书管理系统的服务性能。数字图书馆 文本分类技术最早应用于信息检索领域,它通过将数字信息按照特定的方式进行组织、存储,把其中主题内容相近的数字信息按照主题层次归纳整理到一起,进而有效地提高了检索的查准率。信息检索 对获取的信息进行二分类的处理,即将用户需求的信息过滤出来,发送给用户;将用户不感兴趣、不需要的不良信息、
3、反动信息等过滤掉。垃圾邮件过滤、新闻选择以及手机信息过滤等都是信息过滤的典型应用。信息过滤 第二部分文本分类过程Contents目录01数据预处理02中文分词03特征表示04特征选择05分类器训练数据预处理中文分词特征表示特征选择分类器训练p现实世界中数据大体上都是不完整,不一致的数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。p数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理中文分词特征表示特征选择分类器训练p分词是将文本处理为独立
4、的特征,即切分成词,主要针对东方语言,如:汉语、阿拉伯语等,因为这类语言是整个句子连接在一起的,每个词(特征)之间不是独立的。对于西方语言,如:英语、法语等,这类语言的每个词之间都有空格相互分隔,也就不需要进行分词处理。p去除停用词,即的、了之类的没有实际意义的词。R语言支持用户对停用词表进行自定义。数据预处理中文分词特征表示特征选择分类器训练p文本不能被计算机识别,特征表示是指将实际的文本内容变成机器内部的表示结果。p特征表示有两个步骤,即特征表示与特征权重计算。特征表示指特征提取的方式;权重计算指将特征转换为语言相似度的权重值。数据预处理中文分词特征表示特征选择分类器训练p向量空间模型,在
5、向量空间模型(VectorSpaceModel,VSM)中,文档的内容被表示为特征空间中的一个向量。每条语料中的每个词对应一个数值,即每条语料对应一组数值,形成一个向量。p布尔模型,布尔模型本质上是向量空间模型的一种特殊表示形式,这种表示方式同样也是将文档表示为特征空间中的一个向量,主要区别为:第i个特征在文档中是否出现(出现的频率)采用“0”和“1”来代表,“0”代表特征在当前文档中没有出现,“1”代表特征在当前文档中出现。特征表示方法:特征表示方法:数据预处理中文分词特征表示特征选择分类器训练权权重重计计算方法:算方法:TF-IDF:TF-IDF函数用来表示特征函数用来表示特征项的重要程度
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 分类 过程 PPT 课件
