一些解决文本分类问题的机器学习最佳实践.doc

上传人：白大夫

文档编号：3362026

上传时间：2019-08-18

格式：DOC

页数：6

大小：28KB

《一些解决文本分类问题的机器学习最佳实践.doc》由会员分享，可在线阅读，更多相关《一些解决文本分类问题的机器学习最佳实践.doc（6页珍藏版）》请在三一文库上搜索。

1、一些解决文本分类问题的机器学习最佳实践编者按：文本分类是各类应用中的一种基础机器学习问题，近日，一篇关于文本分类的文章成功引起学界大牛和竞赛机构注意，让他们在twitter上争相转载。那么，它到底讲述了什么内容呢？考虑到原文过长，本文是其中的（上）篇。文本分类是一种应用广泛的算法，它是各种用于大规模处理文本数据的软件系统的核心，常被用于垃圾邮件识别及帮助论坛机器人标记不当评论。当然，以上只是文本分类的两种常规应用，它们处理的是预定义的二元分类问题。在多元分类任务中，算法分类主要基于本文中的关键词分类器标记垃圾邮件，并把它们过滤到垃圾邮件文件夹中另一种常见的文本分类是情感分析，它的目标是识别文本

2、内容积极与否：文字所表达的思想类型。同样的，这也是多元分类问题，我们可以采用二元的喜欢/不喜欢评级形式，也可以进一步细化，如设成1星到5星的星级评级。情感分析的常见应用包括分析影评，判断消费者是否喜欢这部电影，或者是分析大型商场的评论，推测普通大众对某个品牌新产品的看法。本指南将介绍一些解决文本分类问题的机器学习最佳实践，你可以从中学到：用机器学习解决文本分类问题如何为文本分类问题挑选正确的模型如何用TensorFlow实现你选择的模型文本分类流程第一步：收集数据第二步：探索数据第2.5步：选择一个模型第三步：准备数据第四步：构建、训练、评估模型第五步：调整超参数第六步：部署模型文本分类流程第

3、一步：收集数据收集数据是解决任何监督学习问题的最重要一步，数据的质量和数量直接决定着文本分类器的性能上限。如果你没有想要解决的的特定问题，或者只是对一般的文本分类感兴趣，你可以直接用已经开源的大量数据集。这个GitHub repo里可能包含不少你可以用到的链接：github/google/eng-edu/blob/master/ml/guides/textclassification/loaddata.py。但是，如果你有一个待解决的特定问题，你就得先收集必要数据。当然，有些数据是现成的，一些组织会提供访问其数据的公共API，比如Twitter API或NY Times API，如果有用，你可

4、以直接通过它们来解决自己的问题。以下是收集数据过程中的一些注意事项：如果使用公共API，请在使用前先阅读它们的使用限制，比如某些API会对你的访问速度设限。收集训练样本的量永远是越多越好，这有助于模型更好地概括。如果涉及分类，确保每个类的样本数量不会过度失衡，换句话说，每个类中都应该有相当数量的样本。确保你的样本可以覆盖所有可能的输入空间，而不仅仅是最常见的几种情况。在本指南中，我们将以斯坦福大学开源的大型电影评论数据集（IMDb）为例，说明整个本文分类流程。该数据集包含人们在IMDb网站上发布的电影评论，以及评论者是否喜欢电影的相应标签（“positive”或“negative”）。这是用于

5、情绪分析问题的一个经典数据集。第二步：探索数据构建、训练模型只是整个流程的一部分，如果事先能了解数据特征，这会对之后的模型构建大有裨益，比如更高的准确率，或是更少的数据和更少的计算资源。加载数据集首先，让我们将数据集加载到Python中：def load_imdb_sentiment_analysis_dataset(data_path, seed=123):Loads the IMDb movie reviews sentiment analysis dataset.# Argumentsdata_path: string, path to the data directory.seed:

6、int, seed for randomizer.# ReturnsA tuple of training and validation data.Number of training samples: 25000Number of test samples: 25000Number of categories: 2 (0 - negative, 1 - positive)# ReferencesMass et al., http:/aclweb/anthology/P11-1015Download and uncompress archive from:http:/ai.stanford.e

7、du/amaas/data/sentiment/aclImdb_v1.tar.gzimdb_data_path = os.path.join(data_path, aclImdb)# Load the training datatrain_texts = train_labels = for category in pos, neg:train_path = os.path.join(imdb_data_path, train, category)for fname in sorted(os.listdir(train_path):if fname.endswith(.txt):with op

8、en(os.path.join(train_path, fname) as f:train_texts.append(f.read()train_labels.append(0if category = negelse1)# Load the validation data.test_texts = test_labels = for category in pos, neg:test_path = os.path.join(imdb_data_path, test, category)for fname in sorted(os.listdir(test_path):if fname.end

9、swith(.txt):with open(os.path.join(test_path, fname) as f:test_texts.append(f.read()test_labels.append(0if category = negelse1)# Shuffle the training data and labels.random.seed(seed)random.shuffle(train_texts)random.seed(seed)random.shuffle(train_labels)return (train_texts, np.array(train_labels),(

10、test_texts, np.array(test_labels)检查数据加载完数据后，最好对其一一检查：选择一些样本，手动检查它们是否符合你的预期。比如示例用的电影评论数据集，我们可以输出一些随机样本，检查情绪标签和评论包含的情绪是否一致。“十分钟的故事非要讲两小时，要不是没什么大事，我早就中途起身走人了。”这是数据集中被标记为“negative”的评论，很显然，评论者觉得电影非常拖沓、无聊，这和标签是匹配的。收集关键指标完成检查后，你需要收集以下重要指标，它们有助于表征文本分类任务：样本数：数据集中的样本总数。类别数：数据集中的主题或分类数。每个类的样本数：如果是均衡的数据集，所有类应该包

11、含数量相近的样本；如果是不均衡的数据集，每个类所包含的样本数会有巨大差异。每个样本中的单词数：这是文本分类问题，所以要统计样本所包含单词数的中位数。单词词频分布：数据集中每个单词的出现频率（出现次数）。样本长度分布：数据集中每个样本的第2.5步：选择一个模型到目前为止，我们已经汇总了数据，也深入了解了数据中的关键特征。接下来，根据第二步中收集的各个指标，我们就要开始考虑应该使用哪种分类模型了。这也意味着我们会提出以下这些问题：“我们该怎么把文本数据转成算法输入？”（数据预处理和向量化），“我们应该使用什么类型的模型？”，“我们的模型应该实用什么参数配置？”得益于数十年的研究，现在数据预处理和模

12、型配置的选择非常多元化，但这么多的选择其实也带来了不少麻烦，我们手头只有一个特定问题，它的范围也很宽泛，那么怎么选才是最好的呢？最老实的方法是一个个试过去，去掉不好的，留下最好的，但这种做法并不现实。在本文中，我们尝试着简化选择文本分类模型的过程。对于给定数据集，我们的目标只有两个：准确率接近最高，训练时间尽可能最低。我们针对不同类型的问题（特别是情感分析和主题分类问题）进行了大量（450K）实验，共计使用12个数据集，交替测试了不同数据预处理技术和不同模型架构的情况。这个过程有助于我们获得影响优化的各个参数。下面的模型选择和流程图是以上实验的总结。数据准备与模型算法构建计算比率：样本数/单个

13、样本平均单词数如果以上比率小于1500，对文本进行分词，然后用简单的多层感知器（MLP）模型对它们进行分类（下图左侧分支）a.用n元模型对句子分词，并把词转换成词向量b.根据向量的重要程度评分，从中抽出排名前2万的词c.构建MLP模型如果以上比率大于1500，则将文本标记成序列，用sepCNN模型对它们进行分类（下图右侧分支）a.对样本进行分词，根据单词词频选择其中的前2万个b.将样本转换为单词序列向量c.如果比率小于1500，用预训练的sepCNN模型进行词嵌入，效果可能会很好调整超参数，寻找模型的最佳参数配置在下面的流程图中，黄色框表示数据和模型的准备阶段，灰色框和绿色框表示过程中的每个选

14、择，其中绿色表示“推荐选择”。你可以把这张图作为构建第一个实验模型的起点，因为它能以较低的计算成本提供较良好的性能。之后如果有需要，你可以再在这基础上继续改进迭代。文本分类流程图这个流程图回答了两个关键问题：我们应该使用哪种学习算法或模型？我们应该如何准备数据以有效地学习文本和标签之间的关系？其中，第二个问题取决于第一个问题的答案，我们预处理数据的方式取决于选择的具体模型。文本分类模型大致可分为两类：使用单词排序信息的序列模型和把文本视为一组单词的n-gram模型。其中序列模型的类型包括卷积神经网络（CNN）、递归神经网络（RNN）及其变体。n-gram模型的类型包括逻辑回归、MLP、DBDT和SVM。对于电影评论数据集，样本数/单个样本平均单词数约为144，所以我们会构建一个MLP模型。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一些解决文本分类问题机器学习最佳实践

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：一些解决文本分类问题的机器学习最佳实践.doc
链接地址：https://www.31doc.com/p-3362026.html