如何为文本分类任务选择正确的模型,这里有一个完整流程图!.doc
《如何为文本分类任务选择正确的模型,这里有一个完整流程图!.doc》由会员分享,可在线阅读,更多相关《如何为文本分类任务选择正确的模型,这里有一个完整流程图!.doc(6页珍藏版)》请在三一文库上搜索。
1、如何为文本分类任务选择正确的模型,这里有一个完整流程图!谷歌官方推出“文本分类”指南教程。为了最大限度地简化选择文本分类模型的过程,谷歌在进行大约450K的文本分类实验后,总结出一个通用的“模型选择算法”,并附上一个完整的流程图,非常实用。文本分类(Text classification)算法是大规模处理文本数据的各种软件系统的核心。比如,电子邮件软件使用文本分类来确定受到的邮件是发送到收件箱还是过滤到垃圾邮件文件夹;讨论论坛使用文本分类来确定用户评论是否应该标记为不当。下面是两个主题分类( topic classification)的例子,任务是将文本文档归类为预定义的一组主题。多数主题分类
2、问题要基于文本中的关键字。主题分类被用于标记收到的垃圾邮件,这些邮件被过滤到垃圾邮件文件夹中另一种常见的文本分类是情感分析(sentiment analysis),其目的是识别文本内容的极性(polarity):它所表达的观点的类型。这可以采用二进制的“喜欢/不喜欢”来评级,或者使用更精细的一组选项,比如从1颗星星到5颗星星的评级。情感分析的例子包括分析Twitter上的帖子,以确定人们是否喜欢黑豹电影,或者从沃尔玛的评论中推断普通大众对耐克新品牌的看法。这个指南将教你一些解决文本分类问题的关键的机器学习最佳实践。你将学习:使用机器学习解决文本分类问题的高级、端到端工作流(workflow)如
3、何为文本分类问题选择合适的模型如何使用TensorFlow实现你选择的模型文本分类的workflow以下是解决机器学习问题的workflow步骤1:收集数据步骤2:探索你的数据步骤2.5:选择一个模型*步骤3:准备数据步骤4:构建、训练和评估你的模型步骤5:调优超参数步骤6:部署模型解决机器学习问题的workflow【注】 “选择模型”并不是传统机器学习workflow的正式步骤;但是,为你的问题选择合适的模型是一项关键的任务,它可以在接下来的步骤中明确并简化工作。谷歌机器学习速成课程的文本分类指南详细解释了每个步骤,以及如何用文本数据实现这些步骤。由于篇幅限制,本文在涵盖重要的最佳实践和经验
4、法则的基础上,重点介绍步骤2.5:如何根据数据集的统计结构选择正确的模型,并提供一个完整的流程图。步骤1:收集数据收集数据是解决任何有监督的机器学习问题的最重要步骤。构成它的数据集有多好,你的文本分类器就有多好。如果你没有想要解决的特定问题,只是对探索文本分类感兴趣,那么有大量可用的开源数据集。下面的GitHub repo就足以满足你的需求:https:/github/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py另一方面,如果你正在处理一个特定的问题,则需要收集必要的数据。许多组织提供用于访问其数据的
5、公共API例如,Twitter API或NY Times API,你可以利用这些来找到想要的数据。以下是收集数据时需要记住的一些重要事项:如果你使用的是公共API,请在使用之前了解API的局限性。例如,一些API对查询速度设置了限制。训练示例(在本指南的其余部分称为示例)越多越好。这将有助于模型更好地泛化。确保每个类或主题的样本数量不会过度失衡。也就是说,每个类都应该有相当数量的样本。确保示例充分覆盖了可能的输入空间,而不仅仅覆盖常见的情况。在本指南中,我们将使用IMDb的电影评论数据集来说明这个workflow。这个数据集收集了人们在IMDb网站上发布的电影评论,以及相应的标签(“posit
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 文本 分类 任务 选择 正确 模型 这里 一个 完整 流程图
链接地址:https://www.31doc.com/p-3421298.html