一种通过编程方式生成训练数据的“弱监督”范式.doc
《一种通过编程方式生成训练数据的“弱监督”范式.doc》由会员分享,可在线阅读,更多相关《一种通过编程方式生成训练数据的“弱监督”范式.doc(7页珍藏版)》请在三一文库上搜索。
1、一种通过编程方式生成训练数据的“弱监督”范式手工标记大量数据始终是开发机器学习的一大瓶颈。斯坦福AI Lab的研究人员探讨了一种通过编程方式生成训练数据的“弱监督”范式,并介绍了他们的开源Snorkel框架。近年来,机器学习(ML)对现实世界的影响越来越大。这在很大程度上是由于深度学习模型的出现,使得从业者可以在基准数据集上获得state-of-the-art的分数,而无需任何手工特征设计。考虑到诸如TensorFlow和PyTorch等多种开源ML框架的可用性,以及大量可用的最先进的模型,可以说,高质量的ML模型现在几乎成为一种商品化资源了。然而,有一个隐藏的问题:这些模型依赖于大量手工标记
2、的训练数据。这些手工标记的训练集创建起来既昂贵又耗时通常需要几个月甚至几年的时间、花费大量人力来收集、清理和调试尤其是在需要领域专业知识的情况下。除此之外,任务经常会在现实世界中发生变化和演变。例如,标记指南、粒度或下游用例都经常发生变化,需要重新标记(例如,不要只将评论分类为正面或负面,还要引入一个中性类别)。由于这些原因,从业者越来越多地转向一种较弱的监管形式,例如利用外部知识库、模式/规则或其他分类器启发式地生成训练数据。从本质上来讲,这些都是以编程方式生成训练数据的方法,或者更简洁地说,编程训练数据(programming training data)。在本文中,我们首先回顾了ML中由
3、标记训练数据驱动的一些领域,然后描述了我们对建模和整合各种监督源的研究。我们还讨论了为大规模多任务机制构建数据管理系统的设想,这种系统使用数十或数百个弱监督的动态任务,以复杂、多样的方式交互。回顾:如何获得更多有标签的训练数据?ML中的许多传统研究方法也同样受到对标记训练数据的需求的推动。我们首先将这些方法与弱监督方法(weak supervision)区分开来:弱监督是利用来自主题领域专家(subject matter experts,简称SME)的更高级别和/或更嘈杂的输入。目前主流方法的一个关键问题是,由领域专家直接给大量数据加标签是很昂贵的:例如,为医学成像研究构建大型数据集更加困难,
4、因为跟研究生不同,放射科医生可不会接受一点小恩小惠就愿意为你标记数据。因此,在ML中,许多经过深入研究的工作线都是由于获取标记训练数据的瓶颈所致:在主动学习(active learning)中,目标是让领域专家为估计对模型最有价值的数据点贴标签,从而更有效地利用领域专家。在标准的监督学习设置中,这意味着选择要标记的新数据点。例如,我们可以选择靠近当前模型决策边界的乳房X线照片,并要求放射科医生仅给这些照片进行标记。但是,我们也可以只要求对这些数据点进行较弱的监督,在这种情况下,主动学习与弱监督是完美互补的;这方面的例子可以参考(Druck, settle, and McCallum 2009)
5、。在半监督学习(semi-supervised learning )设置中,我们的目标是用一个小的标记训练集和一个更大的未标记数据集。然后使用关于平滑度、低维结构或距离度量的假设来利用未标记数据(作为生成模型的一部分,或作为一个判别模型的正则项,或学习一个紧凑的数据表示);参考阅读见(Chapelle, Scholkopf, and Zien 2009)。从广义上讲,半监督学习的理念不是从SME那里寻求更多输入,而是利用领域和任务不可知的假设来利用未经标记的数据,而这些数据通常可以以低成本大量获得。最近的方法使用生成对抗网络(Salimans et al. 2016)、启发式转换模型(Lain
6、e and Aila 2016)和其他生成方法来有效地帮助规范化决策边界。在典型的迁移学习(transfer learning )设置中,目标是将一个或多个已经在不同数据集上训练过的模型应用于我们的数据集和任务;相关的综述见(Pan和Yang 2010)。例如,我们可能已经有身体其他部位肿瘤的大型训练集,并在此基础上训练了分类器,然后希望将其应用到我们的乳房X光检查任务中。在当今的深度学习社区中,一种常见的迁移学习方法是在一个大数据集上对模型进行“预训练”,然后在感兴趣的任务上对其进行“微调”。另一个相关的领域是多任务学习(multi-task learning),其中几个任务是共同学习的(C
7、aruna 1993; Augenstein, Vlachos, and Maynard 2015)。上述范例可能让我们得以不用向领域专家合作者寻求额外的训练标签。然而,对某些数据进行标记是不可避免的。如果我们要求他们提供各种类型的更高级、或不那么精确的监督形式,这些形式可以更快、更简便地获取,会怎么样呢?例如,如果我们的放射科医生可以花一个下午的时间来标记一组启发式的资源或其他资源,如果处理得当,这些资源可以有效地替代成千上万的训练标签,那会怎么样呢?将领域知识注入AI从历史的角度来看,试图“编程”人工智能(即注入领域知识)并不是什么新鲜想法,但现在提出这个问题的主要新颖之处在于,AI从未像
8、现在这样强大,同时在可解释性和可控制性方面,它还是一个“黑盒”。在20世纪70年代和80年代,AI的重点是专家系统,它将来自领域专家的手工策划的事实和规则的知识库结合起来,并使用推理引擎来应用它们。20世纪90年代,ML开始作为将知识集成到AI系统的工具获得成功,并承诺以强大而灵活的方式从标记的训练数据自动实现这一点。经典的(非表示学习)ML方法通常有两个领域专家输入端口。首先,这些模型通常比现代模型的复杂度要低得多,这意味着可以使用更少的手工标记数据。其次,这些模型依赖于手工设计的特性,这些特性为编码、修改和与模型的数据基本表示形式交互提供了一种直接的方法。然而,特性工程不管在过去还是现在通
9、常都被认为是ML专家的任务,他们通常会花费整个博士生涯来为特定的任务设计特性。进入深度学习模型:由于它们具有跨许多领域和任务自动学习表示的强大能力,它们在很大程度上避免了特性工程的任务。然而,它们大部分是完整的黑盒子,除了标记大量的训练集和调整网络架构外,普通开发人员对它们几乎没有控制权。在许多意义上,它们代表了旧的专家系统脆弱但易于控制的规则的对立面它们灵活但难以控制。这使我们从一个略微不同的角度回到了最初的问题:我们如何利用我们的领域知识或任务专业知识来编写现代深度学习模型?有没有办法将旧的基于规则的专家系统的直接性与这些现代ML方法的灵活性和强大功能结合起来?代码作为监督:通过编程训练M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 通过 编程 方式 生成 训练 数据 监督 范式
链接地址:https://www.31doc.com/p-3364891.html