主动学习用于共指消解.ppt

资源ID：2711972 资源大小：432.01KB 全文页数：37页
资源格式： PPT 下载积分：6元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

主动学习用于共指消解.ppt

主动学习用于共指消解,08级博士生：宋洋指导教师：王厚峰教授 2010-03-30,ysongpku.edu.cn,2/36,目录,共指消解问题介绍主动学习主动学习用于共指消解,ysongpku.edu.cn,3/36,共指消解,共指消解：研究文本中实体表述的等价关系 ACE (Automatic Content Extraction)2007语料中的例子沙里夫的妻子库尔苏姆说，沙地阿拉伯的官员就沙里夫的前途进行了冗长的谈判，不过她不知道谈判的结果。两个子任务(ACE定义) 实体指称语识别(mention detection) Mention的识别共指消解(coreference resolution 也叫entity tracking) Mention间等价关系的建立(mention的聚类) Demo演示,ysongpku.edu.cn,4/36,共指消解,与指代消解(Anaphora Resolution)的区别共指消解一定是等价关系，指代消解包含其他关系广义上，回指可以被定义为两个语言表达式之间的关系，其中一个语言表达式往往在形式和意义上较为简略,被称为回指语，它的具体意义要依靠另一个语言表达式(先行语)来进行解读。先行语：名词短语(mention) 照应语(回指语)：代词、缩略语、省略语(零形式)以及部分省略语等等,ysongpku.edu.cn,5/36,共指消解,实体指称语识别(Mention detection) 什么是mention 一般来讲，任何名词短语都可以看作mention，因为它们都是指代现实世界中存在的或抽象的某个实体(entity) ACE对entity和mention进行了细分 Mention有三种形式命名实体形式(Name mention) 普通名词短语形式(Nominal mention) 代词形式(Pronoun mention) Entity有五种以上的形式(不同年份的标准有所区别) 大体分为人名、机构名、地名等等(大类里面还进行了细分),ysongpku.edu.cn,6/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例关于mention(实际统计的是mention head)的统计结果如下(附排名靠前的mention head及其出现次数) 命名实体形式：6362/14471=43.96% 中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58) 普通名词短语形式：6755/14471=46.68% 人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76) 代词形式：1354/14471=9.36% 他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家(49) 其(32) 你(25) 双方(25),ysongpku.edu.cn,7/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例关于实体的统计结果如下(实际上统计的是mention的实体类别，实体共6463个) 含单mention(60.79%) 两个mention(17.50%) 三个(7.29%) PER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) GPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-Province(1.51%) Continent(0.54%) County-or-District(0.30%) ORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%),ysongpku.edu.cn,8/36,共指消解,实体指称语识别(Mention detection) Mention的识别即名词短语(Noun phrase)的识别，所有的名词短语从概念上来看都可以当作是一个mention，但由于我们感兴趣的只是人名、机构名以及地名，因此mention的识别也可以看成是对名词短语进行语义分类，我们只关注那些我们感兴趣的名词短语从NER任务中得到启发，mention的识别也可以看成是一个序列标注问题英文：基于词进行序列标注中文：基于字或词进行序列标注(基于字效果较差) 常规特征包括：词、词性、词缀(人名、机构名和地名)以及语义特征(来源于WordNet及HowNet),ysongpku.edu.cn,9/36,共指消解,共指消解共指消解的本质是mention集合上的等价类划分，其实也就是一个聚类问题德州大学达拉斯分校的Vincent Ng于08年和09年发表于EMNLP的两篇文章进行了很好的总结无指导的模型 EM Clustering 和非参数贝叶斯模型(Dirichlet过程) 有指导的模型 Mention-pair, entity-mention, mention-ranking和cluster-ranking,ysongpku.edu.cn,10/36,共指消解,以mention-pair模型为例首先，对于全部候选的mention对判断其共指或不共指，得到mention集合中每个mention对之间的共指概率值然后，利用简单的Link-first或Link-Best等算法，确定共指关系，或者依靠更加复杂的传递性约束以及全局优化(比如图分割、谱图理论等)，来构建聚类 MUC评价方法：计算共指对的准确率、召回率和F值,ysongpku.edu.cn,11/36,共指消解,mention-pair模型中的共指特征,ysongpku.edu.cn,12/36,共指消解,相关评测 ACE评测(目前已取消)中的实体检测和跟踪任务，2008年为最后一届，2009年开始被TAC所取代 TAC (Text Analysis Conference)2009和2010评测中的KBP (Knowledge based population)任务 TREC 2010评测中的entity track任务 SemEval 2010评测中的多语言共指消解任务,ysongpku.edu.cn,13/36,目录,共指消解问题介绍主动学习主动学习用于共指消解,ysongpku.edu.cn,14/36,主动学习,基本假设：学习器在数据中有选择的进行提问，以能够使用较小的数据集达到同样的性能。为什么需要主动学习存在大量未标注的数据有些问题进行人工标注的成本很高，能否只选择一部分未标注样本进行标注，而能够达到全体样本都标注的情况下同样的性能表现 NAACL-HLT 2009和2010连续两年，组织了主动学习用于NLP的workshop。ICML 2009组织了一次主动学习的tutorial,ysongpku.edu.cn,15/36,主动学习,过程如下以基于池的主动学习过程为例,ysongpku.edu.cn,16/36,主动学习,主动学习通常的评价方法（以文本分类为例）随机和不确定性采样两种选择未标注实例方法的效果比较,ysongpku.edu.cn,17/36,主动学习,场景两种场景：基于流和基于池选择策略五种选择策略：基于不确定性选择、QBC、期望损失减小等等样本复杂度计算一些相关问题与KNN的区别、与半指导学习的区别、停止条件,ysongpku.edu.cn,18/36,场景,基于流的主动学习实例从数据源中以流的形式一次获得一个，学习器判断是否选择该实例或放弃该实例比如设定阈值基于池的主动学习同时考虑池中的全部实例，学习器根据一定的信息准则从中选择实例,ysongpku.edu.cn,19/36,场景,一个通常的基于池的主动学习算法,ysongpku.edu.cn,20/36,选择策略,基于不确定性的选择(Uncertainty sampling) 最常用的选择框架就是不确定性采样，有如下一些方法最不确定(Least confident) 边距采样(Margin sampling) 熵(Entropy) 最常用的不确定性选择策略,ysongpku.edu.cn,21/36,选择策略,QBC (Query-by-Committee) 在当前标注集上训练了一组模型(Committee)，它们针对每一个未标注实例预测其标记，选择预测结果最不一致的那个未标注实例关于这组模型的选择不一致性的评价办法投票熵平均KL距离 (average Kullback-Leibler divergence),ysongpku.edu.cn,22/36,选择策略,期望模型变化(Expected model change) 选择的实例要能够在获知它的标记后，对模型带来最大的改变这个选择框架下的一个例子是EGL方法，即expected gradient length,ysongpku.edu.cn,23/36,选择策略,期望损失减小(Expected error reduction) 通过增加实例到标注集中，选择能够使模型在未标注集上期望损失最小的那个实例最小化期望0-1损失最小化期望log损失,ysongpku.edu.cn,24/36,选择策略,密度加权方法选择的实例，不仅应该是不确定性高的，也应该是有代表性的其中，第一个函数是根据一些基本选择策略计算的x的不确定性，第二个函数是x与未标注集的平均相似度以下面的例子解释该方法有效处理outlier的问题,ysongpku.edu.cn,25/36,样本复杂度计算,根据PAC理论，为获取期望错误率小于的分类器，传统监督学习算法的样本复杂度为，主动学习需要获得比这更低的样本复杂度才有实际意义关于这方面的介绍需要很多统计学习理论方面的内容，2008年的COLT(21st Annual Conference on Learning Theory )有一篇文章The True Sample Complexity of Active Learning有详细的介绍,ysongpku.edu.cn,26/36,相关问题,主动学习与K近邻算法的区别 K近邻：如果一个未标注样本在特征空间中的k个最相似(即特征空间中最邻近)的已标注样本中的大多数属于某一个类别，则该样本也属于这个类别主动学习可以通过未标注样本在特征空间中的分布情况，有选择地进行人工标注，已解决K近邻算法中已标注样本数据的偏斜分布对算法效果产生的影响,ysongpku.edu.cn,27/36,相关问题,主动学习与半指导学习的区别在半指导学习中，假定学习器“知道”未标注实例的标记，以互训练和多视图学习为例，它们选择最确信的未标注数据交予其他模型进行训练。与此相对，主动学习中的QBC选择策略则是选择一组模型中预测结果最不一致，也就是最不确信的未标注实例，交予人工进行标注。它们是看问题的两个方面，可以结合使用，ACL 2009有一篇文章Semi-Supervised Active Learning for Sequence Labeling,ysongpku.edu.cn,28/36,相关问题,主动学习中的停止条件一种观点：对于当前模型来说，获取新的训练数据的成本大于错误产生的成本时，需要停止主动学习另一种观点：当学习器的精确率达到一个稳定状态，继续获取训练数据将造成资源的浪费当前的办法主要是对学习器的稳定性提出一种测量机制，一旦该指标下降，则停止主动学习。但更为常用的办法是，根据实际应用和其他外部因素决定停止条件 CoNLL2009一篇文章An intrinsic stopping criterion for committee-based active learning,ysongpku.edu.cn,29/36,目录,共指消解问题介绍主动学习主动学习用于共指消解,ysongpku.edu.cn,30/36,主动学习用于共指消解,实体指称语识别主动学习用于序列标注问题一个线性链CRF定义了在给定输入序列x下，标记序列y的后验概率似然函数,ysongpku.edu.cn,31/36,主动学习用于共指消解,实体指称语识别主动学习用于序列标注问题选择策略(基于不确定性) Least confident Margin Token entropy,ysongpku.edu.cn,32/36,主动学习用于共指消解,实体指称语识别主动学习用于序列标注问题选择策略(基于不确定性) Sequence entropy N-best sequence entropy 其他选择策略比如QBC、EGL(期望梯度长度)等都很容易进行类似的扩展,ysongpku.edu.cn,33/36,主动学习用于共指消解,实体指称语识别主动学习用于序列标注问题不同选择策略的运行耗时,ysongpku.edu.cn,34/36,主动学习用于共指消解,实体指称语识别主动学习用于序列标注问题评价方法确定一组所需选择的未标注实例数(比如50、75、100等)，比较各种选择策略在选择不同未标注实例数的情况下，所带来的精确率的变化固定选择策略，随着选择的未标注实例数的增加，看精确率的变化,ysongpku.edu.cn,35/36,主动学习用于共指消解,共指消解主动学习用于聚类问题主动学习的目标是选择不易确定标记的数据来进行人工标注，从而减少模型的分类错误率，因此，无指导的主动学习听起来是矛盾的。但是可以通过有指导的方式对mention对是否共指这一分类问题进行主动学习，并验证其效果,ysongpku.edu.cn,36/36,主动学习用于共指消解,共指消解主动学习用于聚类问题候选mention对的构建，一般是，在共指的mention对之间选择mention，构造不共指的mention对作为负例，这样导致的结果就是，语料中大量出现不共指的mention对，造成数据类的偏斜分布，主动学习要试图解决数据类的偏斜分布的问题可以采用的思路是，针对这种数据类偏斜分布的情况。举个二元分类的例子，就不应该选概率为0.5的作为主动学习需要选择的未标注实例，而应该倾向性的进行选择 2007年CIKM的一篇文章Learning on the Border: Active Learning in Imbalanced Data Classification,ysongpku.edu.cn,37/36,谢谢各位老师!,

注意事项

本文（主动学习用于共指消解.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。