欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    主动学习用于共指消解.ppt

    • 资源ID:2711972       资源大小:432.01KB        全文页数:37页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    主动学习用于共指消解.ppt

    主动学习用于共指消解,08级博士生:宋洋 指导教师:王厚峰 教授 2010-03-30,ysongpku.edu.cn,2/36,目录,共指消解问题介绍 主动学习 主动学习用于共指消解,ysongpku.edu.cn,3/36,共指消解,共指消解:研究文本中实体表述的等价关系 ACE (Automatic Content Extraction)2007语料中的例子 沙里夫的妻子库尔苏姆说,沙地阿拉伯的官员就沙里夫的前途进行了冗长的谈判,不过她不知道谈判的结果。 两个子任务(ACE定义) 实体指称语识别(mention detection) Mention的识别 共指消解(coreference resolution 也叫entity tracking) Mention间等价关系的建立(mention的聚类) Demo演示,ysongpku.edu.cn,4/36,共指消解,与指代消解(Anaphora Resolution)的区别 共指消解一定是等价关系,指代消解包含其他关系 广义上,回指可以被定义为两个语言表达式之间的关系,其中一个语言表达式往往在形式和意义上较为简略,被称为回指语,它的具体意义要依靠另一个语言表达式(先行语)来进行解读。 先行语:名词短语(mention) 照应语(回指语):代词、缩略语、省略语(零形式)以及部分省略语等等,ysongpku.edu.cn,5/36,共指消解,实体指称语识别(Mention detection) 什么是mention 一般来讲,任何名词短语都可以看作mention,因为它们都是指代现实世界中存在的或抽象的某个实体(entity) ACE对entity和mention进行了细分 Mention有三种形式 命名实体形式(Name mention) 普通名词短语形式(Nominal mention) 代词形式(Pronoun mention) Entity有五种以上的形式(不同年份的标准有所区别) 大体分为人名、机构名、地名等等(大类里面还进行了细分),ysongpku.edu.cn,6/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例 关于mention(实际统计的是mention head)的统计结果如下(附排名靠前的mention head及其出现次数) 命名实体形式:6362/14471=43.96% 中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58) 普通名词短语形式:6755/14471=46.68% 人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76) 代词形式:1354/14471=9.36% 他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家(49) 其(32) 你(25) 双方(25),ysongpku.edu.cn,7/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例 关于实体的统计结果如下(实际上统计的是mention的实体类别,实体共6463个) 含单mention(60.79%) 两个mention(17.50%) 三个(7.29%) PER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) GPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-Province(1.51%) Continent(0.54%) County-or-District(0.30%) ORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%),ysongpku.edu.cn,8/36,共指消解,实体指称语识别(Mention detection) Mention的识别 即名词短语(Noun phrase)的识别,所有的名词短语从概念上来看都可以当作是一个mention,但由于我们感兴趣的只是人名、机构名以及地名,因此mention的识别也可以看成是对名词短语进行语义分类,我们只关注那些我们感兴趣的名词短语 从NER任务中得到启发,mention的识别也可以看成是一个序列标注问题 英文:基于词进行序列标注 中文:基于字或词进行序列标注(基于字效果较差) 常规特征包括:词、词性、词缀(人名、机构名和地名)以及语义特征(来源于WordNet及HowNet),ysongpku.edu.cn,9/36,共指消解,共指消解 共指消解的本质是mention集合上的等价类划分,其实也就是一个聚类问题 德州大学达拉斯分校的Vincent Ng于08年和09年发表于EMNLP的两篇文章进行了很好的总结 无指导的模型 EM Clustering 和 非参数贝叶斯模型(Dirichlet过程) 有指导的模型 Mention-pair, entity-mention, mention-ranking和cluster-ranking,ysongpku.edu.cn,10/36,共指消解,以mention-pair模型为例 首先,对于全部候选的mention对判断其共指或不共指,得到mention集合中每个mention对之间的共指概率值 然后,利用简单的Link-first或Link-Best等算法,确定共指关系,或者依靠更加复杂的传递性约束以及全局优化(比如图分割、谱图理论等),来构建聚类 MUC评价方法:计算共指对的准确率、召回率和F值,ysongpku.edu.cn,11/36,共指消解,mention-pair模型中的共指特征,ysongpku.edu.cn,12/36,共指消解,相关评测 ACE评测(目前已取消)中的实体检测和跟踪任务,2008年为最后一届,2009年开始被TAC所取代 TAC (Text Analysis Conference)2009和2010评测中的KBP (Knowledge based population)任务 TREC 2010评测中的entity track任务 SemEval 2010评测中的多语言共指消解任务,ysongpku.edu.cn,13/36,目录,共指消解问题介绍 主动学习 主动学习用于共指消解,ysongpku.edu.cn,14/36,主动学习,基本假设:学习器在数据中有选择的进行提问,以能够使用较小的数据集达到同样的性能。 为什么需要主动学习 存在大量未标注的数据 有些问题进行人工标注的成本很高,能否只选择一部分未标注样本进行标注,而能够达到全体样本都标注的情况下同样的性能表现 NAACL-HLT 2009和2010连续两年,组织了主动学习用于NLP的workshop。ICML 2009组织了一次主动学习的tutorial,ysongpku.edu.cn,15/36,主动学习,过程如下 以基于池的主动学习过程为例,ysongpku.edu.cn,16/36,主动学习,主动学习通常的评价方法 (以文本分类为例) 随机和不确定性采样两种选择未标注实例方法的效果比较,ysongpku.edu.cn,17/36,主动学习,场景 两种场景:基于流和基于池 选择策略 五种选择策略:基于不确定性选择、QBC、期望损失减小等等 样本复杂度计算 一些相关问题 与KNN的区别、与半指导学习的区别、停止条件,ysongpku.edu.cn,18/36,场景,基于流的主动学习 实例从数据源中以流的形式一次获得一个,学习器判断是否选择该实例或放弃该实例 比如设定阈值 基于池的主动学习 同时考虑池中的全部实例,学习器根据一定的信息准则从中选择实例,ysongpku.edu.cn,19/36,场景,一个通常的基于池的主动学习算法,ysongpku.edu.cn,20/36,选择策略,基于不确定性的选择(Uncertainty sampling) 最常用的选择框架就是不确定性采样,有如下一些方法 最不确定(Least confident) 边距采样(Margin sampling) 熵(Entropy) 最常用的不确定性选择策略,ysongpku.edu.cn,21/36,选择策略,QBC (Query-by-Committee) 在当前标注集上训练了一组模型(Committee),它们针对每一个未标注实例预测其标记,选择预测结果最不一致的那个未标注实例 关于这组模型的选择 不一致性的评价办法 投票熵 平均KL距离 (average Kullback-Leibler divergence),ysongpku.edu.cn,22/36,选择策略,期望模型变化(Expected model change) 选择的实例要能够在获知它的标记后,对模型带来最大的改变 这个选择框架下的一个例子是EGL方法,即expected gradient length,ysongpku.edu.cn,23/36,选择策略,期望损失减小(Expected error reduction) 通过增加实例到标注集中,选择能够使模型在未标注集上期望损失最小的那个实例 最小化期望0-1损失 最小化期望log损失,ysongpku.edu.cn,24/36,选择策略,密度加权方法 选择的实例,不仅应该是不确定性高的,也应该是有代表性的 其中,第一个函数是根据一些基本选择策略计算的x的不确定性,第二个函数是x与未标注集的平均相似度 以下面的例子解释该方法有效处理outlier的问题,ysongpku.edu.cn,25/36,样本复杂度计算,根据PAC理论,为获取期望错误率小于的分类器,传统监督学习算法的样本复杂度为 ,主动学习需要获得比这更低的样本复杂度才有实际意义 关于这方面的介绍需要很多统计学习理论方面的内容,2008年的COLT(21st Annual Conference on Learning Theory )有一篇文章The True Sample Complexity of Active Learning有详细的介绍,ysongpku.edu.cn,26/36,相关问题,主动学习与K近邻算法的区别 K近邻:如果一个未标注样本在特征空间中的k个最相似(即特征空间中最邻近)的已标注样本中的大多数属于某一个类别,则该样本也属于这个类别 主动学习可以通过未标注样本在特征空间中的分布情况,有选择地进行人工标注,已解决K近邻算法中已标注样本数据的偏斜分布对算法效果产生的影响,ysongpku.edu.cn,27/36,相关问题,主动学习与半指导学习的区别 在半指导学习中,假定学习器“知道”未标注实例的标记,以互训练和多视图学习为例,它们选择最确信的未标注数据交予其他模型进行训练。 与此相对,主动学习中的QBC选择策略则是选择一组模型中预测结果最不一致,也就是最不确信的未标注实例,交予人工进行标注。 它们是看问题的两个方面,可以结合使用,ACL 2009有一篇文章Semi-Supervised Active Learning for Sequence Labeling,ysongpku.edu.cn,28/36,相关问题,主动学习中的停止条件 一种观点:对于当前模型来说,获取新的训练数据的成本大于错误产生的成本时,需要停止主动学习 另一种观点:当学习器的精确率达到一个稳定状态,继续获取训练数据将造成资源的浪费 当前的办法主要是对学习器的稳定性提出一种测量机制,一旦该指标下降,则停止主动学习。但更为常用的办法是,根据实际应用和其他外部因素决定停止条件 CoNLL2009一篇文章An intrinsic stopping criterion for committee-based active learning,ysongpku.edu.cn,29/36,目录,共指消解问题介绍 主动学习 主动学习用于共指消解,ysongpku.edu.cn,30/36,主动学习用于共指消解,实体指称语识别 主动学习用于序列标注问题 一个线性链CRF定义了在给定输入序列x下,标记序列y的后验概率 似然函数,ysongpku.edu.cn,31/36,主动学习用于共指消解,实体指称语识别 主动学习用于序列标注问题 选择策略(基于不确定性) Least confident Margin Token entropy,ysongpku.edu.cn,32/36,主动学习用于共指消解,实体指称语识别 主动学习用于序列标注问题 选择策略(基于不确定性) Sequence entropy N-best sequence entropy 其他选择策略比如QBC、EGL(期望梯度长度)等都很容易进行类似的扩展,ysongpku.edu.cn,33/36,主动学习用于共指消解,实体指称语识别 主动学习用于序列标注问题 不同选择策略的运行耗时,ysongpku.edu.cn,34/36,主动学习用于共指消解,实体指称语识别 主动学习用于序列标注问题 评价方法 确定一组所需选择的未标注实例数(比如50、75、100等),比较各种选择策略在选择不同未标注实例数的情况下,所带来的精确率的变化 固定选择策略,随着选择的未标注实例数的增加,看精确率的变化,ysongpku.edu.cn,35/36,主动学习用于共指消解,共指消解 主动学习用于聚类问题 主动学习的目标是选择不易确定标记的数据来进行人工标注,从而减少模型的分类错误率,因此,无指导的主动学习听起来是矛盾的。 但是可以通过有指导的方式对mention对是否共指这一分类问题进行主动学习,并验证其效果,ysongpku.edu.cn,36/36,主动学习用于共指消解,共指消解 主动学习用于聚类问题 候选mention对的构建,一般是,在共指的mention对之间选择mention,构造不共指的mention对作为负例,这样导致的结果就是,语料中大量出现不共指的mention对,造成数据类的偏斜分布,主动学习要试图解决数据类的偏斜分布的问题 可以采用的思路是,针对这种数据类偏斜分布的情况。举个二元分类的例子,就不应该选概率为0.5的作为主动学习需要选择的未标注实例,而应该倾向性的进行选择 2007年CIKM的一篇文章Learning on the Border: Active Learning in Imbalanced Data Classification,ysongpku.edu.cn,37/36,谢谢各位老师!,

    注意事项

    本文(主动学习用于共指消解.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开