主动学习用于共指消解.ppt
《主动学习用于共指消解.ppt》由会员分享,可在线阅读,更多相关《主动学习用于共指消解.ppt(37页珍藏版)》请在三一文库上搜索。
1、主动学习用于共指消解,08级博士生:宋洋 指导教师:王厚峰 教授 2010-03-30,,2/36,目录,共指消解问题介绍 主动学习 主动学习用于共指消解,,3/36,共指消解,共指消解:研究文本中实体表述的等价关系 ACE (Automatic Content Extraction)2007语料中的例子 沙里夫的妻子库尔苏姆说,沙地阿拉伯的官员就沙里夫的前途进行了冗长的谈判,不过她不知道谈判的结果。 两个子任务(ACE定义) 实体指称语识别(mention detection) Mention的识别 共指消解(coreference resolution 也叫entity tracking)
2、 Mention间等价关系的建立(mention的聚类) Demo演示,,4/36,共指消解,与指代消解(Anaphora Resolution)的区别 共指消解一定是等价关系,指代消解包含其他关系 广义上,回指可以被定义为两个语言表达式之间的关系,其中一个语言表达式往往在形式和意义上较为简略,被称为回指语,它的具体意义要依靠另一个语言表达式(先行语)来进行解读。 先行语:名词短语(mention) 照应语(回指语):代词、缩略语、省略语(零形式)以及部分省略语等等,,5/36,共指消解,实体指称语识别(Mention detection) 什么是mention 一般来讲,任何名词短语都可以看
3、作mention,因为它们都是指代现实世界中存在的或抽象的某个实体(entity) ACE对entity和mention进行了细分 Mention有三种形式 命名实体形式(Name mention) 普通名词短语形式(Nominal mention) 代词形式(Pronoun mention) Entity有五种以上的形式(不同年份的标准有所区别) 大体分为人名、机构名、地名等等(大类里面还进行了细分),,6/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例 关于mention(实际统计的是mention head)的统计结果如下(附排名靠前的mention head及其
4、出现次数) 命名实体形式:6362/14471=43.96% 中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58) 普通名词短语形式:6755/14471=46.68% 人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76) 代词形式:1354/14471=9.36% 他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家(49) 其(32) 你(25) 双方(25)
5、,,7/36,共指消解,以ACE2004中的中文语料bnews(314篇)为例 关于实体的统计结果如下(实际上统计的是mention的实体类别,实体共6463个) 含单mention(60.79%) 两个mention(17.50%) 三个(7.29%) PER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) GPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-Province(1.51%) Continent
6、(0.54%) County-or-District(0.30%) ORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%),,8/36,共指消解,实体指称语识别(Mention detection) Mention的识别 即名词短语(Noun phrase)的识别,所有的名词短语从概念上来看都可以当作是一个mention,但由于我们感兴趣的只是人名、机构名以及地名,因此mention的识别也可以看成是对名词短语进行语义分类,我们只关注那些我们感兴趣的名词短语 从NER任
7、务中得到启发,mention的识别也可以看成是一个序列标注问题 英文:基于词进行序列标注 中文:基于字或词进行序列标注(基于字效果较差) 常规特征包括:词、词性、词缀(人名、机构名和地名)以及语义特征(来源于WordNet及HowNet),,9/36,共指消解,共指消解 共指消解的本质是mention集合上的等价类划分,其实也就是一个聚类问题 德州大学达拉斯分校的Vincent Ng于08年和09年发表于EMNLP的两篇文章进行了很好的总结 无指导的模型 EM Clustering 和 非参数贝叶斯模型(Dirichlet过程) 有指导的模型 Mention-pair, entity-ment
8、ion, mention-ranking和cluster-ranking,,10/36,共指消解,以mention-pair模型为例 首先,对于全部候选的mention对判断其共指或不共指,得到mention集合中每个mention对之间的共指概率值 然后,利用简单的Link-first或Link-Best等算法,确定共指关系,或者依靠更加复杂的传递性约束以及全局优化(比如图分割、谱图理论等),来构建聚类 MUC评价方法:计算共指对的准确率、召回率和F值,,11/36,共指消解,mention-pair模型中的共指特征,,12/36,共指消解,相关评测 ACE评测(目前已取消)中的实体检测和跟
9、踪任务,2008年为最后一届,2009年开始被TAC所取代 TAC (Text Analysis Conference)2009和2010评测中的KBP (Knowledge based population)任务 TREC 2010评测中的entity track任务 SemEval 2010评测中的多语言共指消解任务,,13/36,目录,共指消解问题介绍 主动学习 主动学习用于共指消解,,14/36,主动学习,基本假设:学习器在数据中有选择的进行提问,以能够使用较小的数据集达到同样的性能。 为什么需要主动学习 存在大量未标注的数据 有些问题进行人工标注的成本很高,能否只选择一部分未标注样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主动 学习 用于 消解
链接地址:https://www.31doc.com/p-2711972.html