各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果.doc
《各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果.doc》由会员分享,可在线阅读,更多相关《各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果.doc(9页珍藏版)》请在三一文库上搜索。
1、各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果摘要:知识图谱是一种在移动互联网大时代下产生的新型知识表示方法,而精化是知识图谱应用研究的主要内容之一,其主要任务是知识图谱补全和错误检测等,在信息检索、机器人、智能问答等领域有着重要的应用前景。因此,对知识图谱精化进行研究具有十分重要的意义。对当前知识图谱精化方法进行了较为全面、深入的总结,并对知识图谱未来的主要研究方向进行了展望。0 引言随着链接开放数据源(如DBpedia)的出现以及谷歌在2012年提出知识图谱的概念,全球掀起了研究知识图谱的热潮,涌现出了大量的知识图谱构建技术1-5,并构建了各种知识图谱,这些知识图谱要么是开放的,
2、要么是公司私有的,如Freebase2、维基数据(Wikidata)3、DBpedia4、YAGO5等,但无论采用哪种技术,构造出来的知识图谱都不完美6。随着研究的深入,越来越多的研究者开始关注知识图谱的覆盖率和正确率。而提高知识图谱的覆盖率和正确率是知识图谱精化的主要目的,对知识图谱进行精化具有十分重要的意义。近年来,该领域的研究进展非常迅速,涌现出了一大批研究成果,已经研发出了多种知识图谱精化方法,这些方法主要集中在讨论知识图谱补全7-28和知识图谱错误探测29-34两个方面,这也是本文从这两个方面进行综述的原因。本文的贡献是:(1)讨论各种知识图谱精化方法;(2)为国内同行介绍本领域的最
3、新研究成果,了解该领域的研究进展,从而推动我国在该领域的发展。1 知识图谱精化相关概念1.1 知识图谱的概念“知识图谱”是一种描述真实世界客观存在的实体、概念及它们之间关联关系的语义网络。可以利用知识图谱开发语义检索和自动问答等应用1。知识图谱的结构如图1所示。可见,知识图谱是一个有向图,由模式(schema)图和数据图构成。其中,模式图描述类之间的关系;数据图描述实体之间的关系。图1描述的知识(事实)如下:(1)李四是一个教师(2)北京是一个城市(3)中国是一个国家(4)李四的出生地为北京(5)北京位于中国(6)李四的国籍是中国1.2 知识图谱构建与知识图谱精化知识图谱构建是使用各种技术从无
4、到有构造知识图谱,而知识图谱精化是使用各种技术对知识图谱进行完善。可见,要构建一个完美的知识图谱,需要经过多个精化步骤。因此,知识图谱构建和知识图谱精化是相辅相成、不可分割的。另外,本文将关系、文字和类型称为精化目标。2 常用的知识图谱补全方法知识图谱补全的目的是利用已有信息,预测丢失的实体、类型和实体间的关系,从而提高知识图谱的覆盖率。它是知识图谱精化的主要任务之一,其对应的精化目标包括实体、类型和实体间的关系。但根据已有文献,发现目前该方面的研究主要集中在对类型和实体间的关系进行精化。本节根据知识图谱补全使用的数据源,将知识图谱补全方法分为知识图谱内部补全和知识图谱外部补全两大类。其中,知
5、识图谱内部补全方法是指仅使用知识图谱本身预测丢失信息的方法总称,知识图谱外部补全方法是指除使用知识图谱本身以外,还使用其他数据源(如文本语料)来预测丢失信息的方法总称。下面将从这两个方面对知识图谱错误探测进行综述。2.1 知识图谱内部补全方法为了揭示内部补全方法因精化目标的不同而不同,本小节将根据精化目标的不同,把内部补全方法分成实体类型内部补全和关系内部预测两类进行综述。2.1.1 实体类型内部补全实体类型内部补全就是利用知识图谱本身已有的实体、实体类型和实体关系预测丢失的实体类型。在机器学习领域,常用多分类方法对实体类型进行补全。其中,PAULHEIM H等人7-8提出了一种基于条件概率的
6、补全算法SDType,这种算法的思想是通过实体所具有的关系预测实体类型。SDType算法的评价矩阵是正确率(precision)、召回率和新增类型数目。但这种算法的缺点是假设关系之间是相互独立的,而现实世界中这种假设在很多情况下是不成立的,并且该算法没有用类型的层次结构。利用SDType算法,已经为知识图谱DBpedia新增了3.4亿条类型语句。KROMPA?覻 D等人9利用张量分解预测实体类型,这种方法的思想是把知识图谱表示成一个实体-实体-关系的三维张量,然后通过张量分解的方法实现类型补全。该方法的评价矩阵是正确率、召回率和正确率-召回率曲线。张香玲等人10提出了一种由谓词和谓词及谓词和类
7、型的相互作用补全实体类型的模型,在该模型中,为了解决类型语义漂移,使用PMI技术设计一个有效的谓词-类型推理图及基于图上的随机游走算法。该模型的评价矩阵是正确率和召回率。SLEEMAN J等人11将主题模型用在关系预测中,这种方法的思想是首先将实体表示成文档,应用LDA抽取文档的主题,然后通过分析主题和实体类型的共现关系,根据分析结果,将实体类型指派给主题对应的实体。该方法的评价矩阵是正确率和召回率。在数据挖掘领域,利用关联规则预测知识图谱丢失的信息。PAULHEIM H等人12基于数据冗余信息使用关联规则来预测DBpedia中丢失的类型。这种方法的评价矩阵为正确率和增加的类型数。2.1.2
8、关系内部预测按照相同的思路,在机器学习领域,也把预测关系的存在与否看成是一个二分类问题。其中,SOCHER R等人13提出一种通过训练张量神经网络预测新关系的方法。例如:如果一个人出生在德国,那么该方法就能根据这个关系预测他的国籍是德国。这种方法的评价矩阵是精确率(accuracy),已被用于Freebase和WordNet中。BAIER S等人14也提出了类似的方法,但他们在预测过程增加了模式知识,以提高关系预测的性能。不同的是该方法的评价矩阵是正确率-召回率曲线面积和ROC曲线面积。类似地,ZHAO Y等人15通过将关系嵌入到一个低维空间中来预测Freebase中关系的存在,这种方法的评价
9、矩阵是正确率。同样地,在数据挖掘领域,将关联规则挖掘也用于预测关系。其中,KIM J等人16提出了一种利用关联规则预测DBpdia中实体关系的方法。这种方法只能预测来自于维基百科分类中的实体关系,其评价矩阵是正确率和增加的关系数目。KOLTHOFF C等人17利用关联规则挖掘思想查找意义丰富的关系链来预测关系,该方法的评价矩阵是正确率和召回率。2.2 知识图谱外部补全方法与知识图谱外部补全方法类似,为了揭示外部补全方法因精化目标的不同而不同,本小节将根据精化目标的不同,把外部补全方法分成实体类型外部补全和关系外部预测两类进行综述。2.2.1 实体类型外部补全实体类型外部补全就是利用知识图谱本身
10、和外部数据来预测丢失的实体类型。根据已有文献分析,实体类型外部补全方法的研究主要集中在机器学习和自然语言处理领域。在机器学习领域,主要将外部数据表示成实体特征进行分类。因为维基百科页之间的链接没有约束,所以维基百科网页之间的链接比知识图谱中相应实体的链接要多。因此,NUZZOLESE A G等人18利用维基百科链接图和KNN分类算法来预测知识图谱中的实体类型。如果一个知识图谱包含到维基百科的链接,那么就以相关页的分类为基础,将维基百科网页之间的链接表示成特征向量,这种方法的评价矩阵是正确率和召回率。APRIOSIO A P等人19将DBpedia各种语言版本中的实体类型作为特征来预测丢失的类型
11、,该方法使用不同距离公式的K-NN分类器,综合应用这些不同的距离公式,得到了最好的结果。这种方法的评价矩阵是正确率和召回率。SLEEMAN J等人20将支持向量机用于DBpedia和Freebase中的实体类型预测。为了提高覆盖率和正确率,作者利用知识图谱间的内部链接和其他知识图谱的属性对知识图谱实例进行分类,这种方法的评价矩阵为正确率和召回率。在自然语言处理领域,KLIEGR T21等人使用了不同语言的摘要来进行实体类型预测,从而大大提高知识图谱的覆盖率和正确率,这种方法的评价矩阵是正确率和召回率。2.2.2 关系外部预测关系外部预测就是利用知识图谱本身和外部数据来预测丢失的实体关系。一部分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 各种 知识 图谱 方法 国内 同行 介绍 领域 最新 研究成果
链接地址:https://www.31doc.com/p-3405261.html