欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    语义web中的本体学习OntologyLearningfortheSemanticWeb.ppt

    • 资源ID:3304619       资源大小:2.05MB        全文页数:58页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语义web中的本体学习OntologyLearningfortheSemanticWeb.ppt

    语义web中的本体学习 Ontology Learning for the Semantic Web,报告人:李 曼 中国人民大学信息学院,主要内容,研究背景 本体的学习 本体的评价 相关工作 未来的研究方向,1.研究背景,BernersLee在2000的XML大会上正式提出了语义web。 语义web是对当前web的扩展。语义web上的信息具有定义良好的含义,使得计算机之间以及人类能够更好的彼此合作。,1.研究背景,语义web采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,具有重要的地位。本体的构建是实现语义web的关键环节。,1.1 本体,Ontology是共享概念模型的明确的形式化规范说明。 “概念模型”:指Ontology是通过抽象出客观世界中一些现象的相关概念而得到的模型。 “明确”:指Ontology所使用的概念及概念的约束都有明确的定义。 “形式化”:指Ontology是计算机可读的(即能被计算机处理)。 “共享”:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集(即Ontology针对的是团体而非个体的共识)。,1.1 本体,Ontology的结构是一个五元组 O:= C, R, Hc,rel,AO C:概念; R:关系; Hc:概念层次,例如HC(C1,C2); rel:概念间的关系, 例如,rel(R)(C1,C2); AO:用某种逻辑语言表示的一组本体公理。,C1是C2的子概念,C1和C2具有关系R,1.2 本体的应用,语义web,1.2 本体的应用,问题 :XML在处理语义上存在两个问题 同义词; 一词多义 解决:引入本体 本体通过对概念和概念间关系的严格定义来确定概念的精确含义,表示共同认可的、可共享的知识。 对于本体来说,Author,Creator是同一个概念,而Doctor在大学和医院分别表示的是两个概念。因此,在语义web中,本体是解决语义层次上web信息共享和交换的基础。,1.2 本体的应用,自然语言理解 全面的理解自然语言需要整合大量的知识源。以本体形式表示的领域知识是深入理解文本的基础。目前在基于本体的信息抽取方面已有一些研究成果。 知识管理 知识管理主要是处理一个组织中知识的获取、维护和访问。其中,本体可以用于对无结构信息进行语义标注,从而使得信息的整合和访问更容易。,1.2 本体的应用,电子商务 在电子商务中,交易的自动化要求对商品进行形式化描述,因此,需要一个标准化的词汇表本体。本体有助于对内容意义的精确、高效通信,同时促使系统的交互式操作、重用和共享等一系列的性能得以提高。,1.2 本体的应用,从上述应用可以看出,这些应用领域的一个共同需求是共享某个领域内的知识。而提供共享概念模型的明确的形式化规范说明正是本体的主要目标。所以,这些领域的许多难题都能够通过使用本体来解决。,1.3 本体的构建,手工:费时费力,容易出错 全自动:适用性不强 半自动:可行,其核心技术是本体的学习利用知识发现技术从数据源中获取知识,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.1 本体学习周期,(导入/重用、抽取、修剪和精练),2.1 本体学习周期,导入和重用阶段 该阶段可以作为整个本体学习过程的开始。主要步骤: 选择有关的本体,并定义导入策略。 例如,定义一个本体包装器(wrapper),支持从一种本体描述语言转换为另一种语言。 合并导入的概念结构,作为其它阶段的基础。,2.1 本体学习周期,抽取阶段 利用导入的本体,抽取出新的知识。在这个阶段,本体学习技术部分依赖于给定的本体部分,所以,当本体被修订过一次后又会引起新的抽取结果,这是一个反复增长的模型。,2.1 本体学习周期,修剪阶段 本体结构的修剪可以使本体适应给定的应用。 该阶段需要考虑两个方面: 对本体中某个特殊部分的修剪将如何影响整个本体用户驱动 保留或修剪本体元素的策略 应用驱动,2.1 本体学习周期,精练阶段 利用给定的领域本体,以更细的粒度完善本体 。 精练和抽取具有类似的功能。原则上,同样的算法既可以用于抽取也可以用于精练。抽取主要用于整个本体(或至少是本体中非常有意义的部分)的建模,而精练是对目标本体的精细的调整。,2.1 本体学习周期,上述四个阶段都可以单独执行,且某些阶段可以被跳过。 例如,导入一个本体,然后根据指定的应用程序数据直接修剪该本体。,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.2 本体学习框架(TEXT-TO-ONTO),2.2 本体学习框架,输入数据源 本体,一种特殊的数据源。例如,词汇语义网络(WordNet,GermaNet),领域本体,词典(轻量级本体)。 Schema Dababase Schema,例如关系数据库模式 Web Schema,例如DTD,XML-Schema,2.2 本体学习框架,输入数据源 实例,即数据库或知识库中的实例集合,它们是领域概念的外延描述。 半结构化数据 自然语言文本,2.2 本体学习框架,主要的组件 数据导入和处理组件发现、导入、分析和转换有关的输入数据。产生一组预处理数据作为算法库组件的输入 本体包装器 本体合并器 基于本体的文档爬虫器 自然语言处理系统重要 文档包装器将字典或一些半结构化文档转换为指定格式 转换模块将自然语言处理后的文档转换为指定格式,2.2 本体学习框架,主要的组件 算法库组件提供许多本体抽取和本体维护算法。可以采用综合多策略学习结果的方法,即标准化各种学习算法的结果,然后综合它们。 本体构建和管理环境构建本体(手工)。提供图形界面,支持导出本体到标准的本体描述语言,如RDF,OWL等。本体学习可以看作是本体构建环境的一个插件。,2.2 本体学习框架,主要的组件 图形用户界面和管理组件本体工程师使用该组件与本体学习组件交互。 支持本体工程师选择相关的数据 支持本体工程师选择参数和本体学习算法 提供全面的结果集视图,2.2 本体学习框架,总之,目标应用是衡量结果本体的尺度。因此,实际的应用数据可以作为本体学习的输入数据。,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.3 数据的导入和处理技术,数据源 本体 文档,2.3 数据的导入和处理技术,本体导入和处理的步骤 将已有的本体转换为本体学习框架可以处理的表示形式。 若只有一个本体可供导入,则使用本体包装器将已有的本体描述语言转换为本体学习框架可以识别形式;若给出了一个以上的本体,需要使用本体合并算法(例如FCA-Merge)将给出的本体合并成一个共同的本体。,2.3 数据的导入和处理技术,本体包装器 (例如:导入WordNet到Text-to-Onto中) WordNet中包含的本体原语 SynSet:同义词集合 Hypernym:上位词集 Hyponym:下位词集 Holonym:整体词集 Meronym:部分词集合 Antonym:反义词集合,例如,如果X是一种Y,则Y是X的上位词, X是Y的下位词,例如,如果X是Y的一部分,则Y是X的整体词,X是Y的部分词,2.3 数据的导入和处理技术,从WordNet到Text-to-Onto本体结构O的映射,概念C的同义词集合存到L中,并映射到概念C,上下位关系被直接映射到概念层次Hc,整体词关系被映射到关系名“has-part”,部分词关系被映射到关系名“part-of”,反义词被映射到关系名“opposite-of”,2.3 数据的导入和处理技术,本体合并算法(FCA-Merge)步骤 抽取概念的外延描述,计算两个形式上下文K1和K2。 合并这两个形式上下文,然后生成一个概念格。 基于概念格生成最终的合并过的本体。,2.3 数据的导入和处理技术,2.3 数据的导入和处理技术,FCA-Merge(第一步):生成两个形式上下文。 形式上下文是一个三元组K:(G,M,I),其中,G是一组对象的集合;M是一组属性的集合;I是G和M间的二元关系,即I G×M,(g,m)I读作对象g具有属性m。,2.3 数据的导入和处理技术,2.3 数据的导入和处理技术,FCA-Merge(第二步):合并上一步生成的两个形式上下文,生成一个概念格。,2.3 数据的导入和处理技术,2.3 数据的导入和处理技术,FCA-Merge(第三步):从概念格生成新本体,2.3 数据的导入和处理技术,2.3 数据的导入和处理技术,FCA-Merge算法小结 输入:两个本体和一个自然语言文档集 输出:一个合并过的本体。 对输入数据有如下要求: 文档集应该和每个源本体都相关。 文档集应该包含源本体中的所有概念。 文档集应该能够很好的分离概念。,2.3 数据的导入和处理技术,文档的收集、导入和处理步骤 使用一个以本体为中心的文档爬虫来搜集网上的相关文档。 使用自然语言处理技术来进行文档的处理。 使用一个文档包装器将半结构化文档(如领域字典)转换成本体学习框架可以识别的格式(如RDF格式)。 将处理过的文档转换为本体学习算法可以识别的格式。,2.3 数据的导入和处理技术,总之,将数据转换为需要的格式是一个复杂的任务,该步骤处理的质量直接影响了下一步算法的生成结果。,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.4 本体学习算法,本体抽取算法 词条的抽取:(1)计算词频 (2)利用字典抽取词条 分类关系的抽取:(1)使用层次聚类技术(2)使用模式匹配技术(字典) 非分类关系的抽取:使用基于关联规则的挖掘算法,2.4 本体学习算法,本体维护算法 本体的修剪(发现和删除无关的概念) (1)基线修剪(2)相对修剪 本体的精练(对本体的精细调整和增量扩展)主要思想是先找出未知的词条,然后从本体中找出与其相似的概念并提交给用户,最后由用户决定该未知词条的意义。,3.本体的评价,目前还没有评价标准。 常用的评价方法 基于应用的评价,即通过使用本体的应用来评价本体本身。 使用同一个标准对两个本体交叉比较,例如把利用各种学习方法自动生成的本体和手工生成的本体相比较。,3.本体的评价,比较两个本体的方法: 精度(precision)和召回率(recall) 词汇级的比较 概念级的比较,3.本体的评价,精度 precisionOL = 召回率 recallOL = 其中,Ref是参照本体中元素的集合,Comp是比较本体中元素的集合。,学习生成的本体,手工生成的本体,3.本体的评价,词汇级的比较 该方法基于编辑距离(edit distance) 串相似度: SM(Li,Lj):max(0, ) 0,1,从一个串转换到另一个串所需要的最少操作步骤,例如ed(“TopHotel”,“Top_Hotel”)=1,例如SM(“TopHotel”,“Top_Hotel”)=7/8,返回1代表完全匹配,0代表不匹配,3.本体的评价,概念级的比较 分类关系的比较。综合考虑被比较概念的父子概念的相似度。 非分类关系的比较。综合考虑被比较关系的domain和range的相似度。,3.本体的评价,未来的研究方向 面向应用的评价 使用标准的数据集来评价主要困难是定义支持多语言的数据集,4.相关工作,(按照研究领域划分) 自然语言处理领域 该领域具有悠久的历史,它试图建立一个能够理解自然语言的系统。这类系统通常建立在大量领域知识的基础上。所以,该领域很早就开始研究如何半自动的建立领域知识,从而建立了一些针对语义知识的机器可读的字典。信息抽取也是自然语言处理的一个应用。,4.相关工作,数据库领域 基于给定的数据库建立语义数据模型研究可供借鉴。同时,一些数据挖掘技术,如关联规则的发现等,也可用于抽取语义关系。 机器学习领域 在从各种数据中学习新知识方面,该领域具有很长的研究传统。,4.相关工作,信息检索领域 从web文档中抽取领域知识的研究可供借鉴,尤其是对术语层次关系的聚簇研究。 知识工程和知识获取领域 该领域主要处理知识系统的建模。其半自动的知识获取的研究成果可供借鉴。,5.未来的研究方向,支持多语言的处理 从数据库、Web Schema和已有的实例中抽取本体结构 多种学习策略的混合 为抽取出来的非分类关系赋上语义 多用户协同的本体开发,谢谢!,

    注意事项

    本文(语义web中的本体学习OntologyLearningfortheSemanticWeb.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开