语义web中的本体学习OntologyLearningfortheSemanticWebP.ppt
《语义web中的本体学习OntologyLearningfortheSemanticWebP.ppt》由会员分享,可在线阅读,更多相关《语义web中的本体学习OntologyLearningfortheSemanticWebP.ppt(58页珍藏版)》请在三一文库上搜索。
1、语义web中的本体学习 Ontology Learning for the Semantic Web,报告人:李 曼 中国人民大学信息学院,主要内容,研究背景 本体的学习 本体的评价 相关工作 未来的研究方向,1.研究背景,BernersLee在2000的XML大会上正式提出了语义web。 语义web是对当前web的扩展。语义web上的信息具有定义良好的含义,使得计算机之间以及人类能够更好的彼此合作。,1.研究背景,语义web采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,具有重要的地位。本体的构建是实现语义web的关键环节。,1.1 本体,Ontology是共享概念模型的明确的
2、形式化规范说明。 “概念模型”:指Ontology是通过抽象出客观世界中一些现象的相关概念而得到的模型。 “明确”:指Ontology所使用的概念及概念的约束都有明确的定义。 “形式化”:指Ontology是计算机可读的(即能被计算机处理)。 “共享”:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集(即Ontology针对的是团体而非个体的共识)。,1.1 本体,Ontology的结构是一个五元组 O:= C, R, Hc,rel,AO C:概念; R:关系; Hc:概念层次,例如HC(C1,C2); rel:概念间的关系, 例如,rel(R)(C1,C2); AO
3、:用某种逻辑语言表示的一组本体公理。,C1是C2的子概念,C1和C2具有关系R,1.2 本体的应用,语义web,1.2 本体的应用,问题 :XML在处理语义上存在两个问题 同义词; 一词多义 解决:引入本体 本体通过对概念和概念间关系的严格定义来确定概念的精确含义,表示共同认可的、可共享的知识。 对于本体来说,Author,Creator是同一个概念,而Doctor在大学和医院分别表示的是两个概念。因此,在语义web中,本体是解决语义层次上web信息共享和交换的基础。,1.2 本体的应用,自然语言理解 全面的理解自然语言需要整合大量的知识源。以本体形式表示的领域知识是深入理解文本的基础。目前在
4、基于本体的信息抽取方面已有一些研究成果。 知识管理 知识管理主要是处理一个组织中知识的获取、维护和访问。其中,本体可以用于对无结构信息进行语义标注,从而使得信息的整合和访问更容易。,1.2 本体的应用,电子商务 在电子商务中,交易的自动化要求对商品进行形式化描述,因此,需要一个标准化的词汇表本体。本体有助于对内容意义的精确、高效通信,同时促使系统的交互式操作、重用和共享等一系列的性能得以提高。,1.2 本体的应用,从上述应用可以看出,这些应用领域的一个共同需求是共享某个领域内的知识。而提供共享概念模型的明确的形式化规范说明正是本体的主要目标。所以,这些领域的许多难题都能够通过使用本体来解决。,
5、1.3 本体的构建,手工:费时费力,容易出错 全自动:适用性不强 半自动:可行,其核心技术是本体的学习利用知识发现技术从数据源中获取知识,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.1 本体学习周期,(导入/重用、抽取、修剪和精练),2.1 本体学习周期,导入和重用阶段 该阶段可以作为整个本体学习过程的开始。主要步骤: 选择有关的本体,并定义导入策略。 例如,定义一个本体包装器(wrapper),支持从一种本体描
6、述语言转换为另一种语言。 合并导入的概念结构,作为其它阶段的基础。,2.1 本体学习周期,抽取阶段 利用导入的本体,抽取出新的知识。在这个阶段,本体学习技术部分依赖于给定的本体部分,所以,当本体被修订过一次后又会引起新的抽取结果,这是一个反复增长的模型。,2.1 本体学习周期,修剪阶段 本体结构的修剪可以使本体适应给定的应用。 该阶段需要考虑两个方面: 对本体中某个特殊部分的修剪将如何影响整个本体用户驱动 保留或修剪本体元素的策略 应用驱动,2.1 本体学习周期,精练阶段 利用给定的领域本体,以更细的粒度完善本体 。 精练和抽取具有类似的功能。原则上,同样的算法既可以用于抽取也可以用于精练。抽
7、取主要用于整个本体(或至少是本体中非常有意义的部分)的建模,而精练是对目标本体的精细的调整。,2.1 本体学习周期,上述四个阶段都可以单独执行,且某些阶段可以被跳过。 例如,导入一个本体,然后根据指定的应用程序数据直接修剪该本体。,2. 本体学习,2.1 本体学习周期 2.2 本体学习框架 2.3 数据的导入和处理技术 2.4 本体学习算法,2.2 本体学习框架(TEXT-TO-ONTO),2.2 本体学习框架,输入数据源 本体,一种特殊的数据源。例如,词汇语义网络(WordNet,GermaNet),领域本体,词典(轻量级本体)。 Schema Dababase Schema,例如关系数据库
8、模式 Web Schema,例如DTD,XML-Schema,2.2 本体学习框架,输入数据源 实例,即数据库或知识库中的实例集合,它们是领域概念的外延描述。 半结构化数据 自然语言文本,2.2 本体学习框架,主要的组件 数据导入和处理组件发现、导入、分析和转换有关的输入数据。产生一组预处理数据作为算法库组件的输入 本体包装器 本体合并器 基于本体的文档爬虫器 自然语言处理系统重要 文档包装器将字典或一些半结构化文档转换为指定格式 转换模块将自然语言处理后的文档转换为指定格式,2.2 本体学习框架,主要的组件 算法库组件提供许多本体抽取和本体维护算法。可以采用综合多策略学习结果的方法,即标准化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语义 web 中的 本体 学习 OntologyLearningfortheSemanticWebP
链接地址:https://www.31doc.com/p-3304620.html