欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    自然语言处理与领域知识工程研究探索.ppt

    • 资源ID:2763880       资源大小:1.14MB        全文页数:94页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    自然语言处理与领域知识工程研究探索.ppt

    自然语言处理与领域知识工程 研究探索,穗志方 szfpku.edu.cn 北京大学计算语言所,内容,知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成,内容,知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成,知识工程,什么是知识工程? 1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念; 知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段; 以知识为处理对象,借用工程化的思想,对如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务进行研究的一门学科,是人工智能的一个应用分支; 知识工程的目的是在研究知识的基础上开发智能系统; 知识的表示、知识的获取和知识的运用构成知识工程的三大要素。,知识工程,知识工程的研究内容: 基础理论研究 实用技术开发 知识型系统工具研究,知识工程,基础理论研究:知识的本质、知识的表示、获取、推理和学习方法; 实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等 知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,基础理论研究:知识的本质、知识的表示、获取、推理和学习方法; 实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等 知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,大规模知识工程需要自动化的手段以保证知识库的规模、质量、一致性和时效性; 知识获取技术研究:利用NLP技术进行文本挖掘分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取; 知识型系统工具的建立:在知识系统的开发环境中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题;,领域知识工程,针对性 实用性 可行性,自然语言处理与领域知识工程 研究探索,基础与应用 以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术; 以NLP技术为工具,进行领域知识工程的实践。,内容,知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成,领域知识工程中的NLP技术研究,术语自动提取 术语间概念关系的自动提取 子类框架的设定及自动提取 句法语义角色标注,领域知识工程中的NLP技术研究,术语自动提取:从大规模的领域语料中自动发现术语(从自由文本中挖掘知识点),术语自动提取的任务,输入为切分好的文本语料 输出为候选术语列表,研究框架,什么是术语? 在特定专业领域中的一般概念的指称 (GB/T 15237.1-2000 术语工作 词汇 ) 术语的特点 一个词语,完整的语言单位(单元度) 出现频繁、结合紧密、使用自由 特定领域中的词语(领域度) 特定领域的一般概念 术语 = 单元度+领域度 单元度 = 内部结合紧密度+边界自由度 领域度 = 基于领域部件+分类语料库,术语自动提取系统框架,内部结合紧密度,字符串内部结合紧密度: 反应了一个字符串内部单元的结合稳定程度 使用MI(Mutual Information)来计算语料单元的内部结合紧密度 P(X,Y) X和Y共现的概率 P(X),P(Y)为X,Y单独出现的概率 可以把字符串序列看成随机事件,这样就可以计算字符之间的互信息。互信息值越高,X和Y 组成词的可能性越大;互信息值越低,X和Y 之间存在短语边界的可能性越大。,边界自由度,字符串边界自由度(Border variability of the string) 字符串的边界上出现多种符号的可能性度量 边界上出现的符号种类越多,自由度越大 左右熵 A 代表 在输入符号串左边出现的所有不同的字的集合 B 代表 在输入符号串右边出现的所有不同的字的集合 LeftEntropy 代表 符号串左边界的信息熵的大小 RightEntropy 代表 符号串右边界的信息熵的大小,领域度的计算可以从术语内外部两个角度来考虑 术语内部构成特征 术语内部不同位置用词特征 首末位置用词、词长、词性等 基于领域部件计算领域度方法 术语外部环境特征 术语在不同领域中的出现特征 频率、共现、排序等 无监督的rank相减方法 有监督的SVM方法,基于领域部件计算领域度,领域部件指的是领域术语组成中具有领域性的成分。 “大规模并行程序设计”/ “人民群众” 并行、程序 领域部件的获得 从分词、词性标注的14万IT领域中英文对照术语表中提取出领域部件、使用的位置、概率信息,来作为基于部件评价候选术语领域性的依据。,使用领域部件计算领域度 其中D为候选术语,D.pPrefix为在D首位置出现的领域部件的概率, D.pMidAverage为在D中中间位置出现的部件的概率的平均值,D.pSuffix为D中末位置出现的部件的概率。,基于分类语料库计算领域度,现有分类语料库资源,A:计算机领域候选术语 B:与计算机同层次的电子、自动化等领域语料 C:人民日报语料 ABC:是领域无关的平凡词 AB- ABC:排名靠前的有一些是IT领域的平凡词 AC- ABC:是否A领域的旧词新用?,SVM方法,术语提取分类问题 特定子领域的候选术语领域性计算问题,可以看作是对待处理语料中的候选术语进行分类的问题。,将A类语料看作一类样本,B类和C类看作另外一类样本。对候选术语的提取可以看作是将候选术语分类到A类和B,C类中的过程。 三类特征: 第一类特征是待处理词串在A类领域语料出现的特点(rank值、首尾词特征等);第二类特征是待处理词串在B类领域语料出现的特征(频率、词长等);第三类特征是待处理词串在C类领域语料中出现的特征。 使用SVM light工具包进行分类,领域知识工程中的NLP技术研究,术语间概念关系的自动提取:术语间概念关系提取的任务是:对于给定的两个术语,术语间概念关系提取首先要判断这两个术语之间是否存在某种关系,如果有,那么最终确定它们之间的关系类型。 (从自由文本中挖掘知识点之间的关系),supervised method,Conceptual relationships are provided by some parts of the text, by means of certain linguistic pattern. search linguistic pattern which expressing a special kind of conceptual relationship. X is a Y X is a kind of Y X such as LIST,corpus,Shallow parsing,Pattern learner,Term pair learner,Lex-syn patterns,Associate term pairs,Associate term pair set,Lex-syn Pattern set,Manually confirm,Manually confirm,acquisition of lexico-syntactic patterns,extraction of pairs of conceptual related terms,领域知识工程中的NLP技术研究,子类框架的设定及自动提取:建立动词与它所搭配的句法成分之间的搭配模式 中国 妇女 在“平等、发展、和平”的方向 上 取得了 历史性 的 伟大进步 取得:NP+PP+取得+NP,领域知识工程中的NLP技术研究,句法语义角色标注:在大规模文本中分析和标注动词与其搭配的句法成分之间的语法语义关系。 取得:NP+PP+取得+NP 施事:中国妇女 取得: 范围:在“平等、发展、和平”的方 向上 ? 结果:历史性 的 伟大进步 ?,汉语动词子类框架的设定及自动提取,对于汉语动词SCF研究,尤其是建立用于NLP的汉语动词SCF及语义资源知识库,首先要做的就是确立汉语中动词的SCF种类,即设定汉语动词SCF的集合,在这个基础上,可以通过机器自动获取的方式获取具体动词的SCF信息。,领域知识工程中的NLP技术研究,研究目标: 建立汉语动词子类框架模式集合 研究汉语动词子类框架的自动获取技术 获取汉语高频动词的子类框架的概率信息,汉语动词子类框架集合设置 参考“语法信息词典”动词的相关属性来设定 从句法规则抽象到SCF 利用N元统计在浅层句法分析的基础上提取SCF SCF获取技术也可用于SCF 模式的获取 以上策略的有机融合,汉语动词子类框架的自动获取,A frame work for subcategorization acquisition(1),A tagger A lemmatizer,A frame work for subcategorization acquisition(2),A probabilistic LR parser,A frame work for subcategorization acquisition(3),A pattern extractor Extracts subcategorization pattern A pattern classifier Assigning pattern to SCFs or rejecting as unclassifiable A SCF filter Evaluating sets of SCFs gathered for a predicate,领域知识工程中的NLP技术研究,术语自动提取 术语间概念关系的自动提取 子类框架的设定及自动提取 句法语义角色标注,内容,知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成,基于NLP的领域知识工程实践,项目名称: 知识元数据库及基础平台建设 中国新闻出版集团科技项目 合作双方: 北京大学计算语言所 中国大百科全书出版社 合作时间: 2005年8月-2006年7月 2006年8月-2007年7月,研究目标,建立知识元数据库及其基础平台。面向社会、面向不同知识层次的人群,提供知识服务。,社会意义,网络社会,信息泛滥 海量数据 300多亿个网页,每天以几百万增加 由于人阅读能力的限制,对某个人来说,网络上的大多数信息是垃圾,迫切需要信息服务工具!,目前的信息服务现状,Google、百度、 一人坐在计算机前,试图寻找需要的信息: 键入关键字:信息的目录已经应接不暇 翻着网页:犹如大海捞针 只能提供表层信息,不能准确地提供知识,目前的信息服务现状,(2)用户希望了解有关法律问题的相关知识,借助于网上的法律咨询服务系统,寻找与“交通事故”有关的法律知识。但提供的知识很局限,并且当需要了解这一点相联系的医学知识时,又断线,是一个片面的信息孤岛: 例如: 一场车祸 咨询:肇事司机应负的法律责任 如果造成被害人死亡或脑死亡,则 如何判断脑死亡?脑死亡的临床症状?,目前的信息服务只能提供表层信息,不能准确地提供知识,更不能实现不同领域知识之间的相互贯通。,由信息服务转化为知识服务!,社会意义,我国有13亿人口,大约有十亿人口为初中及初中以下文化水平 迫切需要: 建立面向和基于基础教育的知识传播和知识服务机制 实现全民教育,终身学习 提高广大人民的文化水平,经济效益,以医学为例: 建立系统全面的疾病基础知识数据库; 向人民大众普及准确权威的指病、治病、防病知识; 使大多数群众能够防患于未然; 从根本上降低整个社会在医疗方面的投资和成本。,核心理念:从语言到知识,在统一的知识表达架构之下整合不同领域、不同类型的知识资源,形成网状、互联、包含各领域核心知识的知识元数据库,并配套提供知识库建设及应用的系列支撑软件 在此基础上催生多种知识服务类型与方式 引领信息服务到知识服务的转型,提供精、准、快的知识服务。,从自然语言和知识概念两个层面建设人机沟通的桥梁,知识元数据库?,现有的中文网络数据库:清华同方CNKI数字图书馆,万方科技系统数据库、维普科技期刊数据库,超星图书馆等 基于文献的资料库:注重对不同来源文献、网页的收集与索引。面向学生、学者,提供对整篇文献的查询结果。,检索“高血压”,检索结果:5245条记录,什么是高血压?,高血压的症状有哪些?,确诊高血压要做哪些检查?,怎样预防高血压?, ?,知识元数据库,以知识元为知识表示的基本单位,通过建立知识元之间的概念关联,构建网状、互联的知识元数据库。,高血压,症状,头痛,心脏杂音,心律失常,疲劳,眩晕,高血压,实验室检查,血细胞计数,尿分析,心电图,血压测定,高血压,并发症,高血压脑病,脑出血,脑梗塞,心力衰竭,肾功能衰竭,症状,实验室检查,并发症,知识系统、全面、准确,精品知识,广泛、全面的互联,消除信息孤岛,以知识元的形式表示知识,计算机充分理解和使用,特点:,有什么用?,下一代互联网语义网的基础构件 语义Web 与当前Web 的最大区别是:内容层之上提供了本体层这个描述语义的层次。,有什么用?,在商业系统中的广泛应用: 决策支持系统、行业垂直检索、软件工程、电子商务、半导体制造、飞机设计、企业过程管理,有什么用?,全方位、多样化、个性化的知识服务 智能检索、远程教学、知识咨询,有什么用?,全球化的知识交流与共享,知识元数据库与现有网络数据库的对比,自然语言处理、文本挖掘、知识组织,怎么做?,将线性的百科全书、文献资料转变为计算机可以理解和操作的结构化知识库。,知识元数据库建设步骤,收集整理不同领域、不同类型的知识资源; 利用中文自然语言分析技术分析文献; 发现知识点以及知识点之间的内在关联 将大量的知识点结构化地组织和关联起来,产生信息智能连结; 在统一的知识表达架构之下分类、重组、合并、整合,形成网状、互联的知识元数据库。,中文自然语言分析技术,文本挖掘技术,知识表示与知识组织,从自然语言和知识概念两个层面建立人机沟通的桥梁,本期定位,建立知识元数据库是一项规模浩大的知识基础设施工程,应分阶段进行; 本期选择医学领域作为实验学科,通过建立该学科的知识元数据库,探索并确立建立知识体系的科学方法和基本原则,建立知识元数据库的构建平台以及建立知识元数据库的服务示范平台,为下一期建立更多学科的知识元数据库做准备。,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程 建立知识元数据库的服务示范平台,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程 建立知识元数据库的服务示范平台,建立知识元数据库的知识描述体系,选择实验学科 确定原始资料来源 确定服务对象、服务方式以及服务范围 知识元的选取 知识元的表示 确定知识元之间的关联关系,建立知识元数据库的知识描述体系,知识描述体系的基础: 美国国立医学图书馆编纂的医学主题词表(MeSH) 第一级知识重组以“疾病”为核心组织知识 从树状结构转变到网状结构!,建立知识元数据库的知识描述体系,第二级知识重组以“临床”为核心组织疾病类知识 从服务于文献检索转变到服务于临床诊断!,建立知识元数据库的知识描述体系,第三级知识重组主题词与自然语言的互联,NLP语义分析 利用自然语言分析技术将知识解析为知识基本单元,建立网状、互联、结构化的知识元数据库 自然语言分析、知识点挖掘、主题标引 从传统的知识描述转变到智能化的多维网状描述!,建立知识元数据库的知识描述体系,特点: 立足国际标准 面向临床实践 多维网状的知识描述 NLP智能分析,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程 建立知识元数据库的服务示范平台,开发知识元数据库辅助构建平台,实现数据库的基本编辑功能: 结构的调整 内容的编辑 内容的检索 实现基于NLP的智能编辑功能: ,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程 建立知识元数据库的服务示范平台,实现知识元数据库的智能化编辑流程,传统的编辑流程: 医学专家在编辑平台上录入知识库内容 !领域知识工程的瓶颈: 专家时间少; 专家不能熟练操作计算机 !为快速准确地建立大规模精品知识库,必须设计更优的编辑流程,!智能化解决方案,利用NLP技术尽量将专家的劳动降到最低 智能编辑流程: 选定教材(医学专家)勾选内容(医学专家在教材上)确定录入格式(软件工程师)批量录入(录入员)NLP智能化处理(软件工程师)自动导入编辑平台(软件工程师)修改确认(医学专家在编辑平台上),开发知识元数据库辅助构建平台,实现基于NLP的智能编辑功能: 从半结构化文本中自动提取知识元 针对每个知识元,针对它对应的属性集合,通过自然语言分析、模式匹配等技术自动提取属性值; 属性知识的自动标引 多来源异构知识的融合,开发知识元数据库辅助构建平台,特点: 多样化的导入、导出方式; 强大的编辑功能 强大的检索功能 多层次网络的知识互联 基于NLP的智能化编辑 为快速准确地建立大规模精品知识库搭建基础平台!,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程 建立知识元数据库的服务示范平台,建立知识元数据库的服务示范平台,基于知识元数据库进行相关的知识服务:建立网上疾病咨询服务平台。,建立知识元数据库的服务示范平台,基于知识元数据库的知识检索与文本挖掘 基于知识元数据库,自动生成医学知识,引证和补充百科知识库; 基于知识元数据库,从互联网中搜索相关文献,提高网络搜索的查准率; 在搜索文献基础上分析文献内容,基于知识元数据库整理相关数据,形成对当前最新研究现状的总结、述评以及趋势预测; 通过以上几方面的分析对比,基于网络资源更新百科全书,基于百科全书指导网络资源的开发和利用。,展望,建立知识元数据库是一项规模浩大的知识基础设施工程,第一阶段选择医学领域作为实验学科,建立了知识元数据库基础平台; 下一阶段,将在本期成果的基础上从深度和广度上拓展知识元数据库。 最终目标是建立包含各领域核心知识的网状、互联的多领域核心知识元数据库 在此基础上支撑多种知识服务类型与方式 为建立新一代知识服务奠定资源基础。,下一阶段的具体研究目标,(1)平台功能的扩充:自然语言处理技术、网络内容提取和挖掘技术 (2)医学领域的深入开发 (3)更完善的知识服务。,内容,知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成,研究历程,2002年,中国标准化研究院项目“信息科学技术领域术语库的建设及术语自动提取软件的开发” 资源、软件:术语库、语料库、术语自动提取软件 2003年,863项目“奥运多语言智能信息服务系统关键技术及示范系统研究 ” 资源:旅游、商务、餐饮、体育领域的术语库 2004年,中国大百科全书出版社项目“面向百科全书编纂的语言分析及知识更新平台” 知识库建设平台初步:语言分析及知识更新平台 2005年-2007年,北京市自然科学基金项目“基于自然语言文本分析的领域知识库建造技术研究 ” 2005年-2009年,973课题“文本内容理解的数据基础”“人机互动的百科知识工程” 面向领域知识工程的NLP技术研究 人机交互的领域知识库构建平台建设 2006年-2008年,国家自然科学基金项目“汉语动词子语类框架自动获取技术研究” 汉语动词子语类框架自动获取技术 高频动词的子语类框架概率信息,研究框架,基础与应用 以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术; 以NLP技术为工具,进行领域知识工程的实践。,研究框架,平台的构建 资源的建设 关键技术的研发 基于领域知识的知识服务,研究框架,平台的构建 基于NLP的知识元数据库开发平台 资源的建设 多领域术语库 信息科学技术语料库 现代医学心血管疾病、计算机硬件知识库原型 关键技术的研发 术语自动提取软件 术语间概念关系自动提取原型系统 子类框架自动获取 关系提取,知识库构建平台,领域术语库 领域语料库 领域知识库,基于NLP的 知识获取技术,训练集,集成以提高自动化程度,规模化建设,知识服务,谢谢!,

    注意事项

    本文(自然语言处理与领域知识工程研究探索.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开