bb学语言系统(UMLS)的语义检索实验研究.pdf
《bb学语言系统(UMLS)的语义检索实验研究.pdf》由会员分享,可在线阅读,更多相关《bb学语言系统(UMLS)的语义检索实验研究.pdf(61页珍藏版)》请在三一文库上搜索。
1、上海大学 硕士学位论文 基于一体化医学语言系统(UMLS)的语义检索实验研究 姓名:董小芸 申请学位级别:硕士 专业:情报学 指导教师:王金夫 20041201 摘要 随着计算机技术和网络技术的迅速发展,信息检索技术也有了很大发展。 信息检索( R ) 按信息表达形式的不同,可分为文本检索、多媒体信息( 如图片、 音像) 检索等方面。其中,文本检索是最重要、最普遍的。但是,无论是基于关 键词还是基于概念的文本检索,均以词匹配模式为核心。使用一个个孤立的关键 词或概念标识检索或标识文本,无疑割裂了原始文本的逻辑语义。由于自然语言 表达的复杂性,词匹配的这种自身缺陷可能是限制其检索效率进一步提高的
2、重要 原因。 医学是信息密集程度最高的学科之一。目前医学界,使用最频繁的外文数 据库是M E D L I N E ,它是N L M 开发的基于M e S H 词表的文摘型数据库,它所提 供的检索方式主要是主题词检索和自由文本词检索。都以词匹配模式为核一心。 为改善检索效率,本文在深入分析U M L S 超级叙词表和语义网络的基础上, 借鉴国内外语义网络研究成果,结合实际检索工作,以P o w e r b u i l d e r8 0 和S Q L S e r v e r2 0 0 0 为工具,建立了基于U M L S 的语义检索实验系统,并对主题词检索 和语义检索和自由文本词检索这三种检索方式
3、的检索效率进覃亍比较分析,结果表 明:语义检索的检索效率明显高于另外两种检索方式。 关键词 语义网络语义类型语义关系语义检索一体化医学语言系统( U M L S ) A b s t r a c t W i t ht h ed e v e l o p m e n to f c o m p u t e rs c i e n c ea n dn e t w o r ks c i e n c e ,I R ( i n f o r m a t i o n r e t r i e v a l ) a l s oh a sm a d eg r e a tp r o g r e s s T h e r ea
4、r em a n yI Rm e t h o d s s u c ha s t e x t w o r d sI R ,m u l t i m e d i aI R ( e g i m a g e s ,s o u n d ) a n dt e x t w o r d sI Ri sm o s t i m p o r t a n ta n dm o s tp r e v a l e n t H o w e v e r , b o t hk e y w o r d - b a s e dI Ra n dc o n c e p t - b a s e d I Rf o c u so nt h em
5、 o d e lo fw o r dm a t c h i n g T h e yi n d e x e st h et e x tw i t ht h es e p a r a t e d k e y w o r do rc o n c e p t ,w h i c hd i s s e v e r so rm i s r e p r e s e n t st h em e a n i n go ft h eo r i g i nt e x t M a y b et h el i m i t a t i o no fw o r dm a t c h i n gi sa l li m p o
6、r t a n tr e a s o nf o rl o wr e t r i e v a l e f f i c i e n c y M e d i c i n ei so n eo ft h ei n f o r m a t i o n i n t e n s i v es u b j e c t s A tp r e s e n t ,M E D L I N E , o n eo fm e d i c a la b s t r a c td a t a b a s e sd e v e l o p e db yN a t i o n a lL i b r a r yo fM e d i
7、c i n e ,i su s e d m o s tf r e q u e n t l yi na l lt h ef o r e i g nm e d i c a ld a t a b a s e s I tp r o v i d e st w ok i n d so fI R m e t h o d s ,t h a ti s ,s u b j e c tI Ra n dt e x t - w o r d 皿B o t h 瓜m e t h o d sf o c u so nt h em o d e lo f w o r d m a t c h i n g I no r d e rt o
8、i m p r o v et h ee f f i c i e n c yo fm e d i c a li n f o r m a t i o nr e t r i e v a ls y s t e m ,t h i s a r t i c l ei n t r o d u c e sa ne x p e r i m e n t a lr e s e a r c ho fs e m a n t i cr e t r i e v a lb a s e do nU M L S A f t e rat h o r o u g hi n v e s t i g a t i o no fc u r r
9、 e n ts t a t u so fi n f o r m a t i o nr e t r i e v a lo fm e d i c a l t e x t ,u s i n gt h es e m a n t i cr e s e a r c ha c h i e v e m e n t s ,w ep e r f o r m e da l la n a l y s i so fU n i f i e d M e d i c a lL a n g u a g eS y s t e m ( U M L S ) i nd e t a i l s T h e nw eb u i l ta
10、n e x p e r i m e n t a l s e m a n t i c 玎ls y s t e mw i t ht h et W Ok i n d so f s o f t w a r e P o w e r b u i l d e r 8 0 S Q LS e r v e r 2 0 0 0 A tl a s tw e c o m p a r e da n da n a l y z e dt h ee f f i c i e n c yo f t h r e eI Rm e t h o d sa n dt h e n m a d eac o n c l u s i o nt h
11、a tt h es e m a n t i cI Ri sm o r ee f f i c i e n tt h a ns u b j e c tI Ra n d t e x t w o r dI R K e y w o r d s S e m a n t i cN e t w o r k ,S e m a n t i cT y p e ,S e m a n t i cR e l a t i o n , S e m a n t i cI n f o r m a t i o nR e t r i e v a l ,U n i f i e dM e d i c a lL a n g u a g e
12、S y s t e m ( U M L S ) J J 图表目录 图 图2 1U M L S 语义网络的部分示意图 图2 - 2a f f e c t s 及其下位关系, 图2 3 应用U M L S 语义网络表达自然语言的语义关系 图4 1 主题词检索( 未扩展) , 图4 - 2 主题词检索( 扩展) 图4 - 3 语义检索( 未扩展) 图4 - 4 语义检索( 扩展) 图4 - 5 自由文本词检索 表 表2 1 超级叙词表中概念表达的三级结构模式 表2 - 2 语义类型表, 表2 - 3 语义关系表, 表3 1C o n c e p t 的结构, 表3 2S e m a n t i cT
13、 y p e 的结构 表3 - 3R e l a t i o n s h i p 的结构。 表3 - 4S e m a n t i c R e l 的结构 表3 - 5 蕴含词词表的结构, 表4 - 1 各种检索方式的检索结果数据分析 表4 - 2 各项参数 表4 - 3 各评价指标及其计算公式 表4 - 4 各种检索方式的检索结果与评价指标 ” 引 训 9 伯 孙 盯 盯 “ “ 们 牾 卯 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他入已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已
14、在论文中作了明确的说明并表示了谢意。 签名:塑日期塑_ 兰 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:瓤、文 导师毒兰茎眺型竖 占查盔堂堡圭兰丝堡皇薹王= 壁些堕兰重童薹堕( 型坚量1 2 塑堕墨蝗塞壅墼型塞 第一章引论 随着计算机技术和网络技术的迅速发展,信息检索技术也有了很大发展。信 息检索( 皿) 按信息表达形式的不同,可分为文本检索、多媒体信息( 如图片、 音像) 检索等方面。其中,文本检索是最重要、晟普遍的。 1
15、1 文本检索的类型, 1 1 1 基于关键词的文本检索 所谓关键词,是指那些出现在文献的标题( 篇名、章节名) 以至摘要、正文 中的,对表征文献主题内容具有实质意义的语词。例如“眼镜蛇毒素抗类风湿性 关节炎作用研究”,其中“眼镜蛇毒素”、“类风湿”、“关节炎”三个词是关键词。 与人工语言相比,关键词直接来自人们熟悉的自然语言,易用性较好,易于计算 机进行大规模信息处理。但也明显存在着些不足,如无法显示语词之间的相互 关系,产生许多歧义现象,多义词、同形异义词、同义词及近义词大量存在,直 接影响查准率和查全率。词量过多过杂也易造成分散主题、过多占用存贮空间、 概念关系的隐含性也无法反映等。 1
16、1 2 基于概念的文本检索 与关键词检索相比概念检索有了进步。概念检索是指使用某一检索提问词 进行检索时,通过后控制词表等技术,能同时对该词的同义词、近义词、广义词、 狭义词进行检索以达到扩大检索,避免漏检的目的。例如,当您使用“肿瘤” 检索时,检索结果不仅包括“肿瘤”的内容,还包含“癌”、“肉瘤”等的内容。 但由于一般词表词汇收录量有限,同义词、近义词、广义词、狭义词难以全面覆 盖,对检索效率也有影响。 盖,对检索效率也有影响。 参见B a c z a Y a t c s R i b e i r o N c t o BM o d e r n I n f o r m a t i o nR e
17、t r i e v a l A d d i s o n W e s l e y , 1 9 9 9 1 1 3 以词匹配为核心的不足 无论基于关键词还是基于概念的文本检索,都是以词匹配模式为核心。使用 一个个孤立的关键词或概念标识检索或标识文本,无疑割裂了原始文本的逻辑语 义,割裂了文献真正的思想内涵。由于自然语言表达的复杂性,词匹配的这种自 身缺陷可能是限制其检索效率进一步提高的重要原因。 1 1 4 人工语言的启示 人工语言通过对概念的严格限定和组配规则的人为规定,以概念组配的形式 在一定程度上表达了其标识文本的逻辑语义,并且达到较高的查全率和查准率。 M E D L 旺是这一应用的典型代
18、表,例如: 组胺引起的消化性溃疡 标引为:消化性溃疡化学诱导 组胺副作用 然而在文本信息数量庞大,增长迅速的今天,人工对文本信息进行加工标引 受到了严重的挑战。特别是网络信息,不仅数量巨大,而且是动态变化的。从用 户角度看,对最终用户来讲,有两种实现检索的方式。一种是学习人工语言规则, 接受较为繁琐的系统培训,直接上机检索;第二种是通过专业检索人员作为中介 来检索。这两种方式都使最终用户对信息检索系统的利用受到了某种程度的限 制。 1 2 自然语言理解与语义检索及其国内外研究进展 “自然语言处理”和“知识库”的发展,使用基于自然语言理解的语义检索 系统实现成为可能。语义检索是在概念基础上进行语
19、义关系规范。国外已由理论 研究开始转向应用,而国内更多的处于理论与基础研究阶段。 自然语言理解就是如何让计算机能正确处理人类语言,并据此做出人们期待 的各种正确响应。由于“语言是思想的直接实现”,社会的一切进步乃至生存都 离不开语言,这使得语言学几乎与所有的学科都存在着密切的联系,增加了语言 研究的难度。因此,自然语言理解的研究不但要运用语言学中的词汇、语法、句 圭塑盔堂塑圭堂垡堕塞 董士= 签些垦堂堡重丕堑型望生旦箜重墨塑墨壅堕婴壅 法、语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其相关学 科的知识。 通常所说的计算机理解了某些事件,实际上是把这些事件的一种表示形式转 换为另一
20、种表示形式,每种表示形式对应着一组动作。为得到关于理解的总体描 述,通常将语言看成是源语言和目标语言的二元组,两者存在着映射。理解自然 语言之所以困难,有三个重要因素:2 ( 1 )目标表示的复杂性:如语义的概念依存网表示,从语句中提取这种 表示的关键字相当复杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型:对于源语言到目标语言表示的映射,一对一类型是最 理想的。但现实中,自然语言到目标语言表示的映射极难达到一对一的要求。 ( 3 ) 成分间的交互程度:在语言中,每个语句都是由多个成分组成的, 若每个成分的映射与其他成分无关,那么,映射过程就比较简单。遗憾的是, 自然语言中的成
21、分交互程度相当高,句子中改变一个成分,常常会大大改变句 子的整体结构,这使得映射的复杂程度大大增加。 通常,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个 词:从词义构造表示语句意义的结构;从句子语义结构表示言语的结构。在 这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各 种知识问题。 国外关于自然语言理解方面的研究起步较早,一些卓有成就的语言学家、逻 辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系 列较为系统的理论的方法。其中语义网络在人工智能的知识表示中有着广泛的应 用。 语义是指语言文字的涵义或意义。语义分析是对能够表达明确概念的
22、字词等 语义要素内涵意义的理解和认知过程。语义网络是一种采用网络形式表示人类知 识的方法。形式上,一个语义网络是一个带有标识的有向图,其中带有标识的结 点用来表示概念,结点之间的有向弧用来表示结点与结点之间的语义关系。在语 义分析的基础上,构建完善的语义网络对于自然语言处理和智能信息检索具有重 要的意义。 2 参见郭艳华,周昌乐自然语言理解研究综述杭州电予工业学院学报2 0 0 0 2 0 ( 1 ) :5 9 占壁2 三兰堕主堂鱼笙塞董王= 堡垡匪兰堕宣薹堑堡型生坠盟亟墨堡墨壅墼翌! 基 早期的语义网络推理过程是1 9 6 8 年由美国Q u i l l i a n ( 奎廉) 作为人类联想
23、记 忆的一个显式心理学模型而提出的3 。1 9 7 0 年话蒙在Q u i l l i a n 工作的基础上正式 提出了语义网络概念。由于语义网络表示知识简洁、直观,且不必遍历整个庞大 的知识库,因此在自然语言理解、专家系统等领域有很广泛的应用。语义网络实 际上是对人类思维的模拟,能够用语义网络进行知识推导。可以用有向图来表示 语义网络,在这个网络中,代替概念的单位是节点,代替概念之间语义关系的则 是节点间的连接弧,称为联想弧,因此这种网络又称为联想网络。 本文的主要内容是基于U M L S 的语义检索实验研究,从论文发表情况看, 国外对于U M L S 的利用大多集中在决策支持、知识获取、检
24、索等方面,N L M 已经 将U M L S 的研究成果初步应用于P u b M e d ( h t r p :w w w n c b i ,n l m n i h g o v e n t r e z q u e r y , f c g i ) 、C l i n i c a l T r i a l s g o v 、I n d e x i n gI n i t i a t i v e 等。P u b M e d 的功能比M E D L I N E 要强,在P u b M e d 中输入检索词,如果M e S H 中有对应的主题词,那么P u b M e d 会同时将对应的主题词也检索出来,如果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- bb 语言 系统 UMLS 语义 检索 实验 研究
链接地址:https://www.31doc.com/p-3579574.html