面向中文电子病历的NLP关键技术研究.ppt
《面向中文电子病历的NLP关键技术研究.ppt》由会员分享,可在线阅读,更多相关《面向中文电子病历的NLP关键技术研究.ppt(39页珍藏版)》请在三一文库上搜索。
1、面向中文电子病历的NLP关键技术研究,2014年4月13日 Copyrights 2014 HIT All Rights Reserved,蒋志鹏 关毅 哈尔滨工业大学计算机学院 xyf-,电子病历(EMR),医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,2014年4月13日 Copyrights 2014HIT All Rights Reserved,中文电子病历(CEMR),对患者身体状况的半结构化专业描述,2014年4月13日 Copyrights 2014HIT All Rights Res
2、erved,中文电子病历(CEMR),医疗大数据 每天约800份 每月约15000份 每年约15万份,2014年4月13日 Copyrights 2014HIT All Rights Reserved,中文电子病历(CEMR),2014年4月13日 Copyrights 2014HIT All Rights Reserved,目前在CEMR方面展开的研究工作,CEMR句法树库构建,2014年4月13日 Copyrights 2014 HIT All Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,语法标注规范制定,2014年4月13日 Copyrigh
3、ts 2014HIT All Rights Reserved,基于PCTB规范进行迭代修订 人机互助 医生协助 一致性评价,语法标注规范制定,2014年4月13日 Copyrights 2014HIT All Rights Reserved,规范中一些重要修订 筛选、补充、细化PCTB词性标注规范 例如,“伴有视物模糊”中的“视物” 提出适用于CEMR的术语切分方案 PCTB:“吃饭”不切分,“吃梨”“吃桃”切分 CEMR:“持物”“抗凝”是否切分?,以“抗凝”为例:,语法标注规范制定,2014年4月13日 Copyrights 2014HIT All Rights Reserved,标注质量
4、控制 表1 规范修订前后主要词性歧义项分布 表2 前3次迭代分词和词性标注准确率及一致性,语法标注规范制定,2014年4月13日 Copyrights 2014HIT All Rights Reserved,分词、词性标注、句法标注规范,语法标注规范制定,2014年4月13日 Copyrights 2014HIT All Rights Reserved,标注结果 138份带有词性、句法标签的电子病历 来自神经内科和普通外科 包括出院小结和首次病程记录,语法标注规范制定,2014年4月13日 Copyrights 2014HIT All Rights Reserved,CEMR句法树库构建的主要
5、困难: 目前没有任何基于CEMR的标注语料 各级标注均需要医生的参与 不同医疗机构、不同科室病历差异较大,CEMR句法树库构建,2014年4月13日 Copyrights 2014 HIT All Rights Reserved,语法标注规范制定 语法标注结果分析 高精度词性标注系统,语法标注结果分析,2014年4月13日 Copyrights 2014HIT All Rights Reserved,CEMR文本语言的特点: 包含大量专业术语(如“共济运动”、 “脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”) 常用数字、量词和形容词表示检查结果(如“100/70m
6、mHg”) 句子结构不完整,但规律性较强 频繁使用并列长句,导致句法结构趋于扁平,语法标注结果分析,2014年4月13日 Copyrights 2014HIT All Rights Reserved,通用标注模型效果 词性标注 平均准确率仅为 82.35%,Fig.2a 出院小结各部分标注效果 Fig.2b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日 Copyrights 2014HIT All Rights Reserved,通用标注模型效果 句法分析 F1(auto pos) :53.58% F1(gold pos) :73.19%,Fig.3a 出院小结各部分标注
7、效果 Fig.3b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日 Copyrights 2014HIT All Rights Reserved,实验数据: 训练集:56份中文电子病历 调试集:14份中文电子病历 实验结果:,CEMR句法树库构建,2014年4月13日 Copyrights 2014 HIT All Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,系统处理流程,2014年4月13日 Copyrights 2014HIT All Rights Reserved111,中文分词与词性标注的联合模型,2014年4月13日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 中文 电子 病历 NLP 关键 技术研究
链接地址:https://www.31doc.com/p-2262755.html