医妇科常见病医案数据挖掘方法研究.pdf
《医妇科常见病医案数据挖掘方法研究.pdf》由会员分享,可在线阅读,更多相关《医妇科常见病医案数据挖掘方法研究.pdf(90页珍藏版)》请在三一文库上搜索。
1、1 Y9 3 3 s 2 9 , 密级: 分类号: 单位代码:8 4 5 0 2 学号:8 4 5 0 2 2 0 0 3 0 2 0 9 1 0 中国中医科学院 2 0 0 3 级情报学专业硕士学位论文 中医妇科常见病医案数据挖掘方法研究 申请人:李园自 专业:情报学 研究方向:中医药信息数字化与网络化 导师:崔蒙研究员 导师组成员:尹爱宁研究员 范为宇研究员 中国中医科学院中医药信息研究所 2 0 0 6 年5 月北京 原创性声明 Y9 3 5 8 2 9 本人郑重卢明:所呈交的学位论文,是在导师的指导下独市完成的,文中除注明引 片j 的内容外,不包含任何其他已经发表的科研成果。对本文研究
2、做出重要贡献者,己在 文中以明确的方式表明。本声明的法律责任完全由自己承担。 论文作者签名趁导师签名盈 关于学位论文使用授权的声明 本人完全知道中国中医研究院有关使用学位论文的规定,同意学校保留或向有关部 门机构送交论文的复印件和电子版,允许被查阅和借阅。本人授权中国中医研究院可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他 手段保存和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签 日期丝竖苎笋目 中医妇科常见疾病医案辨证用药规律数据挖掘分析 中文摘要 数千年来,中医药学绵亘不绝,积累的数据可谓浩如烟海。目前中医药情报 l :作者面临的问题,
3、足如何从海量数据中深入、准确、快捷地提取出有价值的知 识,为临床和科研服务。本课题从蕴含丰富中医知识的医案入手,利用数据挖掘 技术对四种妇科常见疾病医案进行处理,并从临床角度展丌分析。文巾探讨了这 种新型信息技术在中医药医案数据分析中的应用效果,并认识到其获取的新知 识,时临床研究具有一定的参考意义。期望本课题研究能为数据挖掘技术在中医 药信息领域的应用提供方法学参考。 1 研究背景 目前,已经有许多研究人员应用数据挖掘中的关联分析技术对中医药数据进 行处理。如成都中医药大学与四川大学合作对脾胃病方的数据挖掘,中困中医研 究院中医药信息所与浙江入学合作对中国方剂数据库、中医药临床文献题录库和
4、现代生物医学文献库的数据挖掘以及西南交通大学对乙肝医案的数据挖掘,加上 一些小型的零散研究,研究数目共计十一项,涉及研究单位| :家。 但中医药领域的数据挖掘研究是近四、五年来才逐步丌展起来,应用尚属初 级阶段,其局限性小可避免,概括如下: 首先原始资料基本局限于医案或方剂,内容大多是药对的提取,导致挖掘结 果只限于方剂的配伍方面;其次无论是利用已有数据库还是自行建立的数据库, 都缺乏对数据规范深入系统的研究,从而影响了数据挖掘效果;最后关于结果的 分析,以往研究大都停留在验证已有理论,而对于传统知识中未包含的新鲜知识, 未能进一步分析,使得数据挖掘结果的含义很难解读,直接影响挖掘结果的利用。
5、 2 研究内容 本课题以四种妇科常见疾病为例,利用数据挖掘技术对医案数据进行处理分 析。本课题的研究过程主要包括确定研究目标、数据采集、数据预处理、数据处 理、结果分析五部分。 2 1 确定研究目标 采用关联分析技术对妇科四种常见病医案从巾药、证型、症状i 个方面进行 数据挖掘。 2 2 数据采集 为了获得可靠的结果,对所收录医案的病种、数量、医家、时间、内容等进 行了严格控制。 2 2 1 病种通过检索巾医药期刊文献数据库( 中医药信息研究所研制) ,调 查了1 9 8 4 年以来十四种妇科常见疾病相关论文发表情况,本课题选择了文献量 撮多的四种疾病崩漏、闭经、不孕、痛经进行研究。 2 2
6、2 医家为了保证数据质量,医案全部选自经验丰富的中医专家医案, 医家的出生年代限制在二十世纪二、三十年代。为了避免医家医案数量选择的不 均衡导致挖掘结果的偏差,数据库中单个医家的医案控制在一百例以内,绝大部 分医家为1 0 例以内。 2 2 3 时间全部为现代医案,鉴于此阶段医案记录时间跨度较小,用词较 接近,统一规范相对容易,适合本课题研究进度要求。所选医案均采集自公开发 表的期刊和专著,发表时间为1 9 7 2 - - 2 0 0 5 年,所记录患者就诊时间为1 9 5 1 - - 2 0 0 3 年。 2 2 4内容由于本课题旨在对医案中的中药、证型、症状- 一- 部分做数据挖 掘,收集
7、的医案必须包括中医诊断、巾药处方、证型、症状这四项内容。 2 2 4 1中医诊断参考了国家中医药管理局1 9 9 4 年颁布的中华人民共 和国中医药行业标准一中医病证诊断疗效标准( 南京大学出版社出版) 。 2 2 4 2中药处方所选医案全部是单纯中草药内服治疗。凡单纯或辅助使 用中成药、针灸、外治、西药以及手术治疗的医案不予收录。 2 2 4 3 证型必须含有病性和病位两部分,如果只含有病位( 如“肝脾为 病”) ,或只含有病性( 如“虚”或“实”) 则不予收录。 2 2 4 4 症状除主症之外,必须有两个以上的次要症状。例如某闭经医案, 中医妇科常见疾病医鞭辨证用药规律数据挖掘分析7 翔蓉
8、只包话闭经这一令主症,丽未记载其 氇疰状,期不予收录。 经过筛选,本课题所采集医察总数为2 1 3 8 侧,其中崩漏6 6 4 例、闭经4 0 8 铡、不孕6 3 1 弼、痛经4 3 5 倒。从文献来源统计,8 4 8 铡来自麓予 j 、1 2 9 0 例来自 专著,共涉及医家4 7 6 位。 2 3 数据预处理 按照阪案中不同属性信息的不同特点,进行有针对性的数据预处理。 2 。3 。l 中药预簸壤 中药名称不统一的主溪原因是别名、错别字、省略语,本课题从这三个角度 对中药名称迸行规范。规范后的中药名称主要参考权威饿强的中药专著,如中 华人民共和困药典2 0 0 5 版、中药大辞媳、中华本草
9、等。 巾药炮制方法主要分为净制、切制、炮炙,由于净制、切制对一f 药物的性味、 归经彩响较小,故建药名中含煮“冀”、“来”、“粉”、“嫩”、“净”等净制竣切割 的标志用语,均予以去除;炮炙法对中药的性味、归经等有较大影响,在规范后 瓣中药名称磊蟊特澍稼鞠。 2 3 2 证型预处理 首先觚结构卜进行褥范,把谣鳖名称兢范为主请谰缀,主语部分是瘸位,滔 语部分是病性。如规范厉证型血瘀,其中衄是主语一病位,瘀是谓语旗性。 其次遇到复合证型,涉及两个脏器的,尽量予以拆分;几乎所有的赠耕医案 涟型都涉及秘任失调,进荦亍数据挖掇则会成为一个强于扰颂,故将医案中 申任失 谰用语予以剔除;另外,界于证测和症状之
10、间的描述性用语亦予去除,如迫血妄 行、盘不缓经等。 规范后的证溅选词,一方面参考了中国中医药丰题词表、中医诊断学、 中华人梵共和翻中医药行监褥猿一中夔瘸涯诊凝疗效拣漆等转籍;弱一方嚣 对医案中使用的诚型同义词进行归类后作频数统计,选用使 H j 频次最高的词作为 斑范证型。例如:“血瘀”,在医粱辨证中有多稀袭述方法:缸瘀、瘀血、趣滞等 等,其中斑瘀的使用频次最高,则选血瘀为规范压证型。 2 3 3 症状预处理 在本瀑题灼癍技援蒗中,酋先弱涯穗一搏,褥症状勰范为主疆词组,主语部 分是病位,谓语部分是病状,如规范后的症状腹痫,腹( 主语一病位) ,痛( 谓语一 8 摘要 病状1 。 其次把些复杂症
11、状拆分为多个简单症状,并去除主观性强的程度副词,如 微、稍等。 规范后的症状选词,一方面参考了中国中医药主题词表、中医诊断学、 简明中医辞典等书籍;另一方面对医案中使用的症状同义词进行归类后做频 数统计,选用使用频次最高的词作为规范症状。 规范后数据库概况 所建数据库共收集妇科医案2 1 3 8 例,每个医案均包含四个字段:症状、证 型、中药组成( 处方) 、巾医诊断,其中:症状共涉及6 0 5 个,证型6 3 个,中药( 含 炮伟1 ) 7 5 4 个。 2 4 数据挖掘 本课题选用了中国中医研究院周雪忠等人开发的W E K A 软件。亥软件基于 新西兰维克多大学研发的智能平台W E K A
12、 ,使用了A 研o r i 算法( 即A g r a w a l 研究 提出的算法) ,进行药物、症状、药症和药证等关联规则的知识发现。 与以往课题不同的是,不仅对中药、症状、证型分别进行数据挖掘处理,而 且将这三部分合并起来处理。数据挖掘结果不仅仅包含按以往方法处理得出的 “药物+ 药物”、“症状+ 症状”、“证型+ 证型”三种高频集,而且包括了“药物+ 症状”、“药物+ 证型”、“症状+ 证型”的高频集。此种模式进行数据挖掘,不仅在 症状、中药、证型内找到高频集,而且在三者之间找到高频集,从而获得更多的 关联关系结果。 除了挖掘模式的不同外,本课题在最小置信度和最小支持度的设畏上也与以 往
13、有所不同。数据挖掘中,只有当项目集的置信度和支持度均超过了最小置信度 和最小支持度时,它才作为高频集被筛选出来。但最小支持度和最小置信度的具 体值与数据性质、用户需求等冈素都密切相关,未有通用标准。本课题在参考以 往研究和多次运行本课题挖掘软件的基础上,先设定最小支持度为5 ,最小锭 信度为4 0 ,对数据库进行初步挖掘,然后从所得到的挖掘结果中筛选出支持 度最高的1 0 个项目集和置信度最高的1 0 个项目集予以分析。 中医妇科常见疾病医案辨证用药规律数据挖掘分析 9 2 5 数据挖掘结果分析 经过数据处理后,共得到1 5 张结果表,包括高频中药组5 张、高频“中药+ 症状”组5 张、高频“
14、中药+ 证型”组5 张。本课题对1 5 张结果表做了与传统知 识比对、新鲜知识分析以及传统方法的比对这i 方面研究。 与传统知识比对过程中,主要参照经典中医药理论:高频中药组参考药刘和 r r I 药配伍书籍,高频“中药+ 症状”组、高频“中药+ 证璎”组参考中药功效书籍。 比对情况的统计结果如下:高频中药组传统知识符合率约为7 0 ,高频“中药+ 症状”组传统知识直接符合率约为3 9 ,间接符合率约为6 1 ,高频“中药+ 证型” 组传统知识符合率则为1 0 0 ,结果证明大部分数据挖掘结果在传统经典理论中 都已经有所论述。 对一部分传统理论中未查到的挖掘结果,本研究又进一步从临床应用角度F
15、 以分析,发现了一些已经应用于临床,但尚未被使用者提炼的新鲜知识,同时探 讨了影响新鲜知识分析的因素。 此外本课题把数据挖掘与传统频次统计进行方法学比较。其体方法是分别把 四个疾病的高频药物组结果与单味药频次统计结果进行比较,从结果可以看出, 数据挖掘表面上看与频数统计辛H 似,但进一步分析得知它们的最大区别在于数据 挖掘是获取种关系,并且定量地表述这种关系,其在分析关系方面的意义远远 超出频数统计。 3 结论 3 1 有效结果 本课题数据挖掘结果与传统理论有相当犬的一部分内容是相吻合的。这说明 数据挖掘这项技术是具有合理有效性的。作为一种新型数据分析方法,天联分析 技术可用于中医药数据处理,
16、可以作为传统知识总结的有效补充,值得进一步深 入研究。 3 2 新鲜知识 本课题通过数据挖掘,获得一些传统经典理论未直接表述的知识,并以量化 的方式展现。同时结合临床经验探讨了这部分知识的合理性和可行性。例如:“白 1 0 摘要 术一当归”对药虽然在传统药对理论中并末论及,但实际上在临床上常被用丁治 疗气血两虚型闭经,此外这两味药结合使用的紧密程度又通过置信度6 7 被量化 表达。 3 3 规范数据 本课题在医案数据的规范上做了大量工作,从一次文献入手,根据中药、证 型、症状三方面用词的不同特点,以“贴近临床,保留有意义的信息”为总则进 行规范。其中中药的规范,以“参考中药权威标准”为主要原则
17、;证型、症状的 规范,以“同义词统计,选用使用频次最多者”为主要原则,本课题的这部分工 作对丁日后临床数据标准化:I :作具有一定参考价值。 3 4 临床参考 本课题在数据挖掘的过程中,不仅挖掘m 高频药物组束探讨药物配伍的关 系,而且挖掘出了高频“症状+ 药物”组和高频“证犁+ 药物”组,此部分结果对 于缺乏经验医师的临床用药具有一定的参考价值。例如,在治疗崩漏血瘀证时, 如果只凭借教科书的知识,那么活血化瘀的常用药有2 8 个,活血化瘀的方剂有 8 个,缺乏临证经验的医师,选用方药会存在困难,而经数据挖掘后可以得知专 家治疗崩漏血瘀证9 3 都用了桃仁,此项知识即可做为治疗用药的一个参考。
18、 本课题用定量的数理关系把“症一证一药”相联系,期望数据挖掘结果成为 临床和科研I 。作的有益参考。 4 展望: 4 1T 具改进 一方面数据挖掘软件本身需要被改进成为成熟的工具,研究人员要象熟悉统 计工具一样熟悉数据挖掘工具。另一方面,数据挖掘的应用范围也可以向多方拓 展,以覆盖中医药数据的各个方面。 4 2 数据规范 在数据库建设方面,尽管有许多中医药标准相继出台,但数据预处理T 作仍 需要更权威的数据规范标准作为参考,以便更合理且快速地进行数据预处理。目 中医妇科常见疾病医寨辨证用药规律数据挖掘分析 1 1 前,中医蓊蔫怠磷究所歪楚锌对这一形势锈裁着中医药学语言系统秘中医 药临床术语集。
19、 5 结语 在当裁信息爆烽的时代,中医薅这+ 吉老的学科也急建铡用觋找技术疆飞速 发展。存古今知识的碰撞过程中,我们需要进一步开放思路。中医药信息学,不 仪议是中涎骜学与活舅辊学辩翔谈嚣结合,受痤褥采众长,氆签羹 龟露鼗中售惑 学分析成功的案例,选择性地为我所用,从而挖掘中医的宝藏,使纷繁的可以系 统,使意会的可以言传,从百家之占中寻筏岛公鬻,觚经典记载中凝结溱新藉。 关键词:中医药,妇科,医案,数据挖掘,数据库知谈发现 T h e R K h o i l D a t i n i n g i n d i s e a s er e c o r d s o f s e v e r a l m a
20、s o f G y n e c o l o g ,- i B T C M 】3 T h eR e s e a r c ho nD a t a M i n i n gi nd i s e a s er e c o r d so fs e v e r a l d i s e a s e so f G y n e c o l o g yi nT r a d i t i o n a lC h i n e s eM e d i c i n e A b s t r a c t T h eh i s t o r yo fT r a d i t i o n a lC h i n e s em e d i c
21、l n e ( T C M ) i sm o r et h a nt h o u s a n d so f y e a t s T h ed a t ai nt h i sf i e l dh a sb e e na c c u m u l a t e di nam a s s ya m o u n ta n di n c r e a s i n g i n h i g hs p e e d F a c i n gt h i sh u g et r e a s u r eo fT C M m a n yr e s e a r c h e r so fT C M I n f o r m a t
22、i o na r ee n d e a v o r i n gt oa b s t r a c tm o r ev a l u a b l ei n f o r m a t i o nd e e p l ya n d q u i c k l y b yu s i n gv a r i o u sm e t h o d s I nt h i sp a p e r , t h ed a t am i n i n gt e c h n o l o g yi si n t r o d u c e dt o m a k ed e e pa n a l y s i si nd i s e a s er e
23、 c o r d ,a n ds e v e r a lc o n c r e t e de x a m p l e sa l eg i v e nw i t h r e s u l t sa sw e l l 1 B a c k g r o u n d A s s o c i a t i o nA n a l y s i s ,w h i c hi so n et e c h n o l o g yo f d a t am i n i n g ,h a sb e e nu s e di nT C M I n f o r m a t i o ns t u d yn e a r4 - 5 y e
24、 a r s A l t h o u 西s o m ef r u i t sh a v eb e e na c h i e v e d ,t h e r ea r e s t i l ls o m eu n s a t i s f i e da s p e c t sa sf o l l o w i n gi nt h o s er e s e a r c h e s 。 I np a s tr e s e a r c h ,t h e r ei sl a c ko fs t a n d a r d i z a t i o no no d g i n a ld a t a I tm a k e
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 妇科 常见病 医案 数据 挖掘 方法 研究
链接地址:https://www.31doc.com/p-3580790.html