中文同义词自动抽取研究.ppt
《中文同义词自动抽取研究.ppt》由会员分享,可在线阅读,更多相关《中文同义词自动抽取研究.ppt(27页珍藏版)》请在三一文库上搜索。
1、中文同义词自动抽取研究,南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为 = 的词语集合表示的是同一个语义。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的词语集合。,目标
2、词 “规则”对应的同义词集合:,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。 但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。 一个词语也可能出现在多个Synset中 。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。 基本思想: 在包含目标词的Synset中统计出典型同义词。 使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法
3、,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒, 喜欢 。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。 基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。 基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条 在百科词条概述中,利用人工提取的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 同义词 自动 抽取 研究
链接地址:https://www.31doc.com/p-3392650.html