中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt
《中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt》由会员分享,可在线阅读,更多相关《中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt(16页珍藏版)》请在三一文库上搜索。
1、中文信息处理的词法问题 以句本位语法图解树库构建为背景,彭炜明(北京大学计算语言学研究所) 宋继华(北京师范大学信息科学与技术学院),汉语树库建设现状,汉语树库的目前两分天下的格局: 短语结构树 依存结构树 树库构建的困难: 一致性难以保证 层次分析琐碎、标注效率低下 复句单句词组词语素、非语素字、前接成分、后接成分,句本位语法图解树库,“句本位”:汉语语法分析当以句法为主,词法服从于句法。 分词单位:能按句法分析则分析,否则整体为一个造句单位,内部结构属于词法分析范围。 词类标注:“依句辨品,离句无品”,标注示例,勤劳的铁路工人正准备修建天桥的材料。,句法分析的边界,6大成分,7类结构,12
2、种基本句式,5类虚词,图解树库的启示,词法分析有别于句法分析,有必要划清界限。 有利于树库构建 有利于句法分析 中文信息处理现行框架下: 词法分析(分词+词性标注)句法、语义分析 词法分析没有很好地完成为后续句法分析提供有效造句材料的任务。 以“句本位”的眼光看,中文信息处理根本就没有“词法分析”!,词法分析的边界,图解树库将所谓“临时造词”纳入词法分析的范围之内。 参考北大语料库加工规范(简称北大规范)按照重叠、附加、复合三类构词方式分别梳理,重叠,“AA”重叠形:走走/v,好好/d,人人/n,个个/q,常常/d; “AAB”重叠形:洗洗澡/v,试试看/v; “ABB”重叠形:孤单单/z,一
3、个个/mq “AABB”重叠形:比比划划/v,高高兴兴/z,山山水水/n,许许多多/m,大大小小/z,确确实实/d; “A里AB”形:糊里糊涂/z; “A不AB”形:相不相信/v,漂不漂亮/z, “AB不AB”:相信/v 不/df 相信/v; “ABAB”重叠形:研究/v 研究/v,高兴/a 高兴/a,很多/m 很多/m,雪白/z 雪白/z,一个/mq 一个/mq,哗啦/o 哗啦/o; “V一V”形:谈/v 一/m 谈/v; “V了V”形:想/v 了/ul 想/v; “V了一V”形:读/v 了/ul 一/m 读/v。,附加,前缀+X: 小王/nr,大杨/nr,老二/n,超音速/b,超声波/n,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 词法 问题 本位 语法 图解 构建 背景
链接地址:https://www.31doc.com/p-2709212.html