欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt

    • 资源ID:2709212       资源大小:1.83MB        全文页数:16页
    • 资源格式: PPT        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt

    中文信息处理的词法问题 以句本位语法图解树库构建为背景,彭炜明(北京大学计算语言学研究所) 宋继华(北京师范大学信息科学与技术学院),汉语树库建设现状,汉语树库的目前两分天下的格局: 短语结构树 依存结构树 树库构建的困难: 一致性难以保证 层次分析琐碎、标注效率低下 复句单句词组词语素、非语素字、前接成分、后接成分,句本位语法图解树库,“句本位”:汉语语法分析当以句法为主,词法服从于句法。 分词单位:能按句法分析则分析,否则整体为一个造句单位,内部结构属于词法分析范围。 词类标注:“依句辨品,离句无品”,标注示例,勤劳的铁路工人正准备修建天桥的材料。,句法分析的边界,6大成分,7类结构,12种基本句式,5类虚词,图解树库的启示,词法分析有别于句法分析,有必要划清界限。 有利于树库构建 有利于句法分析 中文信息处理现行框架下: 词法分析(分词+词性标注)句法、语义分析 词法分析没有很好地完成为后续句法分析提供有效造句材料的任务。 以“句本位”的眼光看,中文信息处理根本就没有“词法分析”!,词法分析的边界,图解树库将所谓“临时造词”纳入词法分析的范围之内。 参考北大语料库加工规范(简称北大规范)按照重叠、附加、复合三类构词方式分别梳理,重叠,“AA”重叠形:走走/v,好好/d,人人/n,个个/q,常常/d; “AAB”重叠形:洗洗澡/v,试试看/v; “ABB”重叠形:孤单单/z,一个个/mq “AABB”重叠形:比比划划/v,高高兴兴/z,山山水水/n,许许多多/m,大大小小/z,确确实实/d; “A里AB”形:糊里糊涂/z; “A不AB”形:相不相信/v,漂不漂亮/z, “AB不AB”:相信/v 不/df 相信/v; “ABAB”重叠形:研究/v 研究/v,高兴/a 高兴/a,很多/m 很多/m,雪白/z 雪白/z,一个/mq 一个/mq,哗啦/o 哗啦/o; “V一V”形:谈/v 一/m 谈/v; “V了V”形:想/v 了/ul 想/v; “V了一V”形:读/v 了/ul 一/m 读/v。,附加,前缀+X: 小王/nr,大杨/nr,老二/n,超音速/b,超声波/n,无公害/v,无条件/d,过饱和/z,非金属/n,非/h 国家/n 工作/vn 人员/n; X+后缀: 花儿/n,人们/n,艺术家/n,办事员/n,毕业生/n,参谋长/n,革命性/n,磁盘机/n,标准化/v,研究者/n,语言学界/n,朋友/n 们/k,探索者/n,不/df 顾/v 劝告/v 而/c 执意/vd 闹事/v 者/k; 前缀+X+后缀: 非党员/n,无政府主义者/n,超薄型/b。,复合,邢福义小句中枢说 之“小句包容律”:短语相比复合词多两个常备结构因素: A、构件组合灵活,B、音节较多。 短语-AB=复合词 短语-A=定型短语(如:世界/n 大学生/n 运动会/nnt) 短语-B=近似短语词(如:吃饭、走路、讲话、唱歌),依句辨品,首先澄清对“依句辨品”的一个认识误区,即认为“作主语、宾语的是名词,作述语的是动词,作名词附加语的是形容词,作动词、形容词附加语的是副词。”,图解标注的启示,名、代主、宾 动、形谓语 动、形(包括动形短语)充当主、宾语 名、代(包括名词性短语)充当谓语,绝大多数,基本规律,指称化,顶起,名词谓语句,顶起,现行词类系统的问题,全句动词序列: 围绕/V 扶贫/V 搞/V 开发/V, 搞/V 好/A 开发/V 促/V 扶贫/V 区别词(按定义只能修饰名词)修饰动词: 大型/B 展览/V,远程/B 发射/V 不同词性的词形成并列结构: 付出 了 劳动/V 与 汗水/N,温锁林从词性标注看小句的中枢地位J汉语学报,2004,(01) ,非句法功能类,前接成分/h、后接成分/k、语素/g、非语素字/x、成语/i、简略语/j等等,若进入句法分析系统,将造成句法系统的极大混乱,“差”,依句辨品:名词!,结论,从句本位图解树库构建实践出发,我们主张: 第一,正视词法分析在汉语自动分析中的独立性地位,重新界定词法分析的具体内容,将许多具有高内聚性的组合关系从句法分析中离析出来,作为临时造词单独处理。 第二,统筹词类标注与词库建设、句法分析之间的关系,改变将词库词类直接作为句法分析输入的做法,在训练句法模型时进行词类的句本位转化。“依句辨品”是值得借鉴的。,谢谢!,

    注意事项

    本文(中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开