中文树库加工及相关语言学问题.ppt
《中文树库加工及相关语言学问题.ppt》由会员分享,可在线阅读,更多相关《中文树库加工及相关语言学问题.ppt(64页珍藏版)》请在三一文库上搜索。
1、中文树库加工及相关语言学问题,詹卫东 ,教育部文科基地重大课题“大规模中文树库建设及其应用研究” (项目编号:06JJD740001) http:/:8080/WebTreebank/,提纲,树库(Treebank)概述 树库的构建 在“树”上看语法范畴,软件:分词/词性标注/句法分析器/树结构编辑器 语言学理论:词类 | 短语类 | 层次结构分析,从“串分布”到“树分布” 成分省略 与 功能变异,1 树库(Treebank)概述,历史发展简介,时间:1993 ,语种:英语、德语、中文、阿拉伯语 ,标注深度:树库 命题库 篇章库,标注体系:生成语法 HPSG 依存语法,http:/en.wik
2、ipedia.org/wiki/Treebank,Marcus(1993),Xue, Nianwen (2005),36 种,2 树库的构建,2.1 树库构建方法 2.1.1 流程 2.1.2 辅助工具 2.2 树库加工中面临的语言学问题 2.2.1 短语层次分析问题 2.2.2 短语功能分类问题,树库加工流程(Workflow),1,2,3,5: 程序自动完成,然后人工校对 4: 提供专门的人工校对工具,北大树库词类标记,细化,98 个标记,北大树库短语类标记,结构类,仿照词类确定的短语功能类,19 个标记,北大中文树库规模及语料分布情况,句数: 55,161 词数: 882,326 字数:
3、1,281,169,北大中文树库短语类和词类统计,Upenn中文树库5.0,2.2.1 短语结构层次划分的问题,大 眼睛 姑娘,大 钢铁 公司,小王 和 小李,短语结构层次划分的问题,是 个 老人,买 本 瞧瞧 你 再 坐 会儿,甲,乙,丙,v q np,按 甲 方式 分析: 造成“个”后接复数结构 按 丙 方式 分析: 造成 vp 和 np 并列构造,选择:按 乙 方式分析,“q np” 的分布: 1)v 后宾语位置 2)“把、被”后宾语位置 3)联合结构前项位置,短语结构层次划分的问题,层次分析所得的单位应“分布最大化”,2.2.2 短语结构功能分类的问题,X 所 Y,?,?,X 所 Y,
4、?,X 所 Y,?,?,他 所 写 的 文章 今天 所 讲 的 内容 ,例1:“所”字结构,“所”字短语的功能类别与内部层次构造,“X+ 所 + Y”的更多例子,所 使用 的 案例 还是 很早的 所 需 建设费 平均 每瓦 为 二百五十日元 所 生 子女 属于 母亲 一 方 全 靠了 他 卖血 所 换得 的 钱,才 为 使 房间 凉爽 所 使用 的 空调 设备 毛泽东 在 这次会议 上 所 作 的 报告 即将 由 这 次 停火 所 带 来 的 新 形势 前一次大老 亲口 所 说 的 话 ,“所 + Y” 前面可以没有成分,“所 + Y” 后面可以没有“的”,直接修饰np,“所 + Y” 前面可
5、以是vp,pp,dp等成分,例1-3,例2-3,例4-8,“X+ 所 + Y”的分析,“所 VP”是弱陈述性VP,a. 要求老王所支持的那一方退出竞选 b. 要求老王支持的那一方退出竞选,“的”字短语的功能类别与内部层次构造,X 的 Y,?,?,X 的 Y,?,X 的 Y,?,X 的 Y,?,?,甲,例2:“的”字结构,乙,丙,丁,“的”在树库中的频次和分布,?,?,X 的,的 X,X 的 Y,?,2 例,5801例 13.32%,37758例 86.67%,乙,丙,甲,丁,“的”(di),2 例,“的”在树库中的频次和分布(续),左邻右舍(的人),都捡了东西。 两边的机关枪(的射击声)稍一停
6、歇,大门外面的赤卫队就冲进了公安局。,丙,“有的放矢”中的“的”,丁,“X 的”短语的功能与分布,ap,X 的,dp,X 的,np,X 的,vp,X 的,252 例,390 例,4598 例,274 例,tp,X 的,1例,dj,X 的,286 例,(4.34%),(6.72%),(79.26%),(4.72%),(4.93%),(0.02%),“X 的”短语的功能与分布,ap,X 的,dp,X 的,np,X 的,vp,X 的,252 例,390 例,4598 例,274 例,tp,X 的,1例,dj,X 的,286 例,(4.34%),(6.72%),(79.26%),(4.72%),(4.
7、93%),(0.02%),“X 的”短语 小结,X 的,X,“的”,1203例非指称用法中,750 例(62.34%)为陈述表达功能,且“的”位于句尾,“的”更多的是跟在“非指称性成分”后面 “X 的”短语整体更多的是用作“指称性表达” 有些句尾“的”有明显语气词化倾向,“的”表“确认”语气用法的一些实例,所以他们才把这项工作委托给改良沙漠土壤方面具有丰富经验的林业部门的吧? 我还听说施工人员以及车辆经过的路线也都列入了设计规划之中,不可以随意乱来的。 历史上没有一个反对人民的势力不被人民毁灭的。 酣眠固不可少,小睡也别有风味的。 你 什么时候遇见他 的 横竖 我 要去 的,不用 请 他 来。
8、 这些事情,是无论哪一个“友邦”也都有的, 懒洋洋地问道:“哪村来的?” 您别又穷疯了,胡说乱道的。,“X 的 Y”短语的功能与分布,发达国家的平均水平 克服困难的信心 张三开车的时候 多么美妙的前景 我喝的牛奶,1,2,3,4,5a,5b,“X 的 Y”不同内部模式的频次,他 的 情绪 他 的 紧张情绪 紧张 的 情绪,时间 的 推移 器官 的 生长发育 校长 的 尽力撮合,自己 的 莽撞 经济形势 的 逐步稳定 他 的 不诚实,说不出 的 兴奋愉快 改革 的 深入,彻底 的 失败 越来越多 的 重视,16358例 94.29%,667例 3.84%,93例 0.54%,145例 0.84%
9、,15例 0.09%,71例 0.41%,有组织 的 游说 可持续 的 增长,部分树库语料统计结果,“X 的 Y”的分布环境,“np 的 vp” 高频分布示例,宾语,主语,并列项,“np 的 vp” 与 “np 的 np”同分布的比例,5828/6252,658/667,93.2%, 98.7% ,“np 的 vp” 中的vp的结构类型,842,25,结构种数:, 2.97% ,结构例数:,203962,667, 3.30% ,“X 的Y”短语 小结,X 的 Y,X 所有短语类型均可。np占41.57%,“的”,Y 除 pp外其他短语类型均可。np占绝大多数(89.66%)。,短语整体用作“指
10、称性表达”占绝对多数; 有少数“的”用在vp后,np前,整体是“陈述性表达” 有极少量“的”相当于“得”。,“X 的 Y”短语整体为vp、ap的一些实例,我是1964年上的大学。 女人看出他笑的不像平常。 您大概是想我想的梦里到过这儿 你混的不错 他去的匆匆, 要想住的安稳一些, 他说不出的新鲜而且高兴, 他老的不像样子了。 我们先前比你阔的多了。 男社员当中,最数张老五挑剔的欢。,“X 的 (Y)” 短语 小结,基本格式: X 的 Y 省略格式: X 的,3 在“树”上看语法范畴,3.1 从“串分布”到“树分布” 3.2 成分省略 与 功能变异,3.1 从 “串分布” 到 “树分布”,分布分
11、析是语言分析的主要手段。 以往的分布分析(面向人)主要是基于线性串的。或者说主要是基于最小二叉树的 基于树结构的分布分析(面向计算机)可以获得粒度更细的语言知识。,关于语言单位的功能(分布)分类,(1)一个语言单位(w)的组合方向: (2)一个语言单位(w)的组合对象:,w在参与序列组合时朝哪个方向组合?,a. 要求跟几个成分组合? b. 要求跟什么类型的语言成分组合?,“词类”(词的功能分类)示例,b: 区别词 d:副词 u:助词 v:动词 a :形容词 n:名词,b,d 是功能(分布)比较确定的词类; u 是组合方向相对确定,但组合对象不确定的词类; n,v,a等是组合方向和组合对象都不大
12、确定的词类;,“dp vp 的 vp” 的结构歧义,原本 抽烟 的 不怕烟味 也许 抽烟 的 不怕烟味 一直 抽烟 的 不怕烟味,甲,乙,增加一个副词,歧义消失,原本 就 抽烟 的 不怕烟味,甲,乙,副词的内部差异,(1)现代汉语语法信息词典中副词有“主前后”的描述: 一个副词能否在“主语”前出现 (2)现代汉语语法信息词典中没有“副词 + V”后能不能再加“的”的特征描述,就 抽烟 原本 抽烟,就 抽烟 的 原本 抽烟 的,3.2 成分省略与功能变异,句法约束条件改变,语义约束条件改变,句法成分与句法位置,中心成分与从属成分,体词性成分占据谓词性位置,谓词性成分占据体词性位置,中心成分缺省,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 加工 相关 语言学 问题
链接地址:https://www.31doc.com/p-3392826.html