中文信息处理概述.ppt
《中文信息处理概述.ppt》由会员分享,可在线阅读,更多相关《中文信息处理概述.ppt(45页珍藏版)》请在三一文库上搜索。
1、中文信息处理概述,For 对外汉语方向本科生,对外经贸大学中文学院.对外汉语,本章内容,释名 汉语的特点-中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物,对外经贸大学中文学院.对外汉语,释名,中文信息处理(Chinese Information Processing) 中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理
2、解和生成等各方面的处理技术。 中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。 汉字信息处理(Chinese Character Information Processing) 用计算机对汉字所表示的信息进行的操作和加工。,汉语信息处理既立足于汉字信息处理, 又区别于汉字信息处理。 处理对象不再是单个的汉字或字符串, 而是语言学的单位:词、短语、句子乃至篇章、文档集合。 两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理、文献检索、语音识别与合成等等。,对外经贸大学中文学院.对外汉语,释
3、名,Chinese Information Processing(CIP) 中文信息处理 Chinese character Information Processing 汉字信息处理 CIP Chinese character (IT) = Chinese ideograph (Sinology) Chinese language Information Processing 汉语信息处理 Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Pro
4、cessing 以汉语为核心的多语言信息处理,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,汉语文字文本的语言单位边界糢糊。 词间无间隔 人名、地名不大写 句子之间界限不清晰 汉字 完全使用由象形文字演化而来的方块汉字; 字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,词语 “词”无严格的形式定义,词本身也没有明显的形态标志 词没有形态变化;词性兼类现象严重 虚词常常省略,与实词形式上无区别 词性与句子成分之间无一一对应关系,中心谓语动词难以确定 多动词连用现象突出,对外
5、经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,句子 结构松散 我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词 句子语序灵活,语句格式丰富 语义灵活 一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。,对外经贸大学中文学院.对外汉语,现代汉语研究现状 -之于中文信息处理,现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机
6、器的交流。 二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。,汉语的计算机理解比西方语言的理解困难得多?,对外经贸大学中文学院.对外汉语,中文信息处理的研究内容,研究对象:文字和语音 语言单位和层面:字-词-句-篇 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 应用研究 应用技术 应用资源 应用系统/平台,对外经贸大学中文学院.对外汉语,研究对象,文字 汉字键盘输入技术 汉字输入技术 软件汉化技术 汉字字形识别
7、技术 激光照排技术 文本分类 信息检索,语音 汉语语音识别技术 汉语语音合成技术,对外经贸大学中文学院.对外汉语,语言单位和层面,字 汉字编码技术 汉字输入技术 汉字字形和字形库管理技术 汉字输出技术 词 汉语分词 句篇 中文信息检索 中文信息抽取 中文文本分类技术,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例,两个实例 实例一 关于自动升降晾衣架的对话 妻子:“嘿,过了一年才坏。” 丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗?,虚词词义:才(数量词前后,意义不同) 背景知识:保修期 知识激活机制?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例
8、,实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。” 2001年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/,未登录词的识别 知识背景 认知机制,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向歧义消解,词的切分 白天鹅 计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否? 白天鹅飞过来了白/ 天鹅/ 飞/ 过来/ 了 白天鹅可以看家白天/ 鹅/ 可以/ 看/ 家/ 白天鹅在湖里游泳白/ 天鹅/ ?白天/ 鹅/ ?,白天鹅/-白/ 天鹅/-白天/ 鹅/-白/
9、 天/ 鹅/,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,同形词辨析 只 这只会测水温的鸭子,这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的 这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用,这/ 只/ 会/ 测/ 水温/ 的/ 鸭子/ (切分无歧义),量词q zhi1 ?副词d zhi3?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,词性歧义 读音相同的“连”也有不同的词性(意义): 一个连有三个排“连”是名词n 我们兄弟心连心“连”是动词v 苹果可以连皮吃“连”是介词p,对外经贸大学中文学院.对外汉语,汉语信息处理的主
10、攻方向,词义辨析,讲真话 讲卫生 中国队大胜/败美国队。 对外经贸大学两个灯只亮一个,不过就是亮两个也不亮。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,短语结构歧义 m + q + n + “的” + n 三个大学的老师三/m 个/q 大学/n 的/u 老师/n, 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n ,三所大学的老师 三/m 所/q 大学/n 的/u 老师/n 三位大学的老师 三/m 位/q 大学/n 的/u 老师/n ,小王和小李的妹妹,李娜和郑洁的老公都是教练。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,句法结
11、构歧义 例1 会员选举他当主席 例2 学生认为他是校长 n+v+r+v+n,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,语义歧义以及依赖语境的歧义消解 汉语语义分析(切分、标注、句法分析都无歧义) 熊猫/n 吃/v 竹笋/n 学生/n 吃/v 食堂/n 民工/n 吃/v 大碗/n 老师/n 写/v 毛笔/n 汉语语义指向分析 写/v 好/a 了/u (文章) 写/v 累/a 了/u (老师) 写/v 秃/a 了/u (毛笔) 汉语语境分析 小张/n 打针/v 去/v 了/u 北京的春天来了,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,长句与句号、逗号 中文中常有长句子,
12、一逗到底。例: “新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。 1. 你得藏在一个你看得见他,可是他看不见你的地方。 2. 车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,指代与省略 小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。 重庆队得88分,客场负于台湾队2分。 时态、语态、语气 我在
13、家里。(be) 我在家里看书。(in) 我在看书。(-ing) 你在干什么?看书。 你喜欢干什么?看书。 如果我是你,我就去了。 如果我有时间,我就去。,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段,学习和理论探索的萌芽阶段 汉字信息处理为主的早期阶段 字、词等表层处理为特征的初级阶段 句法和语义等深层处理为代表的中期阶段 语料库统计方法兴起的近期阶段 以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段,对外经贸大学中文学院.对外汉语,学习和理论探索的萌芽阶段,这一阶段以介绍国外计算语言学领域的理论方法为主。
14、 对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表。早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的中文信息学报,语言学界的国外语言学和语言文字应用。 学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考,如:80年代中期宁春岩发表的自然语言理解中的几个根本问题,以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著计算机不能做什么人工智
15、能的极限,语言学界袁毓林1993年发表了自然语言理解的语言学假设。 这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用、奠定了中文信息处理后期的理论基础。,对外经贸大学中文学院.对外汉语,汉字信息处理为主的早期阶段,1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段汉字信息处理时代。 涌现出多种汉字输入编码方案,能满足多种现实需要。 王选教授等发明的汉字字库的信息压缩技术使汉字文献的印刷出版告别铅与火,进入电子时代。,对外经贸大学中文学院.对外汉语,“七四八”工程 是国家重要工程项目“计算机汉字信息处理系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 概述
链接地址:https://www.31doc.com/p-3392511.html