中文信息处理ChineseInformationProcessing.ppt
《中文信息处理ChineseInformationProcessing.ppt》由会员分享,可在线阅读,更多相关《中文信息处理ChineseInformationProcessing.ppt(33页珍藏版)》请在三一文库上搜索。
1、中文信息处理 Chinese Information Processing,2019年10月24日2时7分,中文信息处理-绪论,2,主要教材,朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术教程,清华大学出版社。2005年9月第一版 Christopher D.Manning,Hinrich Schutze。统计自然语言处理基础,电子工业出版社。2005年1月第一次印刷,2019年10月24日2时7分,中文信息处理-绪论,3,2019年10月24日2时7分,中文信息处理-绪论,4,主要内容,信息处理 中文信息处理 计算机中文信息处理主要研究对象 现代汉语的特点 中文信息处理的发展 中文信息
2、处理技术发展问题的探讨,2019年10月24日2时7分,中文信息处理-绪论,5,信息,控制论创始人(维纳 Norbert Wiener) 信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。 信息论奠基者(香农 Clause Shannon) 信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值 Robert M. Losee 信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息,2019年10月24日2时7分,中文信息处理-绪论,6,信息的分类,按照计算机处理的信息形式 文本信息 多媒体信息 超媒体信息
3、 按照信息的结构化程度 结构化信息 半结构化信息 非结构化信息 按照信息的保密程度 公开信息 一般保密信息 绝密信息,2019年10月24日2时7分,中文信息处理-绪论,7,信息处理,信息处理就是对信息的接收、存储、转化、传送和发布 信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; 信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; 信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; 信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地; 信息的发布:把信息
4、通过各种表示形式展示出来。,2019年10月24日2时7分,中文信息处理-绪论,8,中文信息处理,中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 计算机科学技术百科全书 清华大学出版社,1998,2019年10月24日2时7分,中文信息处理-绪论,9,计算机中文信息处理主要研究对象,汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索,2019年10月24日2时7分,中文信息处理-绪论,10
5、,汉字键盘输入技术,汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术 汉字编码 采用四位十进制数把常用的汉字用“0”9”十个数字按照次序进行编码 四角码(字形码) 用“0”9”十个数字键对汉字的四个角的形状进行编码 机内码 用2字节、3字节、4字节来表示一个汉字的机器内部码 国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准,2019年10月24日2时7分,中文信息处理-绪论,11,汉字输出技术,汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出 汉字字库 点阵字库 GB5199.1-2001和GB5007
6、-2001是典型的16点阵和24点阵字库 矢量字库 采用矢量的方法,对每个汉字信息用一组矢量进行描述,2019年10月24日2时7分,中文信息处理-绪论,12,软件汉化技术,软件汉化是把西文软件直接改造成中文软件的一种技术 西文操作系统汉化成中文操作系统 内核汉化 外挂汉化 西文应用软件经过汉化后能够具备处理中文的能力 界面的汉化 应用程序中中文的通行,2019年10月24日2时7分,中文信息处理-绪论,13,汉字字形识别技术,汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码 联机识
7、别 脱机识别 汉字字形识别过程 汉字识别前处理 汉字分类和判别 汉字识别后处理,2019年10月24日2时7分,中文信息处理-绪论,14,汉语语音识别技术,汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等 语音识别的过程 语音识别单元的选取 特征参数提取技术 模式匹配及模型训练技术,2019年10月24日2时7分,中文信息处理-绪论,15,激光照排技术,激光照排,即电子排版系统 1946年,美国人发明了手动光学照相排版机 20世纪60年代,德国人制造了阴极射线管式照排 1975年,英国人开始了激光照排的研究 1974年8月,国家设立了748工程,2019年10月2
8、4日2时7分,中文信息处理-绪论,16,中文平台,中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件 汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字 API平台:操作系统提供有关中文信息处理所需要的一套API接口 中文平台:在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品,2019年10月24日2时7分,中文信息处理-绪论,17,文本分类,文本分类是一种确定文章所属类别的情报分析方法 基于词的归类技术 基于知识的归类技术 基于信息的归类技术,2019年10月24日2时7分,中文信息处理-绪论,18,信息检索,文本检索包括了文本信
9、息的存储、组织、表现、查询及存取等各个方面 索引的建立 自动分类 自动聚类 文摘(单文档文摘、多文档文摘) 检索结果的排序(ranking) 分布式信息检索 ,2019年10月24日2时7分,中文信息处理-绪论,19,现代汉语的特点,语音 字形 词汇 句子 字频 词频,2019年10月24日2时7分,中文信息处理-绪论,20,语音,汉字读音的标记方法 直音法 用一个汉字给另一个汉字进行注音 “厶”“司”,“翯” “贺” 反切法 用两个汉字给另外一个汉字注音 “鲁” “郎古切”,第一个汉字为声母,第二个汉字是韵母和声调 注音字符 汉语拼音 21个声母,35个韵母,4声调,2019年10月24日2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 ChineseInformationProcessing
链接地址:https://www.31doc.com/p-4161455.html