文本与文本处理PPT课件.ppt
《文本与文本处理PPT课件.ppt》由会员分享,可在线阅读,更多相关《文本与文本处理PPT课件.ppt(50页珍藏版)》请在三一文库上搜索。
1、第第5章章 数字媒体及应用数字媒体及应用5.1 文本与文本处理文本与文本处理 5.2 图像与图形图像与图形 5.3 数字声音及应用数字声音及应用5.4 数字视频及应用数字视频及应用25.1 文本与文本处理5.1 文本与文本处理文本与文本处理 5.1.1 字符的编码字符的编码5.1.2 文本准备文本准备5.1.4 文本编辑、排版与处理文本编辑、排版与处理5.1.5 文本的展现文本的展现 5.1.3 文本的分类文本的分类与表示与表示35.1 文本与文本处理文字处理是计算机应用的基础文字处理是计算机应用的基础n计算机应用使用计算机进行信息处理计算机应用使用计算机进行信息处理n其中,其中,文字信息处理
2、是涉及面最广的一种计算机文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。应用,几乎与任何领域任何人都有关。文字文字数值数值语言语言音乐音乐图像图像信息的形态有多种信息的形态有多种45.1 文本与文本处理写作写作编辑编辑排版排版印刷印刷发行发行写作写作传统的文字处理过程传统的文字处理过程55.1 文本与文本处理计算机文字处理过程计算机文字处理过程n文字信息在计算机中称为文字信息在计算机中称为“文本文本”(text),文本是计算机中最),文本是计算机中最常用的一种数字媒体常用的一种数字媒体n文本由一系列文本由一系列“字符字符”(character)组成,每个字符均使用二)组成
3、每个字符均使用二进制编码表示进制编码表示n文本在计算机中的处理过程是:文本在计算机中的处理过程是:(文本编辑器文本编辑器)文本编辑文本编辑与排版与排版格式化的格式化的电子文本电子文本(2)文本文本展现展现(文本阅读器文本阅读器)(5)文本处理文本处理(文本处理软件文本处理软件)(3)文本准备文本准备电子文电子文本本(1)(文字与图表文字与图表 的输入的输入)文本存储文本存储与传输与传输(4)(存档存档/通信软件通信软件)65.1 文本与文本处理5.1.1.字符在计算机中的表示字符在计算机中的表示 75.1 文本与文本处理字符、字符集及其码表字符、字符集及其码表 n文字的基本元素是字母和符号,
4、统称为文字的基本元素是字母和符号,统称为“字符字符”(character),它包括:字母、数字、标点、符号等,它包括:字母、数字、标点、符号等n字符集:一组特定字符的集合字符集:一组特定字符的集合n不同的字符集包含的字符数目与内容不同,如:不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n字符的编码:字符的编码:n字符集中每个字符都使用二进位字符集中每个字符都使用二进位(code)表示,称为该字符的表示,称为该字符的编码编码n不同的字符其编码各不相同不同的字符其编码各不相同n字符集中所有字符的编码的一览表,称为该字符集的码表字符
5、集中所有字符的编码的一览表,称为该字符集的码表85.1 文本与文本处理西文字符的编码西文字符的编码ASCII码码n西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、数字、标点符,它由拉丁字母、数字、标点符号以及一些特殊符号所组成号以及一些特殊符号所组成n美国标准信息交换码美国标准信息交换码(American Standard Code for Information Interchange,简称简称ASCII码码):nASCII字符集包含字符集包含96个可打印字符和个可打印字符和32个控制字符个控制字符n采用采用7个二进位进行编码个二进位进行编码n计算机中使用计算机中使用1个字节
6、存储个字节存储1个个ASCII 字符字符n存在问题:存在问题:n7位代码空间太小(只能对位代码空间太小(只能对128个字符编码)个字符编码)n不同国家和地区使用不同的字符集及其编码,互不兼容不同国家和地区使用不同的字符集及其编码,互不兼容n东亚地区使用的大字符集无法编码东亚地区使用的大字符集无法编码95.1 文本与文本处理标准标准ASCII字符集及其码表字符集及其码表 b6 b5 b4 b3 b2 b1 b0 012345670 1 2 3 4 5 6 7 8 9 A B C D E Fb6b5b4b3b2b1b00 1 1 01 0 01 1 0 1 0 1 1105.1 文本与文本处理汉字
7、如何编码?汉字如何编码?n汉字是记录汉语(国语,华语)的文字,属于表意汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素文字,它用符号直接表达词或词素n汉字的特点汉字的特点n数量大;多个国家和地区使用;字形复杂,同音字数量大;多个国家和地区使用;字形复杂,同音字多,异体字多多,异体字多n如何编码?如何编码?n确定收入多少字、哪些字?确定收入多少字、哪些字?n汉字在字符集中的排序方式汉字在字符集中的排序方式n确定使用的代码结构和代码空间确定使用的代码结构和代码空间115.1 文本与文本处理常用的汉字编码字符集常用的汉字编码字符集n国家标准国家标准GB2312n汉字扩充规范
8、汉字扩充规范 GBKn国家标准国家标准GB18030n台湾地区的标准汉字字符集台湾地区的标准汉字字符集CNS 11643(BIG 5,俗称俗称“大五码大五码”)n日本工业标准汉字字符集日本工业标准汉字字符集JIS X 0208-90n韩国国家标准汉字字符集韩国国家标准汉字字符集KSC 5601-87125.1 文本与文本处理一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字
9、符集汉字编码字符集n1980年颁布年颁布信息交换用汉字编码字符集信息交换用汉字编码字符集基本基本集集GB2312-1980nGB2312字符集由三个部分构成:字符集由三个部分构成:拉丁字母、俄文、拉丁字母、俄文、日文平假名与片日文平假名与片假名、希腊字母、假名、希腊字母、汉语拼音等共汉语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字或符号都有一汉字或符号都有一个确定位置,该位个确定位置,该位置的区号和位号就置的区号和位号就是这个汉字的是这个汉字的“区区位码位码”(注:区位码仅用于在键盘上输入汉字)(注:区位码仅用于在键盘上输入汉字)135.1 文本与文本处理G
10、B2312汉字的编码汉字的编码n每一个每一个GB2312汉字使用汉字使用16位位(2个字节个字节)表示表示n每个字节的最高位均为每个字节的最高位均为“1”n在在16位代码空间中的码位分布:位代码空间中的码位分布:第第1字字节节第第 2字节字节00 7E A1 FE0081A1FEGB2312图形符号图形符号汉字代码空间汉字代码空间(6763个汉字)个汉字)B0F716位的代位的代码空间共码空间共有有216 65536个个码位码位145.1 文本与文本处理GB2312汉字编码的不足之处汉字编码的不足之处nGB2312汉字字数太少,无法满足一些特殊应汉字字数太少,无法满足一些特殊应用的需要:用的需
11、要:n人名、地名;人名、地名;n古籍整理、古典文献研究。古籍整理、古典文献研究。n没有繁体字没有繁体字n编码效率不高编码效率不高:(6763+682)/65536n与与ASCII码不兼容码不兼容155.1 文本与文本处理标准标准名称名称GB2312GBKGB18030UCS-2(Unicode)字符字符集集6763个汉个汉字字(简体字简体字)21003个汉个汉字(包括字(包括GB2312汉汉字在内)字在内)27 000多多汉字汉字(包括包括GBK汉字汉字和和CJK及及其扩充中其扩充中的汉字的汉字)包含包含10万字符,万字符,其中的汉字与其中的汉字与GB18030相相同同编码编码方法方法双字节存
12、双字节存储和表示,储和表示,每个字节每个字节的最高位的最高位均为均为“1”双字节存双字节存储和表示,储和表示,第第1个字节个字节的最高位的最高位必为必为“1”部分双字部分双字节、部分节、部分4字节表字节表示示(1)UTF-8单字节可变单字节可变长编码长编码(2)UTF-16双字节可变双字节可变长编码长编码兼容兼容性性编码编码不兼容!不兼容!几种汉字编码的对比几种汉字编码的对比GBK00 FF00FF20902汉字00 FF00FF6763汉字GB231200 FF00FF27484汉字GB18030编码保持向下兼容编码保持向下兼容165.1 文本与文本处理背景材料:背景材料:UCS/Unico
13、den解决多文种信息处理方法的发展:解决多文种信息处理方法的发展:n传统方法(传统方法(ISO):扩展):扩展ASCII码码n微软的方法:代码页切换微软的方法:代码页切换nUCS/Unicode:所有文字字母和符号集中在同一字符集进行统一编码:所有文字字母和符号集中在同一字符集进行统一编码(目目前收集了前收集了17x2161,114,112 个个)nUCS/Unicode的编码方案:的编码方案:n尽量与已有编码标准兼容尽量与已有编码标准兼容n先实现部分字符的编码(先实现部分字符的编码(101,000个)个)n允许有若干不同的编码方案允许有若干不同的编码方案,例如:例如:单字节:单字节:ASCI
14、I字符字符双字节:拉丁、希腊、阿拉伯,双字节:拉丁、希腊、阿拉伯,三字节:三字节:CJK汉字汉字四字节:其他四字节:其他Unicode:UTF-8 单字节可变长编码单字节可变长编码应用:应用:Linux,Web网页,电子邮件网页,电子邮件双字节:双字节:ASCII字符、拉丁、希腊、阿字符、拉丁、希腊、阿拉伯,常用拉伯,常用CJK汉字,汉字,四字节:四字节:CJK汉字汉字Unicode:UTF-16双字节可变长编码双字节可变长编码应用:应用:Windows,Mac,Java,175.1 文本与文本处理背景材料:背景材料:GB18030n无论是无论是Unicode的的UTF-8还是还是UTF-16
15、其,其CJK汉字字符集虽然覆盖了汉字字符集虽然覆盖了我国已使用多年的我国已使用多年的GB2312和和GBK标准中的汉字,但它们的标准中的汉字,但它们的编码并不编码并不相同相同n为了既能与为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在字信息资源,我国在2000年和年和2005年两次发布年两次发布GB18030汉字编码国汉字编码国家标准家标准。nGB18030实际上是实际上是UCS/Unicode字符集的另一种编码方案:字符集的另一种编码方案:n单字节编码(单字节编码(129个)表示个)表示ASCII字符字符n双字节
16、编码(双字节编码(23940个)表示汉字,与个)表示汉字,与GBK(以及(以及GB2312)保持向)保持向下兼容下兼容n四字节编码(约四字节编码(约158万个)用于表示万个)用于表示 UCS/Unicode中的其他字符中的其他字符nGB18030目前已在我国信息处理产品中强制贯彻执行。目前已在我国信息处理产品中强制贯彻执行。185.1 文本与文本处理例例:IE浏览网页时文字编码的选择浏览网页时文字编码的选择195.1 文本与文本处理5.1.2.文本准备文本准备 文稿如何输入计算机文稿如何输入计算机 205.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入自动识
17、别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入(1)数字编码数字编码,如电报码、区位码等如电报码、区位码等,(2)字音编码字音编码,如智能如智能ABC等等(3)字形编码,如五笔字形和表形码等字形编码,如五笔字形和表形码等,(4)形音编码形音编码发发展展趋趋势势:基基于于统统计计和和学学习习功功能能的的以以词词语语(短短语语)或或句句子子作作为为输输入入单单位的输入方法位的输入方法215.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,流
18、畅自然,流畅小型化,适合移动计算小型化,适合移动计算不足:不足:识别速度和正确性还需提高识别速度和正确性还需提高书写要求还要降低书写要求还要降低225.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,方便,适合移动计算自然,方便,适合移动计算不足:不足:对说话人、说话方式、说话内容的对说话人、说话方式、说话内容的适应能力要大适应能力要大大增强大增强识别速度和正确性还需大大提高识别速度和正确性还需大大提高235.1 文本与文本处理文字符号
19、输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入扫描仪扫描仪OCR数字数字文本文本纸介质纸介质文本文本文本的文本的映象映象(image)识别率已达到率已达到98%功能功能:简、繁体字、繁体字混合识别混合识别中文、西文混合识别中文、西文混合识别文字、表格混合识别文字、表格混合识别智能校对功能智能校对功能245.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入
20、语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!255.1 文本与文本处理汉字的键盘输入汉字的键盘输入n 汉字与键盘上的键无法一一对应,因此必须使用汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的几个键来表示一个汉字,这就称为汉字的“键盘输键盘输入编码入编码”n 优秀的汉字键盘输入编码应具有的特点:优秀的汉字键盘输入编码应具有的特点:n易学习、易记忆易学习、易记忆n效率高效率高(平均击键次数较少平均击键次数较少
21、)n重码少重码少n容量大容量大(可输入的汉字字数多可输入的汉字字数多)265.1 文本与文本处理汉字键盘输入方法的比较汉字键盘输入方法的比较类型型原理原理举例例优点点缺点缺点数字数字编码使用一串数字来表使用一串数字来表示示汉字字电报码区位区位码仅使用使用10个个数字数字键难记忆字音字音编码把把汉语的拼音作的拼音作为汉字的字的输入入编码智能智能ABC紫光紫光微微软拼音拼音输入入简单易学,易学,适合于非适合于非专业人人员重重码多,需增加多,需增加选择操作,不会操作,不会汉语拼音或不知道拼音或不知道读音音时无法使用无法使用字形字形编码把把汉字的部件或笔字的部件或笔画作画作为码元,按照元,按照汉字字结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 处理 PPT 课件
