第2章文本ppt课件.ppt
《第2章文本ppt课件.ppt》由会员分享,可在线阅读,更多相关《第2章文本ppt课件.ppt(73页珍藏版)》请在三一文库上搜索。
1、第2章 文本,2019/4/6,南京大学多媒体研究所,2,内容,一、编码 二、文本输入 三、文本处理 四、文本显示,2019/4/6,南京大学多媒体研究所,3,什么是文本(text)?,文本是计算机表示文字信息的一种媒体 文本是一个字符流,它由一连串的字符组成 文本处理过程:,2019/4/6,南京大学多媒体研究所,4,电子文本的两种形式,扫描文本 是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像(bitmap)。 合成文本 也称为编码文本,它是基于特定字符集的、具有上下文相关性的一个字符流,每个字符均使用编码表示。这是计算机中常用的文本形式,2019/4/6,南京大学多媒体研究所
2、,5,文本的分类,按是否格式化分: 简单文本(plain text) / 丰富格式文本(rich text) 按结构分: 线性文本 / 超文本(hypertext),一、编码,2019/4/6,南京大学多媒体研究所,7,几个编码标准,ASCII ISO8859-1 GB2312 GB12345 GBK CJK BIG5,UCS Unicode UTF-8 UTF-16 UTF-32 GB18030,2019/4/6,南京大学多媒体研究所,8,ASCII,计算机中使用得最广泛的西文编码字符集:美国标准信息交换码(American Standard Code for Information Int
3、erchange, 简称ASCII码),后来被批准为ISO-646-US标准 ASCII字符集中: 96个可打印字符32个控制字符 采用7位二进制进行编码,2019/4/6,南京大学多媒体研究所,9,ASCII码/ ISO-646-US标准,2019/4/6,南京大学多媒体研究所,10,ISO-646的本地化,ISO-646-DK (丹麦),ISO-646-DE (德国),2019/4/6,南京大学多媒体研究所,11,ISO 646的不足,7位代码空间太小, 不同国家和地区使用不同的标准,难以兼容, 东亚地区使用的大字符集无法编码,,2019/4/6,南京大学多媒体研究所,12,扩充ASCII
4、字符集,单8位代码空间,2019/4/6,南京大学多媒体研究所,13,ISO 8859 扩充ASCII字符集(举例),ISO-8859-2 (East European),ISO-8859-1 (West European),2019/4/6,南京大学多媒体研究所,14,MS-Windows 的code page,代码页实际上就是各个不同的字符集。微软公司在开发DOS和Windows的各文种产品时,将各文种的字符集加以整理,并对每个具体的代码页都赋以一个代号,称作“代码页ID”。比如:CP1252代码页是ISO 8859-1的扩充,是ISO 8859-1的超集,2019/4/6,南京大学多媒体
5、研究所,15,汉字的编码,汉字(Chinese character, Han character, Hanzi)是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。 汉字的特点 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字) 多个国家和地区使用:香港,台湾地区,以及日本、韩国、朝鲜,新加坡,马来西亚等。 字形复杂,同音字多,异体字多。,2019/4/6,南京大学多媒体研究所,16,汉字正形,同一个宋体字有不同笔画或不同结构的,选择一个便于辨认,便于书写的形体; 同一个字宋体和手写楷书笔画结构不
6、同的,宋体尽可能接近手写楷书;不完全根据文字学的传统。,2019/4/6,南京大学多媒体研究所,17,GB2312-1980,1981年颁布,信息交换用汉字编码字符集基本集。 GB2312字符集由三个部分构成 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号); 一级常用汉字,共3755个,按汉语拼音排列; 二级常用字,共3008个,因不太常用,所以按偏旁部首排列。,2019/4/6,南京大学多媒体研究所,18,GB2312-80的字符集及字符布局,每一个汉字或符号有一个确定的位置,该位置的区号和位号就是这个汉字的“区位码
7、”。,大,区位码是2083,即 0010100,1010011 16进制表示为 14 53h,2019/4/6,南京大学多媒体研究所,19,GB2312-80汉字交换码,0x20,0x20,GB2312-80字符集在ISO 2022双8位代码空间中的位置,例如, “大”字的国标交换码是: 0110100 1110011即16进制的: 34 73h,2019/4/6,南京大学多媒体研究所,20,GB2312-80汉字内码,“大”字的机内码为 10110100,11110011 (B4F3),为了在机内区别于西文编码,GB2312 汉字字符集在双8位代码空间中映射到右下角位置,即在国标码的基础上,
8、每个字节的最高位置1,2019/4/6,南京大学多媒体研究所,21,GB12345-1990,GB2312-80是面向简体汉字的编码。 为了使用繁体汉字,特制订了繁体汉字字符集的国家标准(信息交换用汉字编码字符集-辅助集GB12345-1990) 。 兼容GB2312,含 717 个图形符号, 6866 个汉字 简体、繁体相同的汉字,编码保持不变, 对应1个繁体字的,替换为对应的繁体字,如繁体字“燈”,只对应一个简体字“灯”。 对应多个繁体字的,替换为最常用的那个繁体字,其它对应繁体字放在扩充区。如简体字“发”,对应“發”、“髮”2个 繁体字。在“发展”一义时,用“發展”,在“头发”一义时用“
9、頭髮”。再如“复”字,在“复杂”一义时用“複雜”,在“反复”一义时用“反復”。这样的简体字有300多个。,2019/4/6,南京大学多媒体研究所,22,GB2312和GB12345的不足,GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 简体和繁体分属于2个字符集,在简、繁体汉字同时使用时,很不方便。,2019/4/6,南京大学多媒体研究所,23,汉字内码扩展规范GBK,GBK全称汉字内码扩展规范(1995年) 向下与 GB 2312 编码兼容 向上准备向ISO 10646.1 国际标准过渡,是一个承上启下的标准。 GBK 规范收录了 ISO 10
10、646.1 中的全部 CJK 汉字和符号,并有所补充 GB 2312中的全部汉字(GBK/2) 其他CJK汉字和增补的汉字(GBK/3和GBK/4),共21003个汉字 另外还有883个图形符号(GBK/1, GBK/5),2019/4/6,南京大学多媒体研究所,24,CJK(中日韩)统一汉字字符集,所谓CJK统一汉字编码, 是指不论国家和地区,不论汉字的字义有无区别,只要字形相同,该汉字就只有一个代码。 CJK字符集以现有各国和地区的标准字符集作为源字符集,将其中的汉字按统一的认同规则进行认同甄别后,生成涵盖各源字集并按东亚著名的四大字典(康熙字典、大汉和字典、汉语大字典及大字源)的页码字位
11、综合排序(按部首笔画数目)排序,构成共27,484个汉字组成的大字符集。 经过中、日、韩、越、新的力争,国际标准化组织在Unicode编码体系中给汉字划出了9万多个码位,各国将对CJK汉字字符集作进一步的扩充。,2019/4/6,南京大学多媒体研究所,25,GBK汉字编码的特点,汉字数目多,共21003个; 简体和繁体汉字在同一个字符集中; 包含了中、日、韩认同的全部CJK汉字; 双字节编码,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”; 与GB2312-80保持向下兼容; 与ISO10646中的汉字字汇兼容,代码不兼容,2019/4/6,南京大学多媒体研究所,26,GBK的代码
12、空间以及字符分布,图形符号,CJK汉字,增补汉字,总计 23940 个码位,共收入 21003 个汉字和883图形符号,未使用的区域作为用户自定义区,2019/4/6,南京大学多媒体研究所,27,BIG5汉字编码,BIG 5汉字编码是我国台湾地区计算机系统中使用的汉字编码字符集。 包含 420 个图形符号和 13070 个汉字(不使用简化汉字)。 编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE, 0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。,2019/4/6,南京大学多媒体研究所,28,BIG5汉字编码空间,2019/4/6,南京大学多媒体研究所,29
13、,GB2312,GBK,BIG5,GB2312, GBK, BIG5 代码空间的比较,2019/4/6,南京大学多媒体研究所,30,通用编码字符集UCS,需求: 各个国家和民族都有自己的语言和文字,现代人类使用的语言有6800种。 希望所有这些语言文字都能方便地进行计算机通信,特别是允许能同时使用任意多种语言文字 例如: 中文简体:南京大学计算机系 中文繁体:南京大学計算機系 日文:今日天気 俄文: 俄文:,2019/4/6,南京大学多媒体研究所,31,ISO/IEC 10646 (UCS),ISO/IEC 10646 即“通用编码字符集”(Universal Coded Character
14、Set,简称UCS), 相应的工业标准称为“Unicode”,两者完全兼容。 设计目标: 实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理。 1993、2000分别发布标准的第部分(ISO/IEC 10646.1:1993和10646.1:2000),对应的中国国家标准是GB 13000.1。第2部分(ISO/IEC 10646.2)也已发布。,2019/4/6,南京大学多媒体研究所,32,UCS的体系结构,在 UCS 中每一个字符用 4 个字节编码,对应着每个字符在编码空间的组号、平面号、行号和字位号。,2019/4/6,南京大学多媒体研究所,33,UCS的 代 码 空 间,
15、基本多文种平面(BMP),辅助平面,专用平面,2019/4/6,南京大学多媒体研究所,34,UCS的 00 组,2019/4/6,南京大学多媒体研究所,35,UCS的 BMP 平面,2019/4/6,南京大学多媒体研究所,36,BMP 平 面 的 拼 音 文 字 区,2019/4/6,南京大学多媒体研究所,37,UCS的两种编码形式,(1)肆八位 正则形式,记作 UCS-4 比如: 汉字“一”的正则形式为 00 00 4E 00 (缺点:浪费存储空间,也不便于在网络上传输。) (2)双八位 也称为BMP 形式,记作 UCS-2 仅适用于基本多文种平面。如,“一”的双八位形式为4E00;控制字符
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 ppt 课件
链接地址:https://www.31doc.com/p-2548975.html