《第5章文本与文本处理.ppt》由会员分享,可在线阅读,更多相关《第5章文本与文本处理.ppt(13页珍藏版)》请在三一文库上搜索。
1、第5章 数字媒体及应用,教学课件,2019/4/11,2,文字符号在计算机中的表示(P13),日常使用的书面文字由一系列称为“字符”(character)的书写符号所构成 计算机中常用字符的集合叫做“字符集” 西文字符集 中文(汉字)字符集(参见第5章) 最常用的西文字符集是ASCII (American Standard Code for Information Interchange)字符集 包含96个可打印字符和32个控制字符 每个字符采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符,2019/4/11,3,标准ASCII字符集及其代码表,2019/4/11,4,字符
2、、字符集及其编码表,文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等 字符集:一组特定字符的集合 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 字符的编码: 字符集中每个字符的二进位表示,称为该字符的编码或代码(code) 不同的字符其编码各不相同 字符集中所有字符编码一览表,称为该字符集的码表,2019/4/11,5,补充:西文字符的编码ASCII码,目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的 ASCII码(American Standard Code for Infor
3、mation Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。,2019/4/11,6,复习:西文字符的编码ASCII码,西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美国标准信息交换码(ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 存在问题: 字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符
4、集无法编码,2019/4/11,7,汉字如何编码?,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马) 汉字的特点 数量大;字形复杂,同音字多,异体字多,2019/4/11,8,常用的汉字编码字符集,国家标准GB2312-1981 汉字扩充规范 GBK 国家标准GB18030-2005 台湾地区的标准汉字字符集CNS 11643 (Big 5,俗称“大五码”) 国际标准化组织ISO制定的UCS/Unicode多文种大字符集,2019/4/11,9,GB2312汉字编码字符集,1980年颁布信息交换用汉字编码字符集基本集GB23
5、12-1980 GB2312字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,共6763个汉字和682个符号,每个汉字和符号都有一个确定位置,2019/4/11,10,GB2312汉字的编码,每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”( GB2312 汉字的“机内码”又称“内码”),例如: “南”字的代码是11000100 11001111 (用十六进制表示为C4CF),2019/4/11,11,GBK汉字内码扩充规范,GB2312的不足: 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要; GBK汉字内码扩充规范(1995): 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:,2019/4/11,12,UCS/Unicode多文种大字符集,背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码 称为UCS/Unicode,2019/4/11,13,小结:几种汉字编码的对比,
链接地址:https://www.31doc.com/p-2577954.html