书签分享收藏举报版权申诉 / 98

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 第一篇媒体.ppt

第一篇媒体.ppt

上传人：本田雅阁

文档编号：2555303

上传时间：2019-04-07

格式：PPT

页数：98

大小：678.01KB

《第一篇媒体.ppt》由会员分享，可在线阅读，更多相关《第一篇媒体.ppt（98页珍藏版）》请在三一文库上搜索。

1、第一篇媒体,第2章文字输入、编码、输出第3章音频频率、数字化、格式、MIDI、声卡、编码第4章图形与图像种类、颜色、属性、格式、3D、显卡第5章动画概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章视频与编码标准电视、视频数字化、编码标准、MPEG/H.26x、AVS+,常见媒体,第2章文字,2.1 文字输入键盘输入、手写输入、语音输入、扫描输入 2.2 字符编码西文编码、中文编码、国际编码 2.3 文字输出字形技术、语音合成,文字,文字是语言的记录，可以分为拼音文字（如英文）和象形文字（如中文）两大类，各类文字都是用图形符号（如字母和汉字

2、）来表示的在多媒体技术出现之前，文字是人们书面交流的主要手段。在多媒体技术得到广泛应用的今天，文字也是最重要的媒体元素之一计算机对文字的处理，包括文字的输入、编码与输出本章依次介绍文字输入、字符编码与文字输出，重点放在汉字编码标准之上,2.1 文字输入,将文字录入进计算机的方法主要有键盘输入、手写输入、语音输入和扫描识别输入键盘输入是传统和主要的文字录入手段随着计算机技术的发展，方便和快速的手写与语音输入成为解决文字输入瓶颈的有效途径扫描输入主要应用在印刷品的大量文字自动录入方面,2.1.1 键盘输入,计算机的通用键盘源自传统的打字机，本身是为英文字母的键入而设计的，非常适合于拼音

3、文字的字母输入。而像汉字这样的象形文字，用键盘输入则十分困难汉字的三个要素是形、音、义。汉字的编码输入主要可以分为形码（如五笔字型）和音码（如全拼）两大类。各种形码和音码输入法，可以结合汉字的词义与语义特性，进行词汇与整句等智能化的输入（如微软拼音输入法）,2.1.2 手写输入,随着各种手持设备（如平板电脑、智能手机）的不断出现与普遍使用，联机手写文字的实时识别与输入方法已经得到越来越广泛的应用手写输入是指，人用手指或（特制的）笔在图形板上书写，机器进行实时的识别，并将对应文字的编码输入。汉字的联机手写输入是自动汉字识别中最简单的一种,特点,机器识别的是笔画而不是整字识别结果可以及时反

4、馈，所以对识别率要求不高输入方便，不需对输入人员进行培训适合于边想边写可利用图形板方便地进行编辑和修改,技术,人写字时手的抖动、书写速度的变化、图形板的量化和感应噪声等，会对识别产生干扰，因此，必须进行必要的平滑和去噪预处理识别时还需进行字符分割，以区分哪些笔画属于同一汉字手写输入在技术涉及图像识别、模式匹配、人工智能、语言文字、书写方式与习惯等方面的知识和方法目前的手写识别方法和技术，还有待于进一步改进和完善，以提高识别率、减少对输入的限制、降低输入设备和识别软件的成本、加强软件的自学习功能,2.1.3 语音输入,语音输入是指，利用语音内容的识别技术，将人的话音实时转换为对应文字

5、编码并录入计算机语音输入的核心技术是语音识别技术语音识别技术，现在正在发展过程中，还有待于进一步完善,语音识别技术,早期的语音识别，技术一直很落后。到上世纪70年代中，采用线性预测编码LPC和同态信号处理(homomorphic signal process)方法，技术有了长足的进步，但效果不理想。到了上世纪80年代，矢量量化(VQ, Vector Quantization)和隐马尔科夫模型(HMM, Hidden Markov Model)的成功使用，使语音识别在上世纪90年代达到了商用化程度。不过仍然存在问题，识别率一直难以进一步提高，又进入了相对低潮的相持阶段。2011年10月14日

6、苹果公司推出的iPhone 4S手机支持智能语音指令输入，虽然还存在不少问题，但是却引发了业界对语音输入研究和应用的新热潮。语音输入的字词识别，涉及词库、声母分类规则库、声母与韵母结合规则库、声调知识库，这些统称为声学基元模型库；句子识别还涉及语义、语法、句法、语用知识库，这些统称为语言模型库；句子理解则涉及常识库（难！）,语音识别的过程图,语音输入数据采集波形自动分析预处理/参数特征提取分帧后的语音特征矢量集合声学模型/时间对准声学基元模型库语言模型库组句分析统计信息与规则语句候选识别语句输出,语音识别系统分类,按可识别词汇量可分为小词汇量语音识别系统(1000) 按

7、语音输入方式可分为孤立词语音识别系统（简单）连接词语音识别系统（较难）连续语音语音识别系统（难）按发言人类型可分为特定人（1人）限定人（n人）非特定人（任意人）语音识别的目标是开发大词汇量、非特定人的连续语音识别系统,2.1.4 扫描输入,扫描输入是指，将图书、期刊、打印材料和印刷品中的印刷体文字，先通过扫描仪变成计算机中的数字图像，然后再利用文字识别软件OCR自动转换成对应得文字编码并录入计算机目前我国研制的多种OCR软件的识别率已经达到95%以上，不过受印刷品质量的影响比较大 OCR = Optical Character Recognition / Reader ，光学

8、字符识别/阅读器,计算机识别印刷汉字的核心问题是抓住汉字的字形特征，它主要体现在笔画和关键点上另一个核心问题是版面的分析与理解，包括从图文混排版面中自动排除图形部分、自动区分横排和竖排、自动识别标题和正文、对分栏文本实现自动对接等扫描输入方法除了用于印刷体文字的识别和输入外，也可以用于手写体印刷文字的输入，其文字识别的方法与印刷体文字类似。也与手写实时输入的方法相关，不过失去了笔顺信息，属于整字识别类型,2.2 字符编码,字符编码包括西文编码、中文编码和国际通用字符编码，本节的重点放在常用的编码标准上 2.2.1 西文编码（ASCII等） 2.2.2 中文编码（GB 2312、GB 130

9、00、GBK/GB 18030） 2.2.3 国际通用字符编码（Unicode、ISO/IEC 10646 ）,2.2.1 西文编码,西文编码主要介绍ASCII字符集，然后简单介绍IBM公司的EBCDIC和两种扩展ASCII显示字符表 1ASCII 2EBCDIC 3扩展ASCII显示字符,1ASCII,ASCII（American Standard Code for Information Interchange，美国信息交换标准码）是ANSI于1963年提出、1968年确定的一种英文字符编码标准（ANSI X3.4-1986），广泛应用于计算机、网络和信息产业 ANSI = America

10、n National Standards Institute，美国国家标准协会 ASCII采用7位二进制数的（共计128个）代码来表示字符（包括图示符和控制符），加上奇偶校验位（或最高位置0），则每个字符由8位（一个字节）组成,ASCII字符集,ASCII字符集以32个字符为一组第一组（0x000x1F）为控制符（非打印符），用于数据处理/通信系统及其相应设备中的信息交换后面的除了第一个字符（SP空格符0x20）和最后一个字符（DEL删除符0x7F）外，全都是可打印（显示）的图示符，包括：第二组（0x20 0x6F）的数字、空格和常用标点符号第三组（0x400x5F）的大写拉丁字母（即

11、英文字母）与少数标点符号第四组（0x600x7F）的小写拉丁字母与少数标点符号,ASCII的国际标准,1972年，美国的国家标准ASCII与其若干拉丁语系国家的变体，一起成为国际标准ISO 646:1972（Information processing - ISO 7-bit coded character set for information interchange，信息处理ISO用于信息交换的七位编码字符集）这些变体主要是将ASCII字符集中不常用的符号“# $ | ”替换为他们各自语言的重音符号 1987年ISO 646中的ASCII部分，成为646的国际参考版（IRV = Int

12、ernational Reference Version）：ISO 646.IRV:1987，但是其中的美元符$被替换为国际通用货币符 1991年推出的修订版ISO/IEC 646.IRV:1991还原成原始的美国ASCII，所以又被称为ISO 646-US或US-ASCII,替代标准,由于ISO 646中各国的变体存在明显的兼容和统一问题，现在已经作废有关编码已经被新的国际标准ISO/IEC 8859-116: 1987/1998（Information processing/technology - 8-bit single-byte coded graphic character se

13、ts，信息处理/技术8位单字节编码的图形字符集）所替代后来ISO 646与ISO/IEC 8859标准又都被纳入ISO/IEC 10646:1993/2003（Information technology - Universal Multiple-Octet Coded Character Set (UCS)，信息技术通用多八位编码字符集(UCS)）标准之中其中的标准编号ISO 10646 = ISO 646 + 10000,标准化组织,ANSI = American National Standards Institute，美国国家标准协会 ISO = International Org

14、anization for Standardization，国际标准化组织，是由153个国家的国家标准协会联合组成的一个非政府国际组织，总部（中央秘书处）设在瑞士的日内瓦，负责制定适应商业和广泛社会需要的各种国际标准，网址为http:/www.iso.org IEC = International Electrotechnical Commission，国际电工技术委员会，是一个成立于1906年6月的国际标准化权威组织，属于联合国的甲级咨询机构，负责制定关于电工电子各方面的标准，有42个会员国，总部也设在瑞士的日内瓦，网址为http:/www.iec.ch，我国于1958年8月参加,2EBCD

15、IC,西文的字符编码方案，除了通用的ASCII外，还有IBM公司于1960年代初提出的EBCDIC（Extended Binary-Coded Decimal Interchange Code扩充的二进制编码的十进制交换码） EBCDIC现在仍然（仅）在IBM的 OS/390 与TPF以及富士通-西门子的BS2000/OSD等大型机的操作系统中使用 EBCDIC是一种八位编码，其字符的编码方案与ASCII的完全不同,EBCDIC字符集,3扩展ASCII显示字符,（1）IBM PC IBM PC的扩展ASCII显示字符由IBM公司为其PC机制定，可以由原始的IBM PC显示器在DOS状态下显示

16、（2）Microsoft Windows Microsoft Windows的扩展ASCII显示字符由微软公司为其Windows操作系统制定，可以在Windows环境的西文状态下被显示,IBM PC的扩展ASCII显示字符表,Microsoft Windows的扩展ASCII显示字符表,2.2.2 中文编码,1GB 1988与GB 2311 2GB 2312 3汉字编码的辅助集 4Big5 5少数民族文字编码 6GB 13000 7GBK与GB 18030,汉字编码,为了计算机处理汉字，必须先对汉字进行编码。由于汉字数量大（康熙字典收字47 035个、汉语大字典收字54 678个，据统计在形

17、成楷体后出现的汉字约有9万个左右），显然不能像ASCII那样用7位或单字节来进行编码，至少需要两个字节（最多可表示6万5千多个字符） 1980年我国制定了著名的GB 2312-80双字节汉字编码标准（其中，GB为“国标”这两个汉字的拼音首字母），收汉字6 763个 1993年底又推出了等同于国际通用字符编码标准ISO/IEC 10646.1-1993的国家标准GB 13000.1-93，收汉字20 902个由于GB 13000与GB 2312的编码不兼容，作为过渡，2000年又公布了GB 18030-2000（GBK），收汉字2万7千个,1GB 1988与GB 2311,为了能够同时表示和处

18、理汉字和英文，实现中外文混排，汉字编码必须兼容通用的ASCII编码。因此，1980年我国制定了与国际标准ISO 646:1972（即ASCII）对应的国家标准GB 1988-80信息处理交换用的七位编码字符集汉字成千上万，不可能像ASCII一样只用单字节的七位来表示，必须扩展到八位和多字节。但是，不能随意扩充，而应该符合国际规范。因此，我国于1980年又制定了与七位代码扩充到八位编码的国际标准ISO 2022兼容的国家标准GB 2311-80信息处理交换用七位编码字符集的扩充办法,GB 1988-80（ASCII）的代码结构图,GB 2311-80的八位编码结构图,2GB 2312,GB

19、2312-80信息交换用汉字编码字符集基本集是我国制定的一个使用最广泛的汉字编码的强制性国家标准，由原第四机械工业部的华北计算机研究所（后改名为电子工业部第十五研究所）起草，1980年批准，1981年5月1日起实施 GB 2312-80是在已有的国家标准GB 1988-80（对应于ISO 646）和GB 2311-80（对应于ISO 2022）的基础上制定的，采用与ISO 2022兼容的GB 2311之7位到八位的代码扩充办法，用双字节编码表示汉字，与ASCII兼容,收录的字符,GB 2312对应的是汉字的基本集，共收汉字6 763个，可达到99.99%的使用频率。因此，除了极少数生僻的人名、

20、地名和古文外，GB 2312中的汉字已经能基本满足平时的使用了除了汉字外，GB 2312还收录了682个非汉字图形符号，包括202个一般符号（含间隔符、标点、运算符和制表符）、60个序号符、22个数字符、52个英文字母、169个日文假名、48个希腊字母、66个俄文字母、26个汉语拼音符号和37个汉语注音字母所以，在GB 2312-80标准中，共收录了（6 763汉字 + 682非汉字图符 =）7 445图形字符,两级汉字,GB 2312将其收录的六千多个汉字分成两个级别：一级汉字有3 755个，都为使用频率高的常用汉字，为便于检索，像字典那样，将这些汉字按拼音字母顺序排列（同音字再按笔顺

21、的横、竖、撇、捺、点、折序排列）二级汉字有3 008个，大部分较生僻，不易掌握读音，所以按部首顺序排列（同部首的字按笔画数排列，同笔画数的字再按笔顺排列）,编码方案,GB 2312对所有图形字符（包括汉字和非汉字图符）都采用两个字节表示，每个字节的低七位用于编码，最高位全为1，这样可以兼容ASCII编码（字节的最高位全为0）虽然在一个字节中，最高位为1的符号位置有128个，但从前面GB 2311的分析可知，为了与ASCII的代码结构兼容，保留了（32 + 2 =）34个控制符位置，最后只有（128 34 =）94个符号位可供图形字符编码使用图形字符在代码表中的位置用区位码表示。将码表分成

22、94个区，对应于编码的第一个字节取值0x210x7E。每个区又分成94个位，对应于编码的第二个字节取值0x210x7E（参见表2-6）例如“中山大学”的编码为：中(0xD6D0)、山(0xC9BD)、大(0xB4F3)、学(0xD1A7),GB 2312-80字符集结构,第1区的部分非汉字图符,第16区的部分一级汉字,第56区的部分二级汉字,3汉字编码的辅助集,除了GB 2312基本集的6 763个简体汉字外，国家标准还给出了汉字编码字符集的多个辅助集第二/四辅助集，分别增加了7 237 / 7 039个简体汉字第一和三/五辅助集则分别是，与基本集和第二/四辅助集所对应的，繁体汉字字符集

23、的国家标准基本集加上辅助集，共有21 039个简体汉字和21 142个繁体汉字繁体汉字之所以多一些，是因为在第一辅助集中，有时几个繁体字对应一个简体字，因此比基本集多出103个汉字基本集和辅助集的代码页之间靠其编码字节的最高位来区分,编码字符的分页标志,双字节汉字编码的页面结构,4Big5,除了中国大陆使用的简体汉字外，在台湾、香港、澳门和海外华侨社区使用的是传统的繁体汉字简体汉字使用GB（国标）系列编码标准繁体汉字一般使用的是Big5内码（大五码），即台湾的“资讯工业策进会”发布的标准交换码(码)，收录汉字13 053个 Big5内码是1984年由台湾财团法人资讯工业策进会与宏碁(

24、Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众 (FIC)等五大软件公司联合推出，故称为大五码,BIG5的代码空间,5少数民族文字编码,中国共有56个民族，除了汉、回、满族一般使用汉语外，其他少数民族大多有自己的民族语言我国各民族使用的50多种文字，可以分为字母式结构文字和非字母式结构文字两大类字母式结构的有拉丁文、斯拉夫文、蒙古文、维吾尔文、哈萨克文、藏文和朝鲜文等字母式非字母式结构的有汉字、象形文字、图画文字和音节文字等各民族文字的书写方向也有不同：壮文、藏文、朝鲜文、彝文等的字从左到右、行从上到下维吾尔文、哈萨克文和柯尔克孜文等的字从右到左、行从上到下

25、蒙古文和满文的字从上到下、行从左到右汉字的书写方向有两种：大陆的简体汉字的字从左到右、行从上到下港台与古旧书的繁体汉字的字从上到下、行从右到左,国家标准,下面按发布时间列出若干已经公布的我国少数民族文字编码集的国家标准（这些字符集一般分成两类：对字母式结构文字采用八位编码、对非字母式结构文字采用双字节编码）： GB 8045-87信息处理交换用蒙古文七位和八位编码图形字符集，收82个蒙古文字母和12个其他符号，共94个字符 GB 12050-89信息处理交换用维吾尔文编码图形字符集，收32个维吾尔文字母、一个维吾尔文复合字符和37个其他符号，共70个字符 GB 12052-89信息交换用

26、朝鲜文编码字符集，收5297个朝鲜文字和682个其他符号（与GB 2132同），共5 979个字符 GB 13134-91信息交换用彝文编码字符集，收1165个彝文字符和688个其他符号，共1853个字符 GB 16959-1997信息技术信息交换用藏文编码字符集基本集，收41个藏文字母、36个藏文主字、13个元音字符、12个语音字符、10个藏文数字、10个半值符、一个控制用连接符和46个其他藏文图形符号，共169个字符,6GB 13000,GB 13000是与ISO/IEC 10646等价的国际通用编码字符集标准，收汉字2万多个，但是与GB 2312和GBK不兼容 1993年5月ISO与

27、IEC联合推出了可用于世界各种文字的通用编码字符集的国际标准的第1部分： ISO/IEC 10646-1:1993 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane（信息技术通用多八位编码字符集（UCS）第1部分：体系结构与基本多文种平面）该标准收字符9.6万个，几乎涵盖世界上的所有文字，其中包含汉字21 003个。 1993年底我国推出了等同于国际标准ISO/IEC 10646.1:19

28、93的强制性国家标准： GB 13000.1-93信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面该标准于1993年12月24日被国家技术监督局批准，1994年8月1日起实施,GB 13000的主要特点,世界各语言文种字符统一编码，避免冲突，便于国际交流编码空间宽阔连续，每个图形字符的编码唯一（一字一码），不再存在兼容性问题按文种而不是按语言编码，避免重复和浪费（如中日韩汉字的统一编码CJK）与GB 2312和GBK不兼容,体系结构,UCS的体系结构是基于所谓“多八位”的，而“八位”就是一个字节，“多八位”就是多个字节 UCS采用4个字节来表征组、面、行、位

29、的四维空间整个UCS空间包含128个组（0x00组0x7F组），每组有256个平面（0x00平面0xFF平面），每个平面有256行，每行又由256个字位构成 UCS共有（128 256 =）32 768个平面，每个平面有（256 256 =）65 536个字位，每个字位对应于一个字符的编码目前的编码只限于00组，已经定义的平面有00组的00平面称之为基本多文种平面BMP（Basic Multilingual Plane），及若干辅助平面,UCS的全部编码空间,UCS的00组,BMP,BMP = Basic Multilingual Plane，基本多文种平面 BMP用作双八位编码字符集，

30、称之为UCS-2。它被分成四个区： A-区（字位0x00000x4DFF，有19 903个字位）用于字母文字、音节文字以及各种符号 I-区（字位0x4E000x9FFF，共20 992个字位）用于中日韩统一汉字（CJK） O-区（字位0xA0000xDFFF，共16 384个字位）保留未来标准化用 R-区（字位0xE0000xFFFD，共8 190个字位）为BMP的限制使用区，包括专用字符、变形显现形式及兼容字符,BMP总貌,BMP的 0x000x33行字母文字区,表示形式,GB 13000提供了字符编码表示的两种替代使用的形式：双八位BMP形式（UCS-2）允许使用BMP中的字符，且每个

31、字符用两个字节表示肆八位正则形式（UCS-4）允许使用GB 13000中的全部字符，且每个字符用四个字节表示除了UCS-2/4外，还有另外两种变形的表示形式： UTF-8（单字节多字节） UTF-16（双字节和4字节，与UCS-2等价）目前在工业上的实现，均为UTF-16（UCS-2）和UTF-8 UTF = Unicode / UCS Transformation Format，统一码/UCS转换格式关于统一码我们会在下一小节详细介绍,7GBK与GB 18030,由于GB 13000标准与GB 2312标准的字符编码不兼容，作为过渡，在国家信息技术标准化委员会的主持下，制定了与GB

32、2312兼容的汉字内码扩展规范（GBK）（K为扩展的“扩”字的拼音首字母），并于1995年12月15日由原国家技术监督局标准司联合原电子工业部科技与质量监督司作为指导性技术规范发布实施 2000年，GBK又被国家标准GB 18030-2000信息技术信息交换用汉字编码字符集基本集的扩充所代替，该标准收汉字2万7千个与GB 2312一样，GB 18030也为中国的强制性国家标准。微软公司的Windows XP/Vista/7/8中文版与苹果公司的Mac OS X和iOS、谷歌公司的Android（安卓）等操作系统已经全面支持GBK,GB 18030的码位范围分布,GB 18030的总体结

33、构图,收录字符,单字节部分收录了GB/T 11383的0x000x7F全部128个字符（似ASCII）双字节部分收录内容如下：(21 003个汉字和884个符号共21 887个字符) GB 13000.1-93的全部CJK统一汉字字符20 902个（GB 2312的编码汉字在双字节2区，其他CJK统一汉字在双字节3/4区） GB 13000.1-93的CJK兼容区挑选出来的21个汉字“”（0xFD9C0xFDA0和0xFE400xFE4F） GB 13000.1-93中收录而GB 2312未收录的台湾地区使用的图形字符139个“”（0xA8400xA895和0xA9400XA988） GB

34、13000.1-93收录的其他字符31（13？）个（在双字节5区？） GB 2312-80中的非汉字字符682个（0xA1A10xA9EF） GB 12345-90的竖排标点符号19（29？）个“”（0xA6D90xA6F5） GB 2312-80未收录的10个小写罗马数字“”（0xA2A1 0xA2AA） GB 2312-80未收录的带音调的汉语拼音字母5（4？）个“”以及和（0xA8BB0xA8C0）汉字数字零“”(0xA996)和欧元符“”(0xA2E3) 表意文字描述符13个“”（0xA9890xA995）对GB 13000.1-93增补的汉字和部首/构件80个“”（0xFE50

35、0xFEA0）四字节部分收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1-93中的全部字符,GB 18030双字节部分的码位安排,GB 18030双字节部分的编码空间结构图,2.2.3 国际通用字符编码,Unicode（统一码）是由多语言软件制造商组成的统一码协会（http:/www.Unicode.org）所制定一种国际字符的编码标准 ISO/IEC 10646是ISO与IEC联合开发的国际通用的字符编码标准本节主要介绍这两种关系密切的主流国际字符编码标准的来历、编码方案、各自特点与相互关系,1Unicode统一码,发展历史 1987年施乐（Xerox）公司

36、的Joe Becker与Lee Collins和苹果（Apple）公司的Mark Davis等人开始讨论统一编码，1987年12月Joe Becker造词Unicode（统一码），含义为“unique, universal, and uniform character encoding”（单一、通用、统一的字符编码），1989年2月开始定期召开统一码会议，1989年9月公布Unicode草案 1991年1月3 日由Xerox、Apple、Sun、IBM、Aldis、Microsoft等公司出资，在美国加州成立了统一码协会（Unicode Consortium），并由协会设立非盈利性的统一码公司

37、（Unicode, Inc.），后来HP、Adobe、Borland、Digital、Lotus、Novell等公司也纷纷加入。1991年1月成立统一码技术委员会UTC ，并制定了其规程 1991年2月在Ed Hart的推动下，进行了“统一码对10464 国际标准草案1”的对话，Unicode与ISO/IEC 10646开始走向融合 1991年8月发布Unicode 标准1.0版的第1卷（体系结构，非表意字符），1992年6月发表Unicode 1.0版的第2卷（表意字符），1993年6月发布Unicode 1.1版，与1993年5月公布的ISO/IEC 10646-1:1993实现了合并 1

38、996年7月发布Unicode 2.0版 1999年9月发布Unicode 3.0版 2003年4月发布Unicode 4.0版（对应于ISO/IEC 10646:2003），2004年3月31日发布Unicode 4.0.1版，2005年3月31日发布Unicode 4.1.0版； 2006年7月14日发布Unicode 5.0版，2008年4月4日发布Unicode 5.1版，2009年12月22日发布Unicode 5.2版； 2010年10月发布Unicode 6.0版，2012年1月发布Unicode 6.1版（对应于ISO/IEC 10646:2012），2012年9月推出Unic

39、ode 6.2版，2013年9月推出Unicode 6.3版； 2014年6月16日发布Unicode 7.0版。,字符集,Unicode字符集的空间分成双字节的基本多语言平面 (Basic Multilingual Plane, BMP)和4字节的辅助多语言平面(Supplementary Multilingual Plane, SMP)两种 BMP Unicode的基本平面或基本多语言平面BMP，对应于ISO/IEC 10646-1的第00组的00平面（BMP）。即Unicode与ISO/IEC 10646的BMP中的字符编码完全一致 SMP 鉴于 Unicode 原有的16位元空间不足以

40、应用，从Unicode 3.1版本开始，设立了16个辅助平面，使 Unicode 的可使用空间由六万多字增至约一百万字原有的Unicode双字节空间称为基本平面或基本多语言平面 BMP。辅助多语言平面SMP字符要用4字节来储存第一辅助平面：摆放拼音文字（主要为现时已不再使用的文字）及符号。范围在 U+10000 - U+1FFFD 第二辅助平面：又称为表意文字补充平面 (Supplementary Ideographic Plane, 简称SIP)。现时摆放“中日韩统汉字扩展B区”，共43,253个汉字。范围在 U+20000 - U+2FFFD 第三至十三辅助平面：尚未使用第十四辅助平

41、面：又称为特殊用途补充平面(Supplementary Special-purpose Plane, 简称SSP)，摆放 Language tags 和 Variation Selectors ，它们都是控制字符。范围在 U+E0000 - U+E01FF 第十五至十六辅助平面：都是私人使用区。它们的范围是 U+F0000 - U+FFFFD 及 U+100000 - U+1000FD Unicode字符集的具体编码方式，参加第4小节“4UTF”,2ISO/IEC 10646,ISO/IEC 10646是ISO与IEC联合开发的国际通用的字符编码标准 ISO/IEC 10646标准由ISO与I

42、EC联合成立的ISO/IEC JTC1/SC2/WG2制定： JTC 1（Joint Technical Committee 1 on Information technology，ISO/IEC信息技术联合技术委员会1），负责信息技术方面标准的制定工作 SC 2（SubCommittee 2 on Coded character sets，编码字符集分会2）下的WG 2（Working Group 2 on Universal coded character set，通用编码字符集工作组2）负责制定国际通用字符编码标准，即后来公布的ISO/IEC 10646,发展历史,1984年ISO的一些

43、会员国发起制定新的国际字符编码标准；同年4月ISO与IEC联合成立ISO/IEC JTC1/SC2/WG2，1987年3月制定出编码架构；1992年6月投票通过第二版国际标准草案； 1993年5月推出10646标准时，将内容分成两个部分标准，首先发布的是其中的第1个部分（体系结构与基本多文种平面）的第1版（Edition 1）：ISO/IEC 10646-1:1993 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multi

44、lingual Plane（信息技术通用多八位编码字符集（UCS）第1部分：体系结构与基本多文种平面）； 2000年3月推出10646标准第一个部分的第2版（Edition 2）：ISO/IEC 10646-1:2000 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane； 2001年10月推出10646标准第2版的第二个部分（辅助平面）的第1版（Edition 1）：ISO/IEC 1064

45、6-2:2001 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 2: Supplementary Planes； 2003年10月推出的10646新标准（第1版，Edition 1），将老标准中的两个部分标准合并成了一个单一的标准：ISO/IEC 10646:2003 Information technology - Universal Multiple- Octet Coded Character Set (UCS) 。后来又于2010年和2012年分别推出了ISO/IEC

46、 10646:2010（第2版）和ISO/IEC 10646:2012（第3版）。,UCS通用字符集,通用字符集（Universal Character Set，UCS）是ISO/IEC 10646标准所定义的字符编码方式，采用4字节编码。又称为Universal Multiple-Octet Coded Character Set（通用多八位编码字符集）通用字符集是所有包括了其他字符集。它保证了与其他字符集的双向兼容，即，如果你将任何文本字符串翻译到UCS格式，然后再翻译回原编码，你不会丢失任何信息 UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚

47、语、格鲁吉亚语，还包括中文、日文、韩文这样的象形文字，UCS还包括大量的图形、印刷、数学、科学符号,名字与组合字符,UCS不仅给每个字符分配一个代码，而且赋予了一个正式的名字。表示一个UCS或Unicode值的十六进制数通常在前面加上“U+”，例如“U+0041”代表字符“A” UCS里有些编码点分配给了组合字符，组合字符机制允许在任何字符后加上重音符或其他指示标记, 这在科学符号中特别有用, 比如数学方程式和国际音标字母, 可能会需要在一个基本字符后组合上一个或多个指示标记,实现级别,并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO 10646指定了如下三种实现级别：级别1

48、：不支持组合字符和韩语Hangul Jamo字符(一种特别的, 更加复杂的韩国文的编码, 使用两个或三个子字符来编码一个韩文音节) 级别2：类似于级别1，但在某些文字中，允许一列固定的组合字符(例如, 希伯来文, 阿拉伯文, Devangari, 孟加拉语, 果鲁穆奇语, Gujarati, Oriya, 泰米尔语, Telugo, 印.埃纳德语, Malayalam, 泰国语和老挝语)，因为如果没有最起码的几个组合字符，UCS就不能完整地表达这些语言。级别3：支持所有的UCS字符，如，可以在任意一个字符上加上一个箭头或/和一个tilde(颚化符号，即字母上面的),编码方式,UCS有如下两种

49、编码方式： UCS-2：与Unicode的2字节编码基本一样 UCS-4：4字节编码，目前是在UCS-2前加上2个全零的字节 UCS还有UTF编码方式，参见下面第4小节“4UTF”,3Unicode与ISO/IEC 10646,关系历史上存在两个独立的尝试创立单一字符集的组织，即国际标准化组织（ISO）和多语言软件制造商组成的统一码协会组织（Unicode.org）。前者开发的ISO 10646项目，后者开发的Unicode项目。因此最初制定了不同的标准 1991年前后，两个项目的参与者都认识到，世界不需要两个不兼容的字符集。于是，它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作从Unicode2.0开始，Unicode采用了与ISO 10646-1相同的字库和字码；ISO也承诺，ISO10646将不会替超出U+10

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一篇媒体

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第一篇媒体.ppt
链接地址：https://www.31doc.com/p-2555303.html