欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第一篇媒体.ppt

    • 资源ID:2555303       资源大小:678.01KB        全文页数:98页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第一篇媒体.ppt

    第一篇 媒体,第2章 文字 输入、编码、输出 第3章 音频 频率、数字化、格式、MIDI、声卡、编码 第4章 图形与图像 种类、颜色、属性、格式、3D、显卡 第5章 动画 概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章 视频与编码标准 电视、视频数字化、编码标准、MPEG/H.26x、AVS+,常见媒体,第2章 文字,2.1 文字输入 键盘输入、手写输入、语音输入、扫描输入 2.2 字符编码 西文编码、中文编码、国际编码 2.3 文字输出 字形技术、语音合成,文字,文字是语言的记录,可以分为拼音文字(如英文)和象形文字(如中文)两大类,各类文字都是用图形符号(如字母和汉字)来表示的 在多媒体技术出现之前,文字是人们书面交流的主要手段。在多媒体技术得到广泛应用的今天,文字也是最重要的媒体元素之一 计算机对文字的处理,包括文字的输入、编码与输出 本章依次介绍文字输入、字符编码与文字输出,重点放在汉字编码标准之上,2.1 文字输入,将文字录入进计算机的方法主要有键盘输入、手写输入、语音输入和扫描识别输入 键盘输入是传统和主要的文字录入手段 随着计算机技术的发展,方便和快速的手写与语音输入成为解决文字输入瓶颈的有效途径 扫描输入主要应用在印刷品的大量文字自动录入方面,2.1.1 键盘输入,计算机的通用键盘源自传统的打字机,本身是为英文字母的键入而设计的,非常适合于拼音文字的字母输入。而像汉字这样的象形文字,用键盘输入则十分困难 汉字的三个要素是形、音、义。汉字的编码输入主要可以分为形码(如五笔字型)和音码(如全拼)两大类。各种形码和音码输入法,可以结合汉字的词义与语义特性,进行词汇与整句等智能化的输入(如微软拼音输入法),2.1.2 手写输入,随着各种手持设备(如平板电脑、智能手机)的不断出现与普遍使用,联机手写文字的实时识别与输入方法已经得到越来越广泛的应用 手写输入是指,人用手指或(特制的)笔在图形板上书写,机器进行实时的识别,并将对应文字的编码输入。 汉字的联机手写输入是自动汉字识别中最简单的一种,特点,机器识别的是笔画而不是整字 识别结果可以及时反馈,所以对识别率要求不高 输入方便,不需对输入人员进行培训 适合于边想边写 可利用图形板方便地进行编辑和修改,技术,人写字时手的抖动、书写速度的变化、图形板的量化和感应噪声等,会对识别产生干扰,因此,必须进行必要的平滑和去噪预处理 识别时还需进行字符分割,以区分哪些笔画属于同一汉字 手写输入在技术涉及图像识别、模式匹配、人工智能、语言文字、书写方式与习惯等方面的知识和方法 目前的手写识别方法和技术,还有待于进一步改进和完善,以提高识别率、减少对输入的限制、降低输入设备和识别软件的成本、加强软件的自学习功能,2.1.3 语音输入,语音输入是指,利用语音内容的识别技术,将人的话音实时转换为对应文字编码并录入计算机 语音输入的核心技术是语音识别技术 语音识别技术,现在正在发展过程中,还有待于进一步完善,语音识别技术,早期的语音识别,技术一直很落后。到上世纪70年代中,采用线性预测编码LPC和同态信号处理(homomorphic signal process)方法,技术有了长足的进步,但效果不理想。到了上世纪80年代,矢量量化(VQ, Vector Quantization)和隐马尔科夫模型(HMM, Hidden Markov Model)的成功使用,使语音识别在上世纪90年代达到了商用化程度。不过仍然存在问题,识别率一直难以进一步提高,又进入了相对低潮的相持阶段。2011年10月14日苹果公司推出的iPhone 4S手机支持智能语音指令输入,虽然还存在不少问题,但是却引发了业界对语音输入研究和应用的新热潮。 语音输入的字词识别,涉及词库、声母分类规则库、声母与韵母结合规则库、声调知识库,这些统称为声学基元模型库;句子识别还涉及语义、语法、句法、语用知识库,这些统称为语言模型库;句子理解则涉及常识库(难!),语音识别的过程图,语音输入 数据采集 波形自动分析 预处理/参数特征提取 分帧后的语音特征矢量集合 声学模型/时间对准声学基元模型库 语言模型库 组句分析 统计信息与规则 语句候选 识别语句输出,语音识别系统分类,按可识别词汇量可分为 小词汇量语音识别系统(1000) 按语音输入方式可分为 孤立词语音识别系统(简单) 连接词语音识别系统(较难) 连续语音语音识别系统(难) 按发言人类型可分为 特定人(1人) 限定人(n人) 非特定人(任意人) 语音识别的目标是开发大词汇量、非特定人的连续语音识别系统,2.1.4 扫描输入,扫描输入是指,将图书、期刊、打印材料和印刷品中的印刷体文字,先通过扫描仪变成计算机中的数字图像,然后再利用文字识别软件OCR自动转换成对应得文字编码并录入计算机 目前我国研制的多种OCR软件的识别率已经达到95%以上,不过受印刷品质量的影响比较大 OCR = Optical Character Recognition / Reader ,光学字符识别/阅读器,计算机识别印刷汉字的核心问题是抓住汉字的字形特征,它主要体现在笔画和关键点上 另一个核心问题是版面的分析与理解,包括从图文混排版面中自动排除图形部分、自动区分横排和竖排、自动识别标题和正文、对分栏文本实现自动对接等 扫描输入方法除了用于印刷体文字的识别和输入外,也可以用于手写体印刷文字的输入,其文字识别的方法与印刷体文字类似。也与手写实时输入的方法相关,不过失去了笔顺信息,属于整字识别类型,2.2 字符编码,字符编码包括西文编码、中文编码和国际通用字符编码,本节的重点放在常用的编码标准上 2.2.1 西文编码(ASCII等) 2.2.2 中文编码(GB 2312、GB 13000、GBK/GB 18030) 2.2.3 国际通用字符编码(Unicode、ISO/IEC 10646 ),2.2.1 西文编码,西文编码主要介绍ASCII字符集,然后简单介绍IBM公司的EBCDIC和两种扩展ASCII显示字符表 1ASCII 2EBCDIC 3扩展ASCII显示字符,1ASCII,ASCII(American Standard Code for Information Interchange,美国信息交换标准码)是ANSI于1963年提出、1968年确定的一种英文字符编码标准(ANSI X3.4-1986),广泛应用于计算机、网络和信息产业 ANSI = American National Standards Institute,美国国家标准协会 ASCII采用7位二进制数的(共计128个)代码来表示字符(包括图示符和控制符),加上奇偶校验位(或最高位置0),则每个字符由8位(一个字节)组成,ASCII字符集,ASCII字符集以32个字符为一组 第一组(0x000x1F)为控制符(非打印符),用于数据处理/通信系统及其相应设备中的信息交换 后面的除了第一个字符(SP空格符0x20)和最后一个字符(DEL删除符0x7F)外,全都是可打印(显示)的图示符,包括: 第二组(0x20 0x6F)的数字、空格和常用标点符号 第三组(0x400x5F)的大写拉丁字母(即英文字母)与少数标点符号 第四组(0x600x7F)的小写拉丁字母与少数标点符号,ASCII的国际标准,1972年,美国的国家标准ASCII与其若干拉丁语系国家的变体,一起成为国际标准ISO 646:1972(Information processing - ISO 7-bit coded character set for information interchange,信息处理ISO用于信息交换的七位编码字符集) 这些变体主要是将ASCII字符集中不常用的符号“# $ | ”替换为他们各自语言的重音符号 1987年ISO 646中的ASCII部分,成为646的国际参考版(IRV = International Reference Version):ISO 646.IRV:1987,但是其中的美元符$被替换为国际通用货币符¤ 1991年推出的修订版ISO/IEC 646.IRV:1991还原成原始的美国ASCII,所以又被称为ISO 646-US或US-ASCII,替代标准,由于ISO 646中各国的变体存在明显的兼容和统一问题,现在已经作废 有关编码已经被新的国际标准ISO/IEC 8859-116: 1987/1998(Information processing/technology - 8-bit single-byte coded graphic character sets,信息处理/技术8位单字节编码的图形字符集)所替代 后来ISO 646与ISO/IEC 8859标准又都被纳入ISO/IEC 10646:1993/2003(Information technology - Universal Multiple-Octet Coded Character Set (UCS),信息技术通用多八位编码字符集(UCS))标准之中 其中的标准编号ISO 10646 = ISO 646 + 10000,标准化组织,ANSI = American National Standards Institute,美国国家标准协会 ISO = International Organization for Standardization,国际标准化组织,是由153个国家的国家标准协会联合组成的一个非政府国际组织,总部(中央秘书处)设在瑞士的日内瓦,负责制定适应商业和广泛社会需要的各种国际标准,网址为http:/www.iso.org IEC = International Electrotechnical Commission,国际电工技术委员会,是一个成立于1906年6月的国际标准化权威组织,属于联合国的甲级咨询机构,负责制定关于电工电子各方面的标准,有42个会员国,总部也设在瑞士的日内瓦,网址为http:/www.iec.ch,我国于1958年8月参加,2EBCDIC,西文的字符编码方案,除了通用的ASCII外,还有IBM公司于1960年代初提出的EBCDIC(Extended Binary-Coded Decimal Interchange Code扩充的二进制编码的十进制交换码) EBCDIC现在仍然(仅)在IBM的 OS/390 与TPF以及富士通-西门子的BS2000/OSD等大型机的操作系统中使用 EBCDIC是一种八位编码,其字符的编码方案与ASCII的完全不同,EBCDIC字符集,3扩展ASCII显示字符,(1)IBM PC IBM PC的扩展ASCII显示字符由IBM公司为其PC机制定,可以由原始的IBM PC显示器在DOS状态下显示 (2)Microsoft Windows Microsoft Windows的扩展ASCII显示字符由微软公司为其Windows操作系统制定,可以在Windows环境的西文状态下被显示,IBM PC的扩展ASCII显示字符表,Microsoft Windows的 扩展ASCII显示字符表,2.2.2 中文编码,1GB 1988与GB 2311 2GB 2312 3汉字编码的辅助集 4Big5 5少数民族文字编码 6GB 13000 7GBK与GB 18030,汉字编码,为了计算机处理汉字,必须先对汉字进行编码。由于汉字数量大(康熙字典收字47 035个、汉语大字典收字54 678个,据统计在形成楷体后出现的汉字约有9万个左右),显然不能像ASCII那样用7位或单字节来进行编码,至少需要两个字节(最多可表示6万5千多个字符) 1980年我国制定了著名的GB 2312-80双字节汉字编码标准(其中,GB为“国标”这两个汉字的拼音首字母),收汉字6 763个 1993年底又推出了等同于国际通用字符编码标准ISO/IEC 10646.1-1993的国家标准GB 13000.1-93,收汉字20 902个 由于GB 13000与GB 2312的编码不兼容,作为过渡,2000年又公布了GB 18030-2000(GBK),收汉字2万7千个,1GB 1988与GB 2311,为了能够同时表示和处理汉字和英文,实现中外文混排,汉字编码必须兼容通用的ASCII编码。因此,1980年我国制定了与国际标准ISO 646:1972(即ASCII)对应的国家标准GB 1988-80信息处理交换用的七位编码字符集 汉字成千上万,不可能像ASCII一样只用单字节的七位来表示,必须扩展到八位和多字节。但是,不能随意扩充,而应该符合国际规范。因此,我国于1980年又制定了与七位代码扩充到八位编码的国际标准ISO 2022兼容的国家标准GB 2311-80信息处理交换用七位编码字符集的扩充办法,GB 1988-80(ASCII)的 代码结构图,GB 2311-80的八位编码结构图,2GB 2312,GB 2312-80信息交换用汉字编码字符集·基本集是我国制定的一个使用最广泛的汉字编码的强制性国家标准,由原第四机械工业部的华北计算机研究所(后改名为电子工业部第十五研究所)起草,1980年批准,1981年5月1日起实施 GB 2312-80是在已有的国家标准GB 1988-80(对应于ISO 646)和GB 2311-80(对应于ISO 2022)的基础上制定的,采用与ISO 2022兼容的GB 2311之7位到八位的代码扩充办法,用双字节编码表示汉字,与ASCII兼容,收录的字符,GB 2312对应的是汉字的基本集,共收汉字6 763个,可达到99.99%的使用频率。因此,除了极少数生僻的人名、地名和古文外,GB 2312中的汉字已经能基本满足平时的使用了 除了汉字外,GB 2312还收录了682个非汉字图形符号,包括202个一般符号(含间隔符、标点、运算符和制表符)、60个序号符、22个数字符、52个英文字母、169个日文假名、48个希腊字母、66个俄文字母、26个汉语拼音符号和37个汉语注音字母 所以,在GB 2312-80标准中,共收录了(6 763汉字 + 682非汉字图符 =)7 445图形字符,两级汉字,GB 2312将其收录的六千多个汉字分成两个级别: 一级汉字有3 755个,都为使用频率高的常用汉字,为便于检索,像字典那样,将这些汉字按拼音字母顺序排列(同音字再按笔顺的横、竖、撇、捺、点、折序排列) 二级汉字有3 008个,大部分较生僻,不易掌握读音,所以按部首顺序排列(同部首的字按笔画数排列,同笔画数的字再按笔顺排列),编码方案,GB 2312对所有图形字符(包括汉字和非汉字图符)都采用两个字节表示,每个字节的低七位用于编码,最高位全为1,这样可以兼容ASCII编码(字节的最高位全为0) 虽然在一个字节中,最高位为1的符号位置有128个,但从前面GB 2311的分析可知,为了与ASCII的代码结构兼容,保留了(32 + 2 =)34个控制符位置,最后只有(128 34 =)94个符号位可供图形字符编码使用 图形字符在代码表中的位置用区位码表示。将码表分成94个区,对应于编码的第一个字节取值0x210x7E。每个区又分成94个位,对应于编码的第二个字节取值0x210x7E(参见表2-6) 例如“中山大学”的编码为:中(0xD6D0)、山(0xC9BD)、大(0xB4F3)、学(0xD1A7),GB 2312-80字符集结构,第1区的部分非汉字图符,第16区的部分一级汉字,第56区的部分二级汉字,3汉字编码的辅助集,除了GB 2312基本集的6 763个简体汉字外,国家标准还给出了汉字编码字符集的多个辅助集 第二/四辅助集,分别增加了7 237 / 7 039个简体汉字 第一和三/五辅助集则分别是,与基本集和第二/四辅助集所对应的,繁体汉字字符集的国家标准 基本集加上辅助集,共有21 039个简体汉字和21 142个繁体汉字 繁体汉字之所以多一些,是因为在第一辅助集中,有时几个繁体字对应一个简体字,因此比基本集多出103个汉字 基本集和辅助集的代码页之间靠其编码字节的最高位来区分,编码字符的分页标志,双字节汉字编码的页面结构,4Big5,除了中国大陆使用的简体汉字外,在台湾、香港、澳门和海外华侨社区使用的是传统的繁体汉字 简体汉字使用GB(国标)系列编码标准 繁体汉字一般使用的是Big5内码(大五码),即台湾的“资讯工业策进会”发布的标准交换码(码),收录汉字13 053个 Big5内码是1984年由台湾财团法人资讯工业策进会与宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众 (FIC)等五大软件公司联合推出,故称为大五码,BIG5的代码空间,5少数民族文字编码,中国共有56个民族,除了汉、回、满族一般使用汉语外,其他少数民族大多有自己的民族语言 我国各民族使用的50多种文字,可以分为字母式结构文字和非字母式结构文字两大类 字母式结构的有拉丁文、斯拉夫文、蒙古文、维吾尔文、哈萨克文、藏文和朝鲜文等字母式 非字母式结构的有汉字、象形文字、图画文字和音节文字等 各民族文字的书写方向也有不同: 壮文、藏文、朝鲜文、彝文等的字从左到右、行从上到下 维吾尔文、哈萨克文和柯尔克孜文等的字从右到左、行从上到下 蒙古文和满文的字从上到下、行从左到右 汉字的书写方向有两种: 大陆的简体汉字的字从左到右、行从上到下 港台与古旧书的繁体汉字的字从上到下、行从右到左,国家标准,下面按发布时间列出若干已经公布的我国少数民族文字编码集的国家标准(这些字符集一般分成两类:对字母式结构文字采用八位编码、对非字母式结构文字采用双字节编码): GB 8045-87信息处理交换用蒙古文七位和八位编码图形字符集,收82个蒙古文字母和12个其他符号,共94个字符 GB 12050-89信息处理交换用维吾尔文编码图形字符集,收32个维吾尔文字母、一个维吾尔文复合字符和37个其他符号,共70个字符 GB 12052-89信息交换用朝鲜文编码字符集,收5297个朝鲜文字和682个其他符号(与GB 2132同),共5 979个字符 GB 13134-91信息交换用彝文编码字符集,收1165个彝文字符和688个其他符号,共1853个字符 GB 16959-1997信息技术 信息交换用藏文编码字符集 基本集,收41个藏文字母、36个藏文主字、13个元音字符、12个语音字符、10个藏文数字、10个半值符、一个控制用连接符和46个其他藏文图形符号,共169个字符,6GB 13000,GB 13000是与ISO/IEC 10646等价的国际通用编码字符集标准,收汉字2万多个,但是与GB 2312和GBK不兼容 1993年5月ISO与IEC联合推出了可用于世界各种文字的通用编码字符集的国际标准的第1部分: ISO/IEC 10646-1:1993 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane(信息技术通用多八位编码字符集(UCS)第1部分:体系结构与基本多文种平面) 该标准收字符9.6万个,几乎涵盖世界上的所有文字,其中包含汉字21 003个。 1993年底我国推出了等同于国际标准ISO/IEC 10646.1:1993的强制性国家标准: GB 13000.1-93信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面 该标准于1993年12月24日被国家技术监督局批准,1994年8月1日起实施,GB 13000的主要特点,世界各语言文种字符统一编码,避免冲突,便于国际交流 编码空间宽阔连续,每个图形字符的编码唯一(一字一码),不再存在兼容性问题 按文种而不是按语言编码,避免重复和浪费(如中日韩汉字的统一编码CJK) 与GB 2312和GBK不兼容,体系结构,UCS的体系结构是基于所谓“多八位”的,而“八位”就是一个字节,“多八位”就是多个字节 UCS采用4个字节来表征组、面、行、位的四维空间 整个UCS空间包含128个组(0x00组0x7F组),每组有256个平面(0x00平面0xFF平面),每个平面有256行,每行又由256个字位构成 UCS共有(128 × 256 =)32 768个平面,每个平面有(256 × 256 =)65 536个字位,每个字位对应于一个字符的编码 目前的编码只限于00组,已经定义的平面有00组的00平面称之为基本多文种平面BMP(Basic Multilingual Plane) ,及若干辅助平面,UCS的全部编码空间,UCS的00组,BMP,BMP = Basic Multilingual Plane,基本多文种平面 BMP用作双八位编码字符集,称之为UCS-2。它被分成四个区: A-区(字位0x00000x4DFF,有19 903个字位)用于字母文字、音节文字以及各种符号 I-区(字位0x4E000x9FFF,共20 992个字位)用于中日韩统一汉字(CJK) O-区(字位0xA0000xDFFF,共16 384个字位)保留未来标准化用 R-区(字位0xE0000xFFFD,共8 190个字位)为BMP的限制使用区,包括专用字符、变形显现形式及兼容字符,BMP总貌,BMP的 0x000x33行 字母文字区,表示形式,GB 13000提供了字符编码表示的两种替代使用的形式: 双八位BMP形式(UCS-2)允许使用BMP中的字符,且每个字符用两个字节表示 肆八位正则形式(UCS-4)允许使用GB 13000中的全部字符,且每个字符用四个字节表示 除了UCS-2/4外,还有另外两种变形的表示形式: UTF-8(单字节多字节) UTF-16(双字节和4字节,与UCS-2等价) 目前在工业上的实现,均为UTF-16(UCS-2)和UTF-8 UTF = Unicode / UCS Transformation Format,统一码/UCS转换格式 关于统一码我们会在下一小节详细介绍,7GBK与GB 18030,由于GB 13000标准与GB 2312标准的字符编码不兼容,作为过渡,在国家信息技术标准化委员会的主持下,制定了与GB 2312兼容的汉字内码扩展规范(GBK)(K为扩展的“扩”字的拼音首字母),并于1995年12月15日由原国家技术监督局标准司联合原电子工业部科技与质量监督司作为指导性技术规范发布实施 2000年,GBK又被国家标准GB 18030-2000信息技术 信息交换用汉字编码字符集 基本集的扩充所代替,该标准收汉字2万7千个 与GB 2312一样,GB 18030也为中国的强制性国家标准。微软公司的Windows XP/Vista/7/8中文版与苹果公司的Mac OS X和iOS、谷歌公司的Android(安卓)等操作系统已经全面支持GBK,GB 18030的码位范围分布,GB 18030的 总体结构图,收录字符,单字节部分收录了GB/T 11383的0x000x7F全部128个字符(似ASCII) 双字节部分收录内容如下:(21 003个汉字和884个符号共21 887个字符) GB 13000.1-93的全部CJK统一汉字字符20 902个(GB 2312的编码汉字在双字节2区,其他CJK统一汉字在双字节3/4区) GB 13000.1-93的CJK兼容区挑选出来的21个汉字“”(0xFD9C0xFDA0和0xFE400xFE4F) GB 13000.1-93中收录而GB 2312未收录的台湾地区使用的图形字符139个“”(0xA8400xA895和0xA9400XA988) GB 13000.1-93收录的其他字符31(13?)个(在双字节5区?) GB 2312-80中的非汉字字符682个(0xA1A10xA9EF) GB 12345-90的竖排标点符号19(29?)个“”(0xA6D90xA6F5) GB 2312-80未收录的10个小写罗马数字“”(0xA2A1 0xA2AA) GB 2312-80未收录的带音调的汉语拼音字母5(4?)个“”以及和(0xA8BB0xA8C0) 汉字数字零“”(0xA996)和欧元符“”(0xA2E3) 表意文字描述符13个“”(0xA9890xA995) 对GB 13000.1-93增补的汉字和部首/构件80个“”(0xFE50 0xFEA0) 四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1-93中的全部字符,GB 18030双字节部分的码位安排,GB 18030双字节部分的编码空间结构图,2.2.3 国际通用字符编码,Unicode(统一码)是由多语言软件制造商组成的统一码协会(http:/www.Unicode.org)所制定一种国际字符的编码标准 ISO/IEC 10646是ISO与IEC联合开发的国际通用的字符编码标准 本节主要介绍这两种关系密切的主流国际字符编码标准的来历、编码方案、各自特点与相互关系,1Unicode统一码,发展历史 1987年施乐(Xerox)公司的Joe Becker与Lee Collins和苹果(Apple)公司的Mark Davis等人开始讨论统一编码,1987年12月Joe Becker造词Unicode(统一码),含义为“unique, universal, and uniform character encoding”(单一、通用、统一的字符编码),1989年2月开始定期召开统一码会议,1989年9月公布Unicode草案 1991年1月3 日由Xerox、Apple、Sun、IBM、Aldis、Microsoft等公司出资,在美国加州成立了统一码协会(Unicode Consortium),并由协会设立非盈利性的统一码公司(Unicode, Inc.),后来HP、Adobe、Borland、Digital、Lotus、Novell等公司也纷纷加入。1991年1月成立统一码技术委员会UTC ,并制定了其规程 1991年2月在Ed Hart的推动下,进行了“统一码对10464 国际标准草案1”的对话,Unicode与ISO/IEC 10646开始走向融合 1991年8月发布Unicode 标准1.0版的第1卷(体系结构,非表意字符),1992年6月发表Unicode 1.0版的第2卷(表意字符),1993年6月发布Unicode 1.1版,与1993年5月公布的ISO/IEC 10646-1:1993实现了合并 1996年7月发布Unicode 2.0版 1999年9月发布Unicode 3.0版 2003年4月发布Unicode 4.0版(对应于ISO/IEC 10646:2003),2004年3月31日发布Unicode 4.0.1版,2005年3月31日发布Unicode 4.1.0版; 2006年7月14日发布Unicode 5.0版,2008年4月4日发布Unicode 5.1版,2009年12月22日发布Unicode 5.2版; 2010年10月发布Unicode 6.0版,2012年1月发布Unicode 6.1版(对应于ISO/IEC 10646:2012),2012年9月推出Unicode 6.2版,2013年9月推出Unicode 6.3版; 2014年6月16日发布Unicode 7.0版。,字符集,Unicode字符集的空间分成双字节的基本多语言平面 (Basic Multilingual Plane, BMP)和4字节的辅助多语言平面(Supplementary Multilingual Plane, SMP)两种 BMP Unicode的基本平面或基本多语言平面BMP,对应于ISO/IEC 10646-1的第00组的00平面(BMP)。即Unicode与ISO/IEC 10646的BMP中的字符编码完全一致 SMP 鉴于 Unicode 原有的16位元空间不足以应用,从Unicode 3.1版本开始,设立了16个辅助平面,使 Unicode 的可使用空间由六万多字增至约一百万字 原有的Unicode双字节空间称为基本平面或基本多语言平面 BMP。辅助多语言平面SMP字符要用4字节来储存 第一辅助平面:摆放拼音文字(主要为现时已不再使用的文字)及符号。范围在 U+10000 - U+1FFFD 第二辅助平面:又称为表意文字补充平面 (Supplementary Ideographic Plane, 简称SIP)。现时摆放“中日韩统汉字扩展B区”,共43,253个汉字。范围在 U+20000 - U+2FFFD 第三至十三辅助平面:尚未使用 第十四辅助平面:又称为特殊用途补充平面(Supplementary Special-purpose Plane, 简称SSP),摆放 Language tags 和 Variation Selectors ,它们都是控制字符。范围在 U+E0000 - U+E01FF 第十五至十六辅助平面:都是私人使用区。它们的范围是 U+F0000 - U+FFFFD 及 U+100000 - U+1000FD Unicode字符集的具体编码方式,参加第4小节“4UTF”,2ISO/IEC 10646,ISO/IEC 10646是ISO与IEC联合开发的国际通用的字符编码标准 ISO/IEC 10646标准由ISO与IEC联合成立的ISO/IEC JTC1/SC2/WG2制定: JTC 1(Joint Technical Committee 1 on Information technology,ISO/IEC信息技术联合技术委员会1),负责信息技术方面标准的制定工作 SC 2(SubCommittee 2 on Coded character sets,编码字符集分会2)下的WG 2(Working Group 2 on Universal coded character set,通用编码字符集工作组2)负责制定国际通用字符编码标准,即后来公布的ISO/IEC 10646,发展历史,1984年ISO的一些会员国发起制定新的国际字符编码标准;同年4月ISO与IEC联合成立ISO/IEC JTC1/SC2/WG2,1987年3月制定出编码架构;1992年6月投票通过第二版国际标准草案; 1993年5月推出10646标准时,将内容分成两个部分标准,首先发布的是其中的第1个部分(体系结构与基本多文种平面)的第1版(Edition 1):ISO/IEC 10646-1:1993 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane(信息技术通用多八位编码字符集(UCS)第1部分:体系结构与基本多文种平面); 2000年3月推出10646标准第一个部分的第2版(Edition 2):ISO/IEC 10646-1:2000 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane; 2001年10月推出10646标准第2版的第二个部分(辅助平面)的第1版(Edition 1):ISO/IEC 10646-2:2001 Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 2: Supplementary Planes; 2003年10月推出的10646新标准(第1版,Edition 1),将老标准中的两个部分标准合并成了一个单一的标准:ISO/IEC 10646:2003 Information technology - Universal Multiple- Octet Coded Character Set (UCS) 。后来又于2010年和2012年分别推出了ISO/IEC 10646:2010(第2版)和ISO/IEC 10646:2012(第3版)。,UCS通用字符集,通用字符集(Universal Character Set,UCS)是ISO/IEC 10646标准所定义的字符编码方式,采用4字节编码。又称为Universal Multiple-Octet Coded Character Set(通用多八位编码字符集) 通用字符集是所有包括了其他字符集。它保证了与其他字符集的双向兼容,即,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息 UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的象形文字,UCS还包括大量的图形、印刷、数学、科学符号,名字与组合字符,UCS不仅给每个字符分配一个代码,而且赋予了一个正式的名字。表示一个UCS或Unicode值的十六进制数通常在前面加上“U+”,例如“U+0041”代表字符“A” UCS里有些编码点分配给了组合字符,组合字符机制允许在任何字符后加上重音符或其他指示标记, 这在科学符号中特别有用, 比如数学方程式和国际音标字母, 可能会需要在一个基本字符后组合上一个或多个指示标记,实现级别,并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO 10646指定了如下三种实现级别: 级别1:不支持组合字符和韩语Hangul Jamo字符(一种特别的, 更加复杂的韩国文的编码, 使用两个或三个子字符来编码一个韩文音节) 级别2:类似于级别1,但在某些文字中,允许一列固定的组合字符(例如, 希伯来文, 阿拉伯文, Devangari, 孟加拉语, 果鲁穆奇语, Gujarati, Oriya, 泰米尔语, Telugo, 印.埃纳德语, Malayalam, 泰国语和老挝语),因为如果没有最起码的几个组合字符,UCS就不能完整地表达这些语言。 级别3:支持所有的UCS字符,如,可以在任意一个字符上加上一个箭头或/和一个tilde(颚化符号,即字母上面的),编码方式,UCS有如下两种编码方式: UCS-2:与Unicode的2字节编码基本一样 UCS-4:4字节编码,目前是在UCS-2前加上2个全零的字节 UCS还有UTF编码方式,参见下面第4小节“4UTF”,3Unicode与ISO/IEC 10646,关系 历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码协会组织(Unicode.org)。前者开发的ISO 10646项目,后者开发的Unicode项目。因此最初制定了不同的标准 1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作 从Unicode2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO10646将不会替超出U+10

    注意事项

    本文(第一篇媒体.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开