第一篇媒体.ppt
《第一篇媒体.ppt》由会员分享,可在线阅读,更多相关《第一篇媒体.ppt(98页珍藏版)》请在三一文库上搜索。
1、第一篇 媒体,第2章 文字 输入、编码、输出 第3章 音频 频率、数字化、格式、MIDI、声卡、编码 第4章 图形与图像 种类、颜色、属性、格式、3D、显卡 第5章 动画 概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章 视频与编码标准 电视、视频数字化、编码标准、MPEG/H.26x、AVS+,常见媒体,第2章 文字,2.1 文字输入 键盘输入、手写输入、语音输入、扫描输入 2.2 字符编码 西文编码、中文编码、国际编码 2.3 文字输出 字形技术、语音合成,文字,文字是语言的记录,可以分为拼音文字(如英文)和象形文字(如中文)两大类,各类文字都是用图形符号(如字母和汉字
2、)来表示的 在多媒体技术出现之前,文字是人们书面交流的主要手段。在多媒体技术得到广泛应用的今天,文字也是最重要的媒体元素之一 计算机对文字的处理,包括文字的输入、编码与输出 本章依次介绍文字输入、字符编码与文字输出,重点放在汉字编码标准之上,2.1 文字输入,将文字录入进计算机的方法主要有键盘输入、手写输入、语音输入和扫描识别输入 键盘输入是传统和主要的文字录入手段 随着计算机技术的发展,方便和快速的手写与语音输入成为解决文字输入瓶颈的有效途径 扫描输入主要应用在印刷品的大量文字自动录入方面,2.1.1 键盘输入,计算机的通用键盘源自传统的打字机,本身是为英文字母的键入而设计的,非常适合于拼音
3、文字的字母输入。而像汉字这样的象形文字,用键盘输入则十分困难 汉字的三个要素是形、音、义。汉字的编码输入主要可以分为形码(如五笔字型)和音码(如全拼)两大类。各种形码和音码输入法,可以结合汉字的词义与语义特性,进行词汇与整句等智能化的输入(如微软拼音输入法),2.1.2 手写输入,随着各种手持设备(如平板电脑、智能手机)的不断出现与普遍使用,联机手写文字的实时识别与输入方法已经得到越来越广泛的应用 手写输入是指,人用手指或(特制的)笔在图形板上书写,机器进行实时的识别,并将对应文字的编码输入。 汉字的联机手写输入是自动汉字识别中最简单的一种,特点,机器识别的是笔画而不是整字 识别结果可以及时反
4、馈,所以对识别率要求不高 输入方便,不需对输入人员进行培训 适合于边想边写 可利用图形板方便地进行编辑和修改,技术,人写字时手的抖动、书写速度的变化、图形板的量化和感应噪声等,会对识别产生干扰,因此,必须进行必要的平滑和去噪预处理 识别时还需进行字符分割,以区分哪些笔画属于同一汉字 手写输入在技术涉及图像识别、模式匹配、人工智能、语言文字、书写方式与习惯等方面的知识和方法 目前的手写识别方法和技术,还有待于进一步改进和完善,以提高识别率、减少对输入的限制、降低输入设备和识别软件的成本、加强软件的自学习功能,2.1.3 语音输入,语音输入是指,利用语音内容的识别技术,将人的话音实时转换为对应文字
5、编码并录入计算机 语音输入的核心技术是语音识别技术 语音识别技术,现在正在发展过程中,还有待于进一步完善,语音识别技术,早期的语音识别,技术一直很落后。到上世纪70年代中,采用线性预测编码LPC和同态信号处理(homomorphic signal process)方法,技术有了长足的进步,但效果不理想。到了上世纪80年代,矢量量化(VQ, Vector Quantization)和隐马尔科夫模型(HMM, Hidden Markov Model)的成功使用,使语音识别在上世纪90年代达到了商用化程度。不过仍然存在问题,识别率一直难以进一步提高,又进入了相对低潮的相持阶段。2011年10月14日
6、苹果公司推出的iPhone 4S手机支持智能语音指令输入,虽然还存在不少问题,但是却引发了业界对语音输入研究和应用的新热潮。 语音输入的字词识别,涉及词库、声母分类规则库、声母与韵母结合规则库、声调知识库,这些统称为声学基元模型库;句子识别还涉及语义、语法、句法、语用知识库,这些统称为语言模型库;句子理解则涉及常识库(难!),语音识别的过程图,语音输入 数据采集 波形自动分析 预处理/参数特征提取 分帧后的语音特征矢量集合 声学模型/时间对准声学基元模型库 语言模型库 组句分析 统计信息与规则 语句候选 识别语句输出,语音识别系统分类,按可识别词汇量可分为 小词汇量语音识别系统(1000) 按
7、语音输入方式可分为 孤立词语音识别系统(简单) 连接词语音识别系统(较难) 连续语音语音识别系统(难) 按发言人类型可分为 特定人(1人) 限定人(n人) 非特定人(任意人) 语音识别的目标是开发大词汇量、非特定人的连续语音识别系统,2.1.4 扫描输入,扫描输入是指,将图书、期刊、打印材料和印刷品中的印刷体文字,先通过扫描仪变成计算机中的数字图像,然后再利用文字识别软件OCR自动转换成对应得文字编码并录入计算机 目前我国研制的多种OCR软件的识别率已经达到95%以上,不过受印刷品质量的影响比较大 OCR = Optical Character Recognition / Reader ,光学
8、字符识别/阅读器,计算机识别印刷汉字的核心问题是抓住汉字的字形特征,它主要体现在笔画和关键点上 另一个核心问题是版面的分析与理解,包括从图文混排版面中自动排除图形部分、自动区分横排和竖排、自动识别标题和正文、对分栏文本实现自动对接等 扫描输入方法除了用于印刷体文字的识别和输入外,也可以用于手写体印刷文字的输入,其文字识别的方法与印刷体文字类似。也与手写实时输入的方法相关,不过失去了笔顺信息,属于整字识别类型,2.2 字符编码,字符编码包括西文编码、中文编码和国际通用字符编码,本节的重点放在常用的编码标准上 2.2.1 西文编码(ASCII等) 2.2.2 中文编码(GB 2312、GB 130
9、00、GBK/GB 18030) 2.2.3 国际通用字符编码(Unicode、ISO/IEC 10646 ),2.2.1 西文编码,西文编码主要介绍ASCII字符集,然后简单介绍IBM公司的EBCDIC和两种扩展ASCII显示字符表 1ASCII 2EBCDIC 3扩展ASCII显示字符,1ASCII,ASCII(American Standard Code for Information Interchange,美国信息交换标准码)是ANSI于1963年提出、1968年确定的一种英文字符编码标准(ANSI X3.4-1986),广泛应用于计算机、网络和信息产业 ANSI = America
10、n National Standards Institute,美国国家标准协会 ASCII采用7位二进制数的(共计128个)代码来表示字符(包括图示符和控制符),加上奇偶校验位(或最高位置0),则每个字符由8位(一个字节)组成,ASCII字符集,ASCII字符集以32个字符为一组 第一组(0x000x1F)为控制符(非打印符),用于数据处理/通信系统及其相应设备中的信息交换 后面的除了第一个字符(SP空格符0x20)和最后一个字符(DEL删除符0x7F)外,全都是可打印(显示)的图示符,包括: 第二组(0x20 0x6F)的数字、空格和常用标点符号 第三组(0x400x5F)的大写拉丁字母(即
11、英文字母)与少数标点符号 第四组(0x600x7F)的小写拉丁字母与少数标点符号,ASCII的国际标准,1972年,美国的国家标准ASCII与其若干拉丁语系国家的变体,一起成为国际标准ISO 646:1972(Information processing - ISO 7-bit coded character set for information interchange,信息处理ISO用于信息交换的七位编码字符集) 这些变体主要是将ASCII字符集中不常用的符号“# $ | ”替换为他们各自语言的重音符号 1987年ISO 646中的ASCII部分,成为646的国际参考版(IRV = Int
12、ernational Reference Version):ISO 646.IRV:1987,但是其中的美元符$被替换为国际通用货币符 1991年推出的修订版ISO/IEC 646.IRV:1991还原成原始的美国ASCII,所以又被称为ISO 646-US或US-ASCII,替代标准,由于ISO 646中各国的变体存在明显的兼容和统一问题,现在已经作废 有关编码已经被新的国际标准ISO/IEC 8859-116: 1987/1998(Information processing/technology - 8-bit single-byte coded graphic character se
13、ts,信息处理/技术8位单字节编码的图形字符集)所替代 后来ISO 646与ISO/IEC 8859标准又都被纳入ISO/IEC 10646:1993/2003(Information technology - Universal Multiple-Octet Coded Character Set (UCS),信息技术通用多八位编码字符集(UCS))标准之中 其中的标准编号ISO 10646 = ISO 646 + 10000,标准化组织,ANSI = American National Standards Institute,美国国家标准协会 ISO = International Org
14、anization for Standardization,国际标准化组织,是由153个国家的国家标准协会联合组成的一个非政府国际组织,总部(中央秘书处)设在瑞士的日内瓦,负责制定适应商业和广泛社会需要的各种国际标准,网址为http:/www.iso.org IEC = International Electrotechnical Commission,国际电工技术委员会,是一个成立于1906年6月的国际标准化权威组织,属于联合国的甲级咨询机构,负责制定关于电工电子各方面的标准,有42个会员国,总部也设在瑞士的日内瓦,网址为http:/www.iec.ch,我国于1958年8月参加,2EBCD
15、IC,西文的字符编码方案,除了通用的ASCII外,还有IBM公司于1960年代初提出的EBCDIC(Extended Binary-Coded Decimal Interchange Code扩充的二进制编码的十进制交换码) EBCDIC现在仍然(仅)在IBM的 OS/390 与TPF以及富士通-西门子的BS2000/OSD等大型机的操作系统中使用 EBCDIC是一种八位编码,其字符的编码方案与ASCII的完全不同,EBCDIC字符集,3扩展ASCII显示字符,(1)IBM PC IBM PC的扩展ASCII显示字符由IBM公司为其PC机制定,可以由原始的IBM PC显示器在DOS状态下显示
16、(2)Microsoft Windows Microsoft Windows的扩展ASCII显示字符由微软公司为其Windows操作系统制定,可以在Windows环境的西文状态下被显示,IBM PC的扩展ASCII显示字符表,Microsoft Windows的 扩展ASCII显示字符表,2.2.2 中文编码,1GB 1988与GB 2311 2GB 2312 3汉字编码的辅助集 4Big5 5少数民族文字编码 6GB 13000 7GBK与GB 18030,汉字编码,为了计算机处理汉字,必须先对汉字进行编码。由于汉字数量大(康熙字典收字47 035个、汉语大字典收字54 678个,据统计在形
17、成楷体后出现的汉字约有9万个左右),显然不能像ASCII那样用7位或单字节来进行编码,至少需要两个字节(最多可表示6万5千多个字符) 1980年我国制定了著名的GB 2312-80双字节汉字编码标准(其中,GB为“国标”这两个汉字的拼音首字母),收汉字6 763个 1993年底又推出了等同于国际通用字符编码标准ISO/IEC 10646.1-1993的国家标准GB 13000.1-93,收汉字20 902个 由于GB 13000与GB 2312的编码不兼容,作为过渡,2000年又公布了GB 18030-2000(GBK),收汉字2万7千个,1GB 1988与GB 2311,为了能够同时表示和处
18、理汉字和英文,实现中外文混排,汉字编码必须兼容通用的ASCII编码。因此,1980年我国制定了与国际标准ISO 646:1972(即ASCII)对应的国家标准GB 1988-80信息处理交换用的七位编码字符集 汉字成千上万,不可能像ASCII一样只用单字节的七位来表示,必须扩展到八位和多字节。但是,不能随意扩充,而应该符合国际规范。因此,我国于1980年又制定了与七位代码扩充到八位编码的国际标准ISO 2022兼容的国家标准GB 2311-80信息处理交换用七位编码字符集的扩充办法,GB 1988-80(ASCII)的 代码结构图,GB 2311-80的八位编码结构图,2GB 2312,GB
19、2312-80信息交换用汉字编码字符集基本集是我国制定的一个使用最广泛的汉字编码的强制性国家标准,由原第四机械工业部的华北计算机研究所(后改名为电子工业部第十五研究所)起草,1980年批准,1981年5月1日起实施 GB 2312-80是在已有的国家标准GB 1988-80(对应于ISO 646)和GB 2311-80(对应于ISO 2022)的基础上制定的,采用与ISO 2022兼容的GB 2311之7位到八位的代码扩充办法,用双字节编码表示汉字,与ASCII兼容,收录的字符,GB 2312对应的是汉字的基本集,共收汉字6 763个,可达到99.99%的使用频率。因此,除了极少数生僻的人名、
20、地名和古文外,GB 2312中的汉字已经能基本满足平时的使用了 除了汉字外,GB 2312还收录了682个非汉字图形符号,包括202个一般符号(含间隔符、标点、运算符和制表符)、60个序号符、22个数字符、52个英文字母、169个日文假名、48个希腊字母、66个俄文字母、26个汉语拼音符号和37个汉语注音字母 所以,在GB 2312-80标准中,共收录了(6 763汉字 + 682非汉字图符 =)7 445图形字符,两级汉字,GB 2312将其收录的六千多个汉字分成两个级别: 一级汉字有3 755个,都为使用频率高的常用汉字,为便于检索,像字典那样,将这些汉字按拼音字母顺序排列(同音字再按笔顺
21、的横、竖、撇、捺、点、折序排列) 二级汉字有3 008个,大部分较生僻,不易掌握读音,所以按部首顺序排列(同部首的字按笔画数排列,同笔画数的字再按笔顺排列),编码方案,GB 2312对所有图形字符(包括汉字和非汉字图符)都采用两个字节表示,每个字节的低七位用于编码,最高位全为1,这样可以兼容ASCII编码(字节的最高位全为0) 虽然在一个字节中,最高位为1的符号位置有128个,但从前面GB 2311的分析可知,为了与ASCII的代码结构兼容,保留了(32 + 2 =)34个控制符位置,最后只有(128 34 =)94个符号位可供图形字符编码使用 图形字符在代码表中的位置用区位码表示。将码表分成
22、94个区,对应于编码的第一个字节取值0x210x7E。每个区又分成94个位,对应于编码的第二个字节取值0x210x7E(参见表2-6) 例如“中山大学”的编码为:中(0xD6D0)、山(0xC9BD)、大(0xB4F3)、学(0xD1A7),GB 2312-80字符集结构,第1区的部分非汉字图符,第16区的部分一级汉字,第56区的部分二级汉字,3汉字编码的辅助集,除了GB 2312基本集的6 763个简体汉字外,国家标准还给出了汉字编码字符集的多个辅助集 第二/四辅助集,分别增加了7 237 / 7 039个简体汉字 第一和三/五辅助集则分别是,与基本集和第二/四辅助集所对应的,繁体汉字字符集
23、的国家标准 基本集加上辅助集,共有21 039个简体汉字和21 142个繁体汉字 繁体汉字之所以多一些,是因为在第一辅助集中,有时几个繁体字对应一个简体字,因此比基本集多出103个汉字 基本集和辅助集的代码页之间靠其编码字节的最高位来区分,编码字符的分页标志,双字节汉字编码的页面结构,4Big5,除了中国大陆使用的简体汉字外,在台湾、香港、澳门和海外华侨社区使用的是传统的繁体汉字 简体汉字使用GB(国标)系列编码标准 繁体汉字一般使用的是Big5内码(大五码),即台湾的“资讯工业策进会”发布的标准交换码(码),收录汉字13 053个 Big5内码是1984年由台湾财团法人资讯工业策进会与宏碁(
24、Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众 (FIC)等五大软件公司联合推出,故称为大五码,BIG5的代码空间,5少数民族文字编码,中国共有56个民族,除了汉、回、满族一般使用汉语外,其他少数民族大多有自己的民族语言 我国各民族使用的50多种文字,可以分为字母式结构文字和非字母式结构文字两大类 字母式结构的有拉丁文、斯拉夫文、蒙古文、维吾尔文、哈萨克文、藏文和朝鲜文等字母式 非字母式结构的有汉字、象形文字、图画文字和音节文字等 各民族文字的书写方向也有不同: 壮文、藏文、朝鲜文、彝文等的字从左到右、行从上到下 维吾尔文、哈萨克文和柯尔克孜文等的字从右到左、行从上到下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一篇 媒体
链接地址:https://www.31doc.com/p-2555303.html