第5章数字媒体及应用.ppt
《第5章数字媒体及应用.ppt》由会员分享,可在线阅读,更多相关《第5章数字媒体及应用.ppt(56页珍藏版)》请在三一文库上搜索。
1、第5章 数字媒体及应用,本章要点: 文本与文本处理 图像与图形 数字声音及应用 数字视频及应用,2019/4/7,NJNU,2,5.1 文本与文本处理,文本:基于特定字符集的、按一定格式组织起来的、具有上下文相关性的一个字符流,每个字符均使用编码表示。,文本展现,(阅读器),文本存储与传输,2019/4/7,NJNU,3,1、西文字符的编码 西文字符集(拉丁字母、数字、标点等组成) 标准 ASCII 字符集 ASCII 字符集采用 7 位编码 每个 ASCII 字符以一个字节存放 扩充 ASCII 字符集:标准ASCII 码 + 扩展ASCII 码,一、字符的编码,2019/4/7,NJNU,
2、4,2. 汉字的编码,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。 汉字的特点: 数量大(我国汉字自古至今累计已超过6万字 多个国家和地区使用:港台地区,日、韩、朝、新、马等 字形复杂,同音字多,异体字多。 我国汉字编码的国家标准: GB2312(6763个常用简体汉字和682个非汉字字符 ) GBK (20902个CJK汉字和符号) UCS /Unicode与GB18030,2019/4/7,NJNU,5,(1) GB2312 1980 汉字编码,包括 6763 个汉字和 682 个非汉字字符 GB2312 构成: 一级常用汉字 3755 个,按汉语拼音排列
3、二级常用汉字 3008 个,按偏旁部首排列 非汉字字符 682 个 GB2312 构成一个二维平面,分成 94 行和 94列, 行号称为区号,列号称为位号,两者组合就是汉字编码。称为区位码。 区位码的区号和位号分别加上 20H,得到国标码。 国标码的两个字节的最高位置 1,得到 PC 机常用的 机内码,2019/4/7,NJNU,6,以汉字“啊”为例: 区位码为:1601,表示区号16位号01 对应二进制数为:00010000,00000001 国标码对应二进制数为: 00110000,00100001B 机内码对应二进制数为: 10110000,10100001B,2019/4/7,NJNU
4、,7,(2) GBK汉字内码扩充规范,总计 23940 个码位,共收入 21003 个汉字和883图形符号 简体和繁体汉字在同一个字符集中; 包含了中、日、韩认同的全部CJK汉字; 与GB2312-80保持向下兼容;,2019/4/7,NJNU,8,3、UCS/Unicode 与 GB18030 汉字编码标准,(1) 通用编码字符集 UCS/Unicode UCS 实现了对所有字符统一编码 (2) GB18030 编码(2000年) 目的是向 UCS 过渡,同时与 GB2312、GBK 兼容,目前已经在许多计算机系统中使用。 用 1、2 或 4 字节编码,汉字数达到 27000 多个,2019
5、/4/7,NJNU,9,二、文本的准备,文本信息的输入:,2019/4/7,NJNU,10,汉字键盘输入,汉字的键盘输入编码 输入编码要求:易学、易记、效率高、 重码少、容量大 输入编码分类: 数字编码 字音编码 字形编码 形音编码 用不同的输入编码方法输入同一个汉字,其内码是一样的,2019/4/7,NJNU,11,联机手写汉字识别,原理:用专用笔在专用书写板上书写汉字 (或符号) 计算机实时自动识别 用该汉字 (或符号) 对应的代码进行保存 例: “汉王”手写笔 正识率达到 90% 以上,识别速度超过12字/秒,2019/4/7,NJNU,12,汉语语音识别,分类: 孤立语音/连续语音识别
6、 小词汇量/大词汇量语音识别 特定人/非特定人语音识别 现状:特定人连续语音识别率已达到 90% 以上 目标:非特定人大词汇量的连续语音识别,2019/4/7,NJNU,13,4.印刷体汉字识别输入 对于将现存的大量书、报、刊物、档案、资料等输入计算机是非常重要的手段。 5.脱机手写汉字识别输入 是一种用于将预先手写好的文稿输入计算机的方法,也是计算机字符识别中最困难的一个问题。,2019/4/7,NJNU,14,1、简单文本(纯文本) 除了表达正文的字符和几个打印控制字符外,不含其它格式信息和结构信息。简单文本又称为纯文本,ASCII文本,其文件的后缀为“ .txt”(文本文件) 简单文本为
7、一种线性结构,由若干行构成,每行由若干个字构成 2、丰富格式文本 在简单文本中增加格式控制和结构说明信息,构成丰富格式文本 RTF是一种中间格式,它的目的是使各种丰富格式文本相互交换使用,以兼容不同格式文本。,三、文本的类型,2019/4/7,NJNU,15,3、超文本 超文本采用一种网状结构来组织信息 一个超文本由若干个文本块组成,这些文本块称为节点 节点可以是文字、图形、图像、声音或视频 基于多媒体信息结点的超文本,也称为超媒体。 例:Windows中的 “帮助” 文件就是一种典型的超文本,文本的类型,2019/4/7,NJNU,16,超文本结构,a3,2019/4/7,NJNU,17,四
8、、文本的编辑与处理,1、文本编辑与文本处理 文本编辑: 内容:对字(词, 句)、段落、页面等进行添加、删除、 修改等操作 字的处理 段落的处理 页面布局的处理 目的:使文本内容正确,版面清晰整齐、美观大方 所见即所得: 编辑的效果在屏幕上可以立即看到 在屏幕上看到的效果与打印出来的效果一致,2019/4/7,NJNU,18,2. 文本处理软件,(1)面向通信的文本处理软件 : Outlook Express (2)面向办公的文本处理软件 : MS Word , WPS2000 (3)面向印刷出版的文本处理软件: “飞腾”排版软件,PageMaker,PDF Writer (4)面向网络信息发布
9、和电子出版的文本处理软件: FrontPage, PDF Writer,2019/4/7,NJNU,19,五、文本的展现,过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出 承担文本输出任务的软件称为文本阅读器或浏览器: 嵌入在文本编辑(处理)软件中,如微软的 Word 独立的软件:如 Adobe 公司的 Acrobat Reader,微软公司的 IE 等,2019/4/7,NJNU,20,输出过程中字形的生成,文本展现过程中,字符形状的生成是一个关键 先根据字符的字体确定相应的字型库(font) 再按照该字符的代码从字型库中取出该字符的形状描述信
10、息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处,2019/4/7,NJNU,21,字形描述方法,点阵字形:“1”表示对应位置是黑点 “0”表示是空白 轮廓字形:用曲线描述,精度高、字形可变, 如:Windows 中的 TrueType,字符的点阵描述,字符的轮廓描述,2019/4/7,NJNU,22,5.2 图像与图形,数字图像按其生成方法可以分为两大类: 通过数字化设备获取的图像,它们称为取样图像(sampled image)、点阵图像(dot matrix image)、位图图像(bitmap i
11、mage),以下简称图像(image) 计算机合成的图像(synthetic image),它们称为矢量图形(vector graphics),或简称图形(graphics),2019/4/7,NJNU,23,1. 图像的数字化 (1)扫描 : 将图像分成 M * N 个点进行取样 (2)分色 : 将每个点分成 R、G、B 三个基色。 (3)取样 :测量每个取样点每个分量的亮度值 (4)量化 :对每个分量进行 A / D 转换,再用 数字量表示,一、图像的获取,2019/4/7,NJNU,24,2. 数字图像获取设备,功能:将现实的景物输入到计算机内 种类:2D 扫描仪、数码相机、3D 扫描仪
12、等,2019/4/7,NJNU,25,二、图像的表示与压缩编码,1. 图像的表示方法与主要参数 每个取样点称为像素 彩色图像用三个矩阵来表示 矩阵的行数称为垂直分辩率 矩阵的列数称为水平分辩率 矩阵的元素值是像素颜色分量的亮度值 一幅取样图像,除了像素数据外,还有以下属性: 图像分辩率:图像在屏幕上的大小 颜色空间的类型:描述彩色图像所使用的颜色描述方法(常用的有RGB、CMYK、HSV、YUV) 像素深度:各种颜色(亮度)分量的位数之和,2019/4/7,NJNU,26,彩色图像的表示,2019/4/7,NJNU,27,2. 图像的压缩编码,图像数据量的计算公式(以字节为单位): 数据量 =
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 媒体 应用
链接地址:https://www.31doc.com/p-2550839.html