《多媒体技术原理及应用(马华东第二版)第二章.ppt》由会员分享,可在线阅读,更多相关《多媒体技术原理及应用(马华东第二版)第二章.ppt(63页珍藏版)》请在三一文库上搜索。
1、第二章 多媒体数据压缩技术 数字音频编码 数字图像编码 数字视频编码 常用的数据压缩技术 多媒体数据转换 2.1 数字音频编码 音频的基本特性 n声音是由振动的声波所组成,在任一时刻t ,声波可分解为一系列正弦波线性叠加: f(t)= Ansin(nt+n) n其中, 称为基频或基音,它决定声音的高 低;n称为的n次谐波分量或称为泛音 ,与声音的音色有关; An是振幅,表示声音 的强弱;n是n次谐波的初相位。 音频数字化 n波形音频是以数字方式表示音波。它是用声 卡(包含ADC和DAC)来录制与执行播出声音 的。计算机对声音表示主要通过采样产生一 系列声音数据。 n事实上, 声波按频率可分为4
2、类, 其中多媒体 系统仅处理人类的听力所接受的频率范围的 声音,我们称之为音频, 这个频率范围的音 波称之为声音信号。 声音的频率分类 声音分类频率范围 亚声波020Hz 人类的听力所接受的频率 20Hz20kHz 超声波20kHz1GHz 超高声波1GHz10THz n通过规则时间间隔测出音波振动幅度从而产 生一系列声音数据。这种测出数据方法称之 为采样,一秒内采样次数叫采样率。 n采样的离散音频数据要转换成计算机能够表 示的数据范围,这个过程称之为量化 。 n量化后数字音频存储量计算公式 音频数据存储量(字节)=采样率(Hz)量化位 数(位)声道数音频长度(秒)/8 MIDI n1980年
3、制定一项工业标准,目的是让音乐及合 成音可以经由一串消息在不同的设备上交流传 输。 nMIDI提供了计算机外部的电子乐器与计算机内 部之间的连接器接口。这种连接接口定义物理 连接与电子乐器沟通的协议。 nMIDI也定义音频的形态与存储的方法。MIDI 音频是以消息的方式而非波形的方式组成。 nMIDI有三种连接器(In、Out、Thru)。 In为输入, Out为输出,而Thru是用来扩充MIDI 与其它设备连接用的。 n序器可以将音乐等声音以一种序列来储存。所 谓序列便是一连串的音符加上系统事件的命令 。 nMIDI适配器是用来改变频道、路径与按键的。 当电子琴的键盘与一般的MIDI规格不一
4、致时可 以经由适配器来修正使两者一致。 MIDI音频文件 nMIDI音频文件是一串时序命令,它记录音乐的行 为。 n命令消息分为频道消息(频道声音消息、频道模 式消息)和系统消息(系统实时消息、系统通用消 息与系统专用消息)。它是以某种乐器的发声为 其数据记录的基础。 n它的文件占用很少存储器空间,且可以做细部的 修改,如修改节拍等。其声音效果不会因改变节 拍而变调。 nMIDI不适合编制口语旁白的音频。 n数字音频可从麦克风、录音带、CD、电视及其它 来源获取。它把声音转换成储存体中数字信息。 n数字音频较为稳定,容易保持一致性,音频品质也较 易获得保证。 n缺点是记录非常详尽,数据量极大,
5、文件较MIDI音 频大出200倍以上。要修改数字音频细节非常困难, 大大地增加了CPU的负担。 n它可以适合任何一种音响,包括人的口语在内,故大 多数节目仍采用这种音频。 3D音频 3D音效可分为以下几类: n(1)扩展式立体声。 n(2)环绕立体声。 n(3)交互式音效。 支持3D音频API种类: nDirectX DirectSound 3D; Aureal 3D; EAX; Sensaura; Qsound; 杜比AC-3; 数字化影院 系统DTS 2.2 数字图像编码 2.2.1 彩色空间 n常见模型: n RGB彩色空间 n HSI彩色空间 n YUV彩色空间 n YIQ彩色空间 R
6、GB彩色空间 nR、G、B是彩色最基本表示模型,也是计算机 系统中所使用的彩色模型。 RGB5:5:5方式 用2个字节表示一个象 素,具体位分配。 RGB5:5:5方式 RGB8:8:8方式 R、G、B三个分量各 占一个字节。 T(1b) R(5b) G(5b) B(5b) HSI彩色空间 n这种模型中, 用H(Hue,色调)、 S(Saturation,饱和度)、I(Intensity,光强度 )3个分量来表示一种颜色, 这种表示更适合人 的视觉特性。 YUV彩色空间 nY为亮度信号,U、V是色差信号(B-Y,R-Y)。 PAL制式彩色空间即为YUV。优点是亮度和色差信号 分离,容易使彩色电
7、视系统与黑白电视信号兼容。 n国际无线电咨询委员会根据实验认为采用双倍 度采样4:2:2方案效果较好, 提出CCIR601标准 。 n变换公式(YUVRGB) Y = 0.299*R + 0.587*G+ 0.114*B; U =-0.169*R - 0.332*G+ 0.500*B; V = 0.500*R + 0.419*G - 0.081*B YIQ彩色空间 n广播电视系统另一种常用的亮度与色差分离 的模型。NTSC制式彩色空间即为YIQ。这里 Y是亮度, I和Q共同描述图象的色调和饱和度 。 n变换公式(YIQRGB) Y =0.299*R+ 0.587*G+ 0.114*B; I =
8、0.211*R - 0.523*G+ 0.312*B; Q =0.596*R - 0.275*G - 0.322*B 2.2.2 数字图象文件格式 nTIF nPCX nGIF、TGA、BMP、DVI、JPEG等 TIF文件格式 n由美国Aldus Developers Desk和Microsoft 制定 n结构 n文件头(8B) n参数指针表 n参数数据表 n图象数据 n文件头 含字节顺序(2B,表示存贮格式: II-Intel格式; MMMotorola格式); 标记号(2B, 版本信息); 指向第一个参数指针表的编码(4B)。 n参数指针表 由每个长为12B参数块构成, 描述压缩种类、长
9、 宽、彩色数、扫描密度等参数。 较长参数(如调色板)只给出指针, 参数放在参数 数据表中。其结构定义如下: typedef struct int tag-type; int number-size; long length; long offset; TIF-FIELD; n图象数据 按参数表中描述的形式按行排列 PCX文件格式 n由Z Soft公司最初制定 n结构 n文件头(128字节) n数据部分(采用行程长度编码) n文件头结构定义 typedef struct char manufacture; /*always 0xa0*/ char version; char encoding;
10、/*always 1*/ char bits-per-pixel; /*color bits */ int Xmin, Ymin; /* image origin */ int Xmax, Ymax; /* image dimension */ int hres; /* resolution values */ int vres; char palette48; /* color palette */ char reserved; char color-planes; /* color planes */ int bytes-per-line; /* line buffer size */ i
11、nt palette-type; /* grey or color palette */ char filler58; PCXHEAD; 其中Version若为5,文件内有个256色调色板,数据768字节,在文件最后 。 n文件体 对象素数据采用行程长度编码, 由包含 Keybyte和Databyte的包组成。分2种情况: (1) 若Keybyte最高位为11, 则低6位为重复次数。但最多 重复63次, 若再长重建一个包. PCX数据包的结构 (2) 若Keybyte最高位不是11,那么该Databyte按原样写入 图象文件。对一个字符的表示用长度为1的包。 11Index Databyte
12、111 Databyte 2.3 数字视频编码 数字视频的结构 n基本单位是帧。 n若干同一场景的帧构成镜头 n若干镜头构成情节 n若干情节构成故事(节目) 国际视频标准 nNTSC 美国研制,是目前广泛使用的电视制式。 它以525条横扫描线来组成一个屏幕帧,每秒30帧 ,其图象改变采用偶数线与奇数线相互交错更新的 方式,造成视觉动态图象。 nPAL 中国、英国等国采用制式,W.Bruch1963 年发明的,其基本原理类似于NTSC制式。以625 条扫描线,每秒25帧,也是以奇偶数扫描线交错方 式造成动态图象。 nSECAM 法国、俄罗斯等国采用制式。同样采 用625条线和25帧, 但与NTS
13、C和PAL相比, 其基 础技术是采用频率调制, 传播方式也不同于以上 两种。 2.4 常用数据压缩技术 2.4.1 数据压缩的基本原理 n传统上用模拟方式表示声音和图象信息 易出故障,常产生噪音和信号丢失,且拷贝过程中 噪音和误差逐步积累; 模拟信号不适合数字计算机加工处理。 n数字化处理:巨大的数据量 n采样定理: 仅当采样频率2倍的原始信号频率时,才能 保证采样后信号可被保真地恢复为原始信号 。 n采用8bit数字化,从而1秒钟电视信号的数据量 约为99.2Mbits。 即约为100Mbps。650MB的CD-ROM仅能存 约1分钟的原始电视数据。若HDTV(1.2Gbps), 一张CD-
14、ROM还存不下6秒钟的HDTV图象。 n人说话的音频一般在20Hz到4KHz, 即人类语 音的带宽为4KHz。依据采样定理, 设数字化 精度为8b, 则1秒钟信号量为64Kbits。 因此, 人讲1分钟话的数据量为480KB。 数字化处理的关键问题数据压缩 压缩的基础数据冗余 n空间冗余 n时间冗余 n信息熵冗余 n结构冗余 n知识冗余 n视觉冗余 n其它冗余 空间冗余 n这是图象数据中经常存在的一种冗余。 n在同一幅图象中,规则物体和规则背景的表 面物理特性具有相关性,这些相关性的光成 象结构在数字化图象中就表现为数据冗余 。 时间冗余 n这是序列图象和语音数据中所经常包含的冗余 。 n图象
15、序列中的两幅相邻的图象之间有较大的相 关性,这反映为时间冗余。 n人在说话时发音音频是一连续的渐变过程,而不 是一个完全时间上独立的过程,因而存在时间冗 余。 信息熵冗余 n信息熵是指一组数据所携带的信息量,它定义为 : H=-i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. n为使信息编码单位数据量d接近于或等于H,应设 : d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取 b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1). n例如, 英文字母编码码元长为7bit, 即b(y0)=b(y1)=
16、 =b(yK-1)=7, 这样d必然大于H, 由此带来的冗余 称为信息熵冗余或编码冗余。 结构冗余 n有些图象从大域上看存着非常强的纹理结构, 我们称它们在结构上存在有冗余. n例如布纹图象和草席图象 知识冗余 n有许多图象的理解与某些基础知识有相 当大的相关性。 n例如,人脸的图象有固定的结构。比如说 嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻 子位于正脸图象的中线上等等。 n这类规律性的结构可由先验知识和背景 知识得到, 我们称此类冗余为知识冗余。 视觉冗余 n人类视觉系统对于图象场的任何变化,并不是都 能感知的。 n例如,对于图象的编码处理时,由于压缩或量化截 断引入了噪声而使图象发生了一
17、些变化,如果这 些变化不能为视觉所感知,仍认为图象足够好。 n事实上人类视觉系统一般分辨能力约为26灰度 等级,而一般图象量化采用28灰度等级,这类冗 余我们称为视觉冗余。 其他冗余 n例如由图象的空间非定常特性所带来的冗 余。 2.4 常用的数据压缩技术 n根据解码后数据与原始数据是否完全一致, 数据压缩方法划分为两类: 可逆编码(无失真编码) 解码图象与原 始图象严格相同,压缩大约在2:1到5:1之间。如 Huffman编码、算术编码、行程长度编码等。 不可逆编码(有失真编码) 还原图象与原 始图象存在一定的误差,但视觉效果一般可以接受 ,压缩比可以从几倍到上百倍来调节。常用的有变 换编码
18、和预测编码 n根据压缩的原理分类: 预测编码 利用空间中相邻数据的相关性来预 测未来点的数据。差分脉冲编码调制(DPCM)和自适应 差分脉冲编码调制(ADPCM)。 变换编码 将图象时域信号变换到频域空间处 理。时域空间有强相关信号, 反映在频域上是某些特定 区域内能量集中, 从而实现压缩. 正交变换如离散余弦 变换, 离散付立叶变换和Walsh-Hadamard变换. 量化与向量量化编码 为了使整体量化失真最 小, 就必须依照统计的概率分布设计最优的量化器。已 知最优量化器是Max量化器。对象元点进行量化时, 也 可以考虑一次量化多个点的向量量化。 信息熵编码 根据信息熵原理,让出现概率大的
19、 用短的码字表达,反之用长的码字表示。最常见的方法如 Huffman编码、Shannon编码以及算术编码。 子带编码 将图象数据变换到频域后,按频域分 带,然后用不同的量化器进行量化,从而达到最优的组合 。或者分步渐近编码,随着解码数据的增加,图象逐渐清 晰。 模型编码 编码时首先将图象中边界、轮廓、纹 理等结构特征找出来,保存这些参数信息。解码时根据结 构和参数信息进行合成,恢复出原图象。具体方法有轮廓 编码、域分割编码、分析合成编码、识别合成编码、基 于知识的编码、分形编码等。 2.4.1 预测编码 n线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的 相关性。每个象素可根据已
20、知的前几个象素来 作预测。因此在预测编码中,编码和传输的并 不是象素采样值本身,而是这个采样值的预测 值与其实际值之间的差值 n非线性预测(不讨论) DPCM系统原理框图 预测器 量化器 编码器 解码器 预测器信道 接收端 输出 XN XN eN XN eN eN XN + + 输入 XN 发送端 + - nXN为tN时刻的亮度采样值; XN为根据tN时刻以 前已知X1,X2,XN-1对XN所作的预测值; eN=XN-XN为差值信号; eN为量化器输出信号 ; XN为接收端输出, XN =XN+eN 。 n因为:XN-XN = XN-(XN+eN) = (XN-XN)-eN = eN-eN n
21、所以,DPCM系统中的误差来源是发送端的量 化器,而与接收端无关,若去掉量化器使 eN=eN,则XN=XN,即实现信息保持编码。事 实上,这种量化误差是不可避免的。 2.4.2 变换编码 n输入图象G经正交变换U变换到频域空间,象素 之间相关性下降,能量集中在变换域中少数变换 系数上,已经达到了数据压缩的效果。 n对变换系数A中那些幅度大元素予以保留,其它 数量多的幅度小的变换系数,全部当作零不予编 码,再辅以非线性量化,进一步压缩图象数据。 n由于量化器存在,量化后变换系数A和A间必 然存在量化误差,从而引起输入图象G和输出图 象G间存在误差。图中U是U的逆变换。 变换编码原理框图 变换 量
22、化 编码器 解码器 逆变换 信 道 输入 发送端 接收端 输出 G G U U AA n变换编码数据压缩主要是去除信源的相关性。 n设信源序列为X=X0, X1, XN-1,表征相关性的 统计特性就是协方差矩阵: X= 其中i,j=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上 元素之外各元素均为0时,就等效于相关性为0。 n为了有效压缩,希望变换后的协方差矩阵为对角矩 阵,并希望主对角线元素随i, j增加尽快衰减。 0,02 0,12 0,N-12 1,02 1,12 N-1,02 1,N-12 N-1,12 N-1,N-12 n已知X的条件下,根据它的协方差矩阵去寻找一 种
23、正交变换T,使变换后的协方差矩阵满足或接 近为一对角阵。 nKarhunen-Loeve变换即是这样一种变换,又称为 最佳变换,它能使变换后协方差矩阵为对角阵, 并且有最小均方误差。它的计算比较复杂。 n实际应用中采用了一些准最佳变换如 DCT,DFT和WHT等,使用这些变换后的协方差 矩阵一般都接近一对角阵。 2.4.3 信息熵编码 n又称为统计编码,它是根据信源符号出现概率 的分布特性而进行的压缩编码。 n基本思想: 在信源符号和码字之间建立明确 的一一对应关系,以便在恢复时能准确地再 现原信号,同时要使平均码长或码率尽量小。 n如Huffman编码、算术编码。 Huffman定理 n定理
24、 在变长编码中,对出现概率大的信源符号赋 于短码字,而对于出现概率小的信源符号赋于长 码字。如果码字长度严格按照所对应符号出现概 率大小逆序排列,则编码结果平均码字长度一定 小于任何其它排列方式。 nHuffman定理是Huffman编码的理论基础 实现步骤 (1) 将信源符号按概率递减顺序排列; (2) 把二个最小概率相加作为新符号的概率, 并按(1) 重排 ; (3) 重复(1)、(2), 直到概率为1; (4) 在每次合并信源时, 将合并的信源分别赋“0”和“1”(如概 率大的赋“0”,概率小的赋“1”); (5) 寻找从每一信源符号到概率为1处的路径,记录下路径上 的“1”和“0”;
25、(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点) 。 Huffman编码 信源符号概率编码过程码字码长(i) x1 x2 x3 x4 x5 x6 x7 x8 0.40 0.18 0.10 0.10 0.07 0.06 0.05 0.04 1 001 011 0000 0100 0101 00010 00011 1 3 3 4 4 4 5 5 0 1 0 1 0 1 0.09 0.13 0.19 0.23 0.37 0.60 1 0 1 0 0 1 1 n上述编码的平均码字长度: R=Pii=0.401+0.183+0.103+0.104+0.0 74+0.064+0.055+0.
26、045 =2.61 算术编码 n六十年代初,Elias提出了算术编码概念。 n1976年, Rissanen和Pasco首次介绍了它的实 用技术。其基本原理是将编码的信息表示成实 数0和1之间的一个间隔(Interval),信息越长,编 码表示它的间隔就越小,表示这一间隔所需的二 进制位就越多。 算术编码举例 n采用固定模式符号概率分配如下: 字符: a e i o u 概率: 0.2 0.3 0.1 0.2 0.2 范围:0,0.2) 0.2,0.5) 0.5,0.6)0.6,0.8)0.8,1.0) n编码数据串为eai。令high间隔的高端, low为 低端,range为间隔的长度, r
27、angelow为编码 字符分配的间隔低端, rangehigh为编码字符 分配的间隔高端。 n初始high=1,low=0, range=high-low, 一个字符编码后新的low和high按下式计算: low=low+rangerangelow; high=low+rangerangehigh。 (1) 在第一个字符e被编码时, e的rangelow=0.2, rangehigh=0.5, 因此: low=0+10.2=0.2 high=0+10.5=0.5 range=high-low=0.5-0.2=0.3 此时分配给e的范围为0.2, 0.5) (2) 第二个字符a编码时使用新生成范
28、围0.2,0.5), a的rangelow=0, rangehigh=0.2, 因此: low=0.2+0.30=0.2 high=0.2+0.30.2=0.26 range=0.06 范围变成0.2, 0.26) (3) 对下一个字符i编号, i的rangelow=0.5, rangehigh=0.6,range=0.06, 则: low=0.2+0.060.5=0.23 high=0.2+0.060.6=0.236 n结果:用0.23, 0.236)表示数据串eai,如果解码器 知道最后范围是0.23, 0.236),它马上可解得一个 字符为e, 然后依次得到唯一解a、i, 最终得到eai
29、 。 算术编码过程表示 1 e 0.5 ea 0.26 0.236 0.8 0.6 0.5 0.2 0 u o i e a u o i e a u o i e a u o i e a 0.2 0.2 0.23 eai 算术编码的特点 n不必预先定义概率模型,自适应模式具有独特 的优点; n信源符号概率接近时,建议使用算术编码,这 种情况下其效率高于Huffman编码(约5%)。 JPEG扩展系统采用。 2.5 多媒体数据转换 n不同媒体表示不同的信息表示方式。研究媒 体之间转换十分有意义。 n有些媒体之间的转换是非常困难的事情,需要 研究人类本身对各种媒体理解原理和解释过 程。 n有些媒体之间的转换则相对容易,几乎不用做 什么工作。 部分媒体的转换关系 转换位图图像图形语音音乐文本视频数值 位图图像 * 映射 ?* 映射 * 冻结 ? 图形 * 轮廓或理解 * 波形 * 乐谱 * 矢量化 ?* 可视化 语音? * 波形 * 语音合成 ?* 合成 音乐? * 识别 * 音乐合成 ? 文本 * 文字识别 * 识别 * 语音识别 * 转换 ?* 符号化 视频 * 序列化 * 序列化 ? 数值? * 计算 * 识别 ?* 转换 ?
链接地址:https://www.31doc.com/p-2242014.html