多媒体技术原理及应用(马华东第二版)第二章.ppt

上传人：本田雅阁

文档编号：2242014

上传时间：2019-03-09

格式：PPT

页数：63

大小：1.51MB

《多媒体技术原理及应用(马华东第二版)第二章.ppt》由会员分享，可在线阅读，更多相关《多媒体技术原理及应用(马华东第二版)第二章.ppt（63页珍藏版）》请在三一文库上搜索。

1、第二章多媒体数据压缩技术数字音频编码数字图像编码数字视频编码常用的数据压缩技术多媒体数据转换 2.1 数字音频编码音频的基本特性 n声音是由振动的声波所组成，在任一时刻t ，声波可分解为一系列正弦波线性叠加： f(t)= Ansin(nt+n) n其中, 称为基频或基音，它决定声音的高低；n称为的n次谐波分量或称为泛音，与声音的音色有关; An是振幅,表示声音的强弱；n是n次谐波的初相位。音频数字化 n波形音频是以数字方式表示音波。它是用声卡(包含ADC和DAC)来录制与执行播出声音的。计算机对声音表示主要通过采样产生一系列声音数据。 n事实上, 声波按频率可分为4

2、类, 其中多媒体系统仅处理人类的听力所接受的频率范围的声音，我们称之为音频, 这个频率范围的音波称之为声音信号。声音的频率分类声音分类频率范围亚声波020Hz 人类的听力所接受的频率 20Hz20kHz 超声波20kHz1GHz 超高声波1GHz10THz n通过规则时间间隔测出音波振动幅度从而产生一系列声音数据。这种测出数据方法称之为采样,一秒内采样次数叫采样率。 n采样的离散音频数据要转换成计算机能够表示的数据范围,这个过程称之为量化。 n量化后数字音频存储量计算公式音频数据存储量(字节)=采样率(Hz)量化位数(位)声道数音频长度(秒)/8 MIDI n1980年

3、制定一项工业标准,目的是让音乐及合成音可以经由一串消息在不同的设备上交流传输。 nMIDI提供了计算机外部的电子乐器与计算机内部之间的连接器接口。这种连接接口定义物理连接与电子乐器沟通的协议。 nMIDI也定义音频的形态与存储的方法。MIDI 音频是以消息的方式而非波形的方式组成。 nMIDI有三种连接器(In、Out、Thru)。 In为输入, Out为输出,而Thru是用来扩充MIDI 与其它设备连接用的。 n序器可以将音乐等声音以一种序列来储存。所谓序列便是一连串的音符加上系统事件的命令。 nMIDI适配器是用来改变频道、路径与按键的。当电子琴的键盘与一般的MIDI规格不一

4、致时可以经由适配器来修正使两者一致。 MIDI音频文件 nMIDI音频文件是一串时序命令,它记录音乐的行为。 n命令消息分为频道消息(频道声音消息、频道模式消息)和系统消息(系统实时消息、系统通用消息与系统专用消息)。它是以某种乐器的发声为其数据记录的基础。 n它的文件占用很少存储器空间,且可以做细部的修改，如修改节拍等。其声音效果不会因改变节拍而变调。 nMIDI不适合编制口语旁白的音频。 n数字音频可从麦克风、录音带、CD、电视及其它来源获取。它把声音转换成储存体中数字信息。 n数字音频较为稳定,容易保持一致性,音频品质也较易获得保证。 n缺点是记录非常详尽,数据量极大,

5、文件较MIDI音频大出200倍以上。要修改数字音频细节非常困难, 大大地增加了CPU的负担。 n它可以适合任何一种音响,包括人的口语在内,故大多数节目仍采用这种音频。 3D音频 3D音效可分为以下几类： n（1）扩展式立体声。 n（2）环绕立体声。 n（3）交互式音效。支持3D音频API种类: nDirectX DirectSound 3D; Aureal 3D; EAX; Sensaura; Qsound; 杜比AC-3; 数字化影院系统DTS 2.2 数字图像编码 2.2.1 彩色空间 n常见模型： n RGB彩色空间 n HSI彩色空间 n YUV彩色空间 n YIQ彩色空间 R

6、GB彩色空间 nR、G、B是彩色最基本表示模型,也是计算机系统中所使用的彩色模型。 RGB5:5:5方式用2个字节表示一个象素，具体位分配。 RGB5:5:5方式 RGB8:8:8方式 R、G、B三个分量各占一个字节。 T(1b) R(5b) G(5b) B(5b) HSI彩色空间 n这种模型中, 用H(Hue,色调)、 S(Saturation,饱和度)、I(Intensity,光强度 )3个分量来表示一种颜色, 这种表示更适合人的视觉特性。 YUV彩色空间 nY为亮度信号,U、V是色差信号(B-Y,R-Y)。 PAL制式彩色空间即为YUV。优点是亮度和色差信号分离,容易使彩色电

7、视系统与黑白电视信号兼容。 n国际无线电咨询委员会根据实验认为采用双倍度采样4:2:2方案效果较好, 提出CCIR601标准。 n变换公式（YUVRGB） Y = 0.299*R + 0.587*G+ 0.114*B; U =-0.169*R - 0.332*G+ 0.500*B; V = 0.500*R + 0.419*G - 0.081*B YIQ彩色空间 n广播电视系统另一种常用的亮度与色差分离的模型。NTSC制式彩色空间即为YIQ。这里 Y是亮度, I和Q共同描述图象的色调和饱和度。 n变换公式(YIQRGB) Y =0.299*R+ 0.587*G+ 0.114*B; I =

8、0.211*R - 0.523*G+ 0.312*B; Q =0.596*R - 0.275*G - 0.322*B 2.2.2 数字图象文件格式 nTIF nPCX nGIF、TGA、BMP、DVI、JPEG等 TIF文件格式 n由美国Aldus Developers Desk和Microsoft 制定 n结构 n文件头(8B) n参数指针表 n参数数据表 n图象数据 n文件头含字节顺序(2B,表示存贮格式: II-Intel格式; MMMotorola格式); 标记号(2B, 版本信息); 指向第一个参数指针表的编码(4B)。 n参数指针表由每个长为12B参数块构成, 描述压缩种类、长

9、宽、彩色数、扫描密度等参数。较长参数(如调色板)只给出指针, 参数放在参数数据表中。其结构定义如下： typedef struct int tag-type; int number-size; long length; long offset; TIF-FIELD; n图象数据按参数表中描述的形式按行排列 PCX文件格式 n由Z Soft公司最初制定 n结构 n文件头(128字节) n数据部分(采用行程长度编码) n文件头结构定义 typedef struct char manufacture; /*always 0xa0*/ char version； char encoding;

10、/*always 1*/ char bits-per-pixel; /*color bits */ int Xmin, Ymin; /* image origin */ int Xmax, Ymax; /* image dimension */ int hres; /* resolution values */ int vres; char palette48; /* color palette */ char reserved; char color-planes; /* color planes */ int bytes-per-line; /* line buffer size */ i

11、nt palette-type; /* grey or color palette */ char filler58; PCXHEAD; 其中Version若为5,文件内有个256色调色板,数据768字节,在文件最后。 n文件体对象素数据采用行程长度编码, 由包含 Keybyte和Databyte的包组成。分2种情况: (1) 若Keybyte最高位为11, 则低6位为重复次数。但最多重复63次, 若再长重建一个包. PCX数据包的结构 (2) 若Keybyte最高位不是11，那么该Databyte按原样写入图象文件。对一个字符的表示用长度为1的包。 11Index Databyte

12、111 Databyte 2.3 数字视频编码数字视频的结构 n基本单位是帧。 n若干同一场景的帧构成镜头 n若干镜头构成情节 n若干情节构成故事(节目) 国际视频标准 nNTSC 美国研制,是目前广泛使用的电视制式。它以525条横扫描线来组成一个屏幕帧,每秒30帧 ,其图象改变采用偶数线与奇数线相互交错更新的方式,造成视觉动态图象。 nPAL 中国、英国等国采用制式,W.Bruch1963 年发明的,其基本原理类似于NTSC制式。以625 条扫描线,每秒25帧,也是以奇偶数扫描线交错方式造成动态图象。 nSECAM 法国、俄罗斯等国采用制式。同样采用625条线和25帧, 但与NTS

13、C和PAL相比, 其基础技术是采用频率调制, 传播方式也不同于以上两种。 2.4 常用数据压缩技术 2.4.1 数据压缩的基本原理 n传统上用模拟方式表示声音和图象信息易出故障，常产生噪音和信号丢失，且拷贝过程中噪音和误差逐步积累；模拟信号不适合数字计算机加工处理。 n数字化处理：巨大的数据量 n采样定理: 仅当采样频率2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。 n采用8bit数字化,从而1秒钟电视信号的数据量约为99.2Mbits。即约为100Mbps。650MB的CD-ROM仅能存约1分钟的原始电视数据。若HDTV(1.2Gbps), 一张CD-

14、ROM还存不下6秒钟的HDTV图象。 n人说话的音频一般在20Hz到4KHz, 即人类语音的带宽为4KHz。依据采样定理, 设数字化精度为8b, 则1秒钟信号量为64Kbits。因此, 人讲1分钟话的数据量为480KB。数字化处理的关键问题数据压缩压缩的基础数据冗余 n空间冗余 n时间冗余 n信息熵冗余 n结构冗余 n知识冗余 n视觉冗余 n其它冗余空间冗余 n这是图象数据中经常存在的一种冗余。 n在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成象结构在数字化图象中就表现为数据冗余。时间冗余 n这是序列图象和语音数据中所经常包含的冗余。 n图象

15、序列中的两幅相邻的图象之间有较大的相关性,这反映为时间冗余。 n人在说话时发音音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。信息熵冗余 n信息熵是指一组数据所携带的信息量,它定义为： H=-i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. n为使信息编码单位数据量d接近于或等于H,应设： d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取 b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1). n例如, 英文字母编码码元长为7bit, 即b(y0)=b(y1)=

16、 =b(yK-1)=7, 这样d必然大于H, 由此带来的冗余称为信息熵冗余或编码冗余。结构冗余 n有些图象从大域上看存着非常强的纹理结构，我们称它们在结构上存在有冗余. n例如布纹图象和草席图象知识冗余 n有许多图象的理解与某些基础知识有相当大的相关性。 n例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。 n这类规律性的结构可由先验知识和背景知识得到, 我们称此类冗余为知识冗余。视觉冗余 n人类视觉系统对于图象场的任何变化,并不是都能感知的。 n例如,对于图象的编码处理时,由于压缩或量化截断引入了噪声而使图象发生了一

17、些变化,如果这些变化不能为视觉所感知,仍认为图象足够好。 n事实上人类视觉系统一般分辨能力约为26灰度等级,而一般图象量化采用28灰度等级,这类冗余我们称为视觉冗余。其他冗余 n例如由图象的空间非定常特性所带来的冗余。 2.4 常用的数据压缩技术 n根据解码后数据与原始数据是否完全一致，数据压缩方法划分为两类：可逆编码(无失真编码) 解码图象与原始图象严格相同，压缩大约在2:1到5:1之间。如 Huffman编码、算术编码、行程长度编码等。不可逆编码(有失真编码) 还原图象与原始图象存在一定的误差，但视觉效果一般可以接受，压缩比可以从几倍到上百倍来调节。常用的有变换编码

18、和预测编码 n根据压缩的原理分类：预测编码利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)。变换编码将图象时域信号变换到频域空间处理。时域空间有强相关信号, 反映在频域上是某些特定区域内能量集中, 从而实现压缩. 正交变换如离散余弦变换, 离散付立叶变换和Walsh-Hadamard变换. 量化与向量量化编码为了使整体量化失真最小, 就必须依照统计的概率分布设计最优的量化器。已知最优量化器是Max量化器。对象元点进行量化时, 也可以考虑一次量化多个点的向量量化。信息熵编码根据信息熵原理,让出现概率大的

19、用短的码字表达,反之用长的码字表示。最常见的方法如 Huffman编码、Shannon编码以及算术编码。子带编码将图象数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分步渐近编码,随着解码数据的增加,图象逐渐清晰。模型编码编码时首先将图象中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图象。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码、分形编码等。 2.4.1 预测编码 n线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的相关性。每个象素可根据已

20、知的前几个象素来作预测。因此在预测编码中，编码和传输的并不是象素采样值本身，而是这个采样值的预测值与其实际值之间的差值 n非线性预测（不讨论） DPCM系统原理框图预测器量化器编码器解码器预测器信道接收端输出 XN XN eN XN eN eN XN + + 输入 XN 发送端 + - nXN为tN时刻的亮度采样值; XN为根据tN时刻以前已知X1,X2,XN-1对XN所作的预测值; eN=XN-XN为差值信号; eN为量化器输出信号 ; XN为接收端输出, XN =XN+eN 。 n因为：XN-XN = XN-(XN+eN) = (XN-XN)-eN = eN-eN n

21、所以,DPCM系统中的误差来源是发送端的量化器,而与接收端无关,若去掉量化器使 eN=eN,则XN=XN,即实现信息保持编码。事实上,这种量化误差是不可避免的。 2.4.2 变换编码 n输入图象G经正交变换U变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。 n对变换系数A中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。 n由于量化器存在,量化后变换系数A和A间必然存在量化误差,从而引起输入图象G和输出图象G间存在误差。图中U是U的逆变换。变换编码原理框图变换量

22、化编码器解码器逆变换信道输入发送端接收端输出 G G U U AA n变换编码数据压缩主要是去除信源的相关性。 n设信源序列为X=X0, X1, XN-1,表征相关性的统计特性就是协方差矩阵: X= 其中i,j=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上元素之外各元素均为0时,就等效于相关性为0。 n为了有效压缩,希望变换后的协方差矩阵为对角矩阵,并希望主对角线元素随i, j增加尽快衰减。 0,02 0,12 0,N-12 1,02 1,12 N-1,02 1,N-12 N-1,12 N-1,N-12 n已知X的条件下,根据它的协方差矩阵去寻找一种

23、正交变换T,使变换后的协方差矩阵满足或接近为一对角阵。 nKarhunen-Loeve变换即是这样一种变换,又称为最佳变换,它能使变换后协方差矩阵为对角阵, 并且有最小均方误差。它的计算比较复杂。 n实际应用中采用了一些准最佳变换如 DCT,DFT和WHT等,使用这些变换后的协方差矩阵一般都接近一对角阵。 2.4.3 信息熵编码 n又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。 n基本思想: 在信源符号和码字之间建立明确的一一对应关系，以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。 n如Huffman编码、算术编码。 Huffman定理 n定理

24、在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。 nHuffman定理是Huffman编码的理论基础实现步骤 (1) 将信源符号按概率递减顺序排列； (2) 把二个最小概率相加作为新符号的概率, 并按(1) 重排； (3) 重复(1)、(2), 直到概率为1； (4) 在每次合并信源时, 将合并的信源分别赋“0”和“1”(如概率大的赋“0”,概率小的赋“1”)； (5) 寻找从每一信源符号到概率为1处的路径,记录下路径上的“1”和“0”；

25、(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点) 。 Huffman编码信源符号概率编码过程码字码长(i) x1 x2 x3 x4 x5 x6 x7 x8 0.40 0.18 0.10 0.10 0.07 0.06 0.05 0.04 1 001 011 0000 0100 0101 00010 00011 1 3 3 4 4 4 5 5 0 1 0 1 0 1 0.09 0.13 0.19 0.23 0.37 0.60 1 0 1 0 0 1 1 n上述编码的平均码字长度: R=Pii=0.401+0.183+0.103+0.104+0.0 74+0.064+0.055+0.

26、045 =2.61 算术编码 n六十年代初,Elias提出了算术编码概念。 n1976年, Rissanen和Pasco首次介绍了它的实用技术。其基本原理是将编码的信息表示成实数0和1之间的一个间隔(Interval),信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。算术编码举例 n采用固定模式符号概率分配如下：字符: a e i o u 概率: 0.2 0.3 0.1 0.2 0.2 范围:0,0.2) 0.2,0.5) 0.5,0.6)0.6,0.8)0.8,1.0) n编码数据串为eai。令high间隔的高端, low为低端，range为间隔的长度, r

27、angelow为编码字符分配的间隔低端, rangehigh为编码字符分配的间隔高端。 n初始high=1,low=0, range=high-low, 一个字符编码后新的low和high按下式计算： low=low+rangerangelow； high=low+rangerangehigh。 (1) 在第一个字符e被编码时, e的rangelow=0.2, rangehigh=0.5, 因此: low=0+10.2=0.2 high=0+10.5=0.5 range=high-low=0.5-0.2=0.3 此时分配给e的范围为0.2, 0.5) (2) 第二个字符a编码时使用新生成范

28、围0.2,0.5), a的rangelow=0, rangehigh=0.2, 因此: low=0.2+0.30=0.2 high=0.2+0.30.2=0.26 range=0.06 范围变成0.2, 0.26) (3) 对下一个字符i编号, i的rangelow=0.5， rangehigh=0.6,range=0.06, 则： low=0.2+0.060.5=0.23 high=0.2+0.060.6=0.236 n结果：用0.23, 0.236)表示数据串eai,如果解码器知道最后范围是0.23, 0.236),它马上可解得一个字符为e, 然后依次得到唯一解a、i, 最终得到eai

29、。算术编码过程表示 1 e 0.5 ea 0.26 0.236 0.8 0.6 0.5 0.2 0 u o i e a u o i e a u o i e a u o i e a 0.2 0.2 0.23 eai 算术编码的特点 n不必预先定义概率模型,自适应模式具有独特的优点; n信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%)。 JPEG扩展系统采用。 2.5 多媒体数据转换 n不同媒体表示不同的信息表示方式。研究媒体之间转换十分有意义。 n有些媒体之间的转换是非常困难的事情,需要研究人类本身对各种媒体理解原理和解释过程。 n有些媒体之间的转换则相对容易,几乎不用做什么工作。部分媒体的转换关系转换位图图像图形语音音乐文本视频数值位图图像 * 映射？* 映射 * 冻结？图形 * 轮廓或理解 * 波形 * 乐谱 * 矢量化？* 可视化语音？ * 波形 * 语音合成？* 合成音乐？ * 识别 * 音乐合成？文本 * 文字识别 * 识别 * 语音识别 * 转换？* 符号化视频 * 序列化 * 序列化？数值？ * 计算 * 识别？* 转换？

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多媒体技术原理应用华东第二

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多媒体技术原理及应用(马华东第二版)第二章.ppt
链接地址：https://www.31doc.com/p-2242014.html