多媒体技术基础3版章MPEG声音.ppt
《多媒体技术基础3版章MPEG声音.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础3版章MPEG声音.ppt(42页珍藏版)》请在三一文库上搜索。
1、多媒体技术基础(第3版) 第11章 MPEG声音,张奇 复旦大学 计算机科学技术学院 2011年4月,2019年4月5日,第11章 MPEG声音,2/42,第11章 MPEG声音目录,11.1 听觉系统的感知特性 11.1.1. 对响度的感知 11.1.2. 对音高的感知 11.1.3. 掩蔽效应 11.2 感知声音编码 11.2.1 MPEG声音的压缩依据 11.2.2 感知子带编码 11.2.3 杜比数字编码 11.3 MPEG-1 Audio 11.3.1 声音编码 11.3.2 声音的性能 11.3.3 子带编码 11.3.4 多相滤波器组 11.3.5 编码层,11.4 MPEG-
2、2 Audio 11.4.1 MPEG-2 Audio简介 11.4.2 MPEG-2 Audio使用的环绕声 11.4.3 MPEG-2 Audio的后向兼容结构 11.5 MPEG-2 AAC 11.5.1 MPEG-2 AAC是什么 11.5.2 MPEG-2 AAC编解码器的结构 11.5.3 MPEG-2 AAC的类型 11.6 MPEG-4 Audio 11.6.1 MPEG-4 Audio是什么 11.6.2 MPEG-4 Audio工具与文档 11.6.3 MPEG-4话音(speech)编码 11.6.4 MPEG-4声音(audio)编码 11.6.5 MPEG-4 声音无
3、损压缩,2019年4月5日,第11章 MPEG声音,3/42,第11章 MPEG声音,前言 MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码 进入20世纪80年代,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio, MPEG-2 Audio,MPEG-2 AAC和MPEG-4 Audio等标准1234,并把它们统称为MPEG声音。 本章涉及的许多具体算法已经超出本教材的要求。为给需要深入研究和具体开发产品的读者提供方便,本章提供了大量
4、宝贵的参考文件和站点地址,2019年4月5日,第11章 MPEG声音,4/42,11.1 听觉系统的感知特性,对响度的感知 声音的响度就是声音的强弱 在物理上,用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量 在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量 这两种计量单位完全不同,但它们之间有一定的联系 人耳的听觉范围 听阈:当声音弱到人耳朵刚可听见时的声音强度 痛域:声音强到使人耳感到疼痛时的声音强度 听觉范围:位于听阈和痛域之间,见图11-1,2019年4月5日,第11章 MPEG声音,5/42,11.1 听觉系统的感
5、知特性(续1),图11-1 “听阈频率”曲线和“痛阈频率”曲线,2019年4月5日,第11章 MPEG声音,6/42,11.1 听觉系统的感知特性(续2),对音高(频率)的感知 客观上用频率表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”。 主观音高与客观音高的关系为,其中,f 的单位为Hz,Hz和Mel不同但有联系,人耳对频率的感知范围,可以听到 最低频率约20 Hz 最高频率约20000 Hz,2019年4月5日,第11章 MPEG声音,7/42,11.1 听觉系统的感知特性(续3),音高-频率曲线 测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个
6、纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。测出的“音高频率”曲线见图11-2,图11-2 “音高频率”曲线,2019年4月5日,第11章 MPEG声音,8/42,11.1 听觉系统的感知特性(续4),掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 前者称为掩蔽声音(masking tone) 后者称为被掩蔽声音(masked tone) 掩蔽可分成频域掩蔽和时域掩蔽 频域掩蔽 一个强纯音掩蔽在其附近同时发声的弱纯音的特性,也称同时掩蔽(simultaneous masking), 如图11-3所示,2019年4月5日,第
7、11章 MPEG声音,9/42,11.1 听觉系统的感知特性(续5),图11-3 频域掩蔽,2019年4月5日,第11章 MPEG声音,10/42,11.1 听觉系统的感知特性(续6),图11-4中的一组曲线表示为250 Hz,1 kHz和4 kHz纯音的掩蔽效应,它们的声强均为60 dB 250 Hz,1 kHz和4 kHz附近,对其他纯音的掩蔽效果最明显 低频纯音可有效地掩蔽高频纯音,相反则不明显,图11-4 不同纯音的掩蔽效应曲线,2019年4月5日,第11章 MPEG声音,11/42,11.1 听觉系统的感知特性(续7),临界频带(critical band) 人耳刚可感知两种频率的声
8、音有差别的频率范围 通常认为声音(audio)有25个临界频带,见表11-1 临界频带的宽度随声音频率的变化而变化 在低频端,宽度小于100 Hz,可认为接近于常数 在高频端,宽度近似线性增加,宽度可大到4 kHz 临界频带的单位为Bark(巴克) 1 Bark等于一个临界频带的宽度,2019年4月5日,第11章 MPEG声音,12/42,11.1 听觉系统的感知特性(续8),2019年4月5日,第11章 MPEG声音,13/42,11.1 听觉系统的感知特性(续9),时域掩蔽 在时间上相邻的声音之间的掩蔽现象 67 一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果见图11-5 同时掩蔽(si
9、multaneous masking):信号和掩蔽音同时产生的现象 滞后掩蔽(post-masking):信号出现在掩蔽音消失后出现的现象,可以持续50200 ms 超前掩蔽(pre-masking):信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费解9 7。超前掩蔽很短,通常只有大约220 ms, 产生时域掩蔽的主要原因 人的大脑处理信息需要花费一定的时间,2019年4月5日,第11章 MPEG声音,14/42,11.1 听觉系统的感知特性(续10),图11-5 时域掩蔽,2019年4月5日,第11章 MPEG声音,15/42,11.2 感知声音编码,感
10、知编码(perceptual audio coding) 频率为1020000 Hz的声音数据压缩技术 依据是人耳朵的听觉特性 方法是使用“心理声学模型”来取消人耳感觉不到的声音数据 应用于MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC (Advanced Audio Coding)和MPEG-4 Audio MPEG声音主要采纳两种感知编码算法 感知子带编码(perceptual sub-band coding) 杜比实验室(Dolby Laboratories)开发的杜比数字(Dolby Digital),2019年4月5日,第11章 MPEG声音,16/42,1
11、1.2 感知声音编码(续1),MPEG声音的压缩依据 听觉系统存在听觉阈值电平 低于阈值电平的信号听不到,因此可把这部分信号去掉 听觉阈值的大小随声音频率的改变而改变 大多数人的听觉系统对25 kHz之间的声音最敏感 听觉掩饰特性 听觉阈值电平会随听到的不同频率的声音而发生变化 例如,1000 Hz和1100 Hz的声音同时存在,前者的强度大于后者18dB,在这种情况下,1100 Hz的声音就听不到 体验:在一个安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下,同样的普通谈话就听不清楚了,2019年4月5日,第11章 MPEG声音,17/42,11.2 感知声音编码(续2),感知子带
12、编码 简化算法框图见图11-6 输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带 每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子带信号进行量化和编码,输出量化信息和经过编码的子带样本 通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream) 解码过程与编码过程相反,2019年4月5日,第11章 MPEG声音,18/42,11.2 感知声音编码(续3),图11-6 感知子带压缩算法框图,2019年4月5日,第11章 MPEG声音,19/42,11.2 感知声音编码(续4),杜比数字(Dolby Digita
13、l) 前称为Dolby AC-3,简称AC-3 1992年杜比实验室开发的数字声音编码系统,采用了感知编码技术 多声道环绕声格式,现已作为国际标准 杜比数字可提供6个声音通道,称为5.1声道,即左、中、右、后左、后右5个主声道和1个低音加强声道 声音数据的位速率通常为64448 kbps 立体声的位速率通常为192 kbps 5.1声道的位速率通常为384 kbps,但可高达640 kbps 已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中,2019年4月5日,第11章 MPEG声音,20/42,11.2 感知声音编码(续5),图11-7 Dolby AC-3压缩编码算法框图1
14、0,编码器框图见图11-7 输入是未被压缩的PCM样本,而PCM样本的采样频率必须是32, 44.1或48 kHz,样本精度可多到20位 获得高压缩比的基本方法是对用频域表示的声音信号进行量化,详细计算请看文献1011 12,2019年4月5日,第11章 MPEG声音,21/42,11.2 感知声音编码(续6),各部分的功能简述如下 分析滤波器组(analysis filter bank):把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示
15、 频谱包络编码(spectral envelope encoding):对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码” 位分配(bit allocation):使用“谱包络编码”输出的信息确定尾数编码所需要的位数 尾数量化(mantissa quantization):按照“位分配”输出的位分配信息对尾数进行量化 AC-3帧格式(AC-3 frame formatting):把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧 一帧由6个声音块(1536个声音样本)组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32
16、640 kbps,2019年4月5日,第11章 MPEG声音,22/42,11.3 MPEG-1 Audio,MPEG-1 Audio编码器 MPEG-1 Audio (ISO/IEC 11172-3) 是世界上第一个高保真声音数据压缩标准,得到极其广泛的应用 编码器的输入信号为线性PCM信号 采样率为32, 44.1或48 kHz 编码器的输出信号为32384 kbps,图11-8 MPEG-1 Audio编码器的输入/输出,2019年4月5日,第11章 MPEG声音,23/42,11.3 MPEG-1 Audio(续1),MPEG-1 Audio定义了三个独立压缩层次 第1层MP1(MPE
17、G Audio Layer 1) 仅利用频域掩蔽特性,典型的压缩比为1:4,相应的数据率为384 kbps 算法复杂度最低 第2层MP2(MPEG Audio Layer 2) 利用频域掩蔽特性和时间掩蔽特性,典型的压缩比为1:61:8,数据率为256192 kbps 算法复杂度中等 第3层MP3(MPEGAudio Layer 3) 利用频域掩蔽特性、时间掩蔽特性和临界频带特性,典型的压缩比为1:101:12,相应的数据率为128112 kbps,声音质量接近CD-DA 算法复杂度最高,2019年4月5日,第11章 MPEG声音,24/42,11.3 MPEG-1 Audio(续2),MPE
18、G-1 Audio的压缩率 在保持接近CD音质的前提条件下,MPEG-1 Audio标准一般所能达到的压缩率见表11-2,2019年4月5日,第11章 MPEG声音,25/42,11.3 MPEG-1 Audio(续3),MP3可预先定义压缩率和压缩后的数据率,见表11-4 编码后的数据流支持循环冗余校验(cyclic redundancy check, CRC)。 支持在数据流中添加附加信息,2019年4月5日,第11章 MPEG声音,26/42,11.4 MPEG-2 Audio,MPEG-2 Audio简介 MPEG-2标准委员会定义了两种声音数据压缩标准 MPEG-2 Audio (I
19、SO/IEC 13818-3)12 也称MPEG-2 Multichannel Audio (多通道声音) 因为它与MPEG-1 Audio是兼容的,所以又称为MPEG-2 BC (Backward Compatible)标准 MPEG-2 AAC (ISO/IEC 13818-7)22 因为它与MPEG-1 Audio格式不兼容,因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible)标准,2019年4月5日,第11章 MPEG声音,27/42,11.4 MPEG-2 Audio(续1),MPEG-2 Audio和MPEG-1 Audio相比较 都使用
20、相同的编译码器,3个编码层的编码结构也相同 MPEG2声音标准做了如下扩充 增加了16 kHz, 22.05 kHz和24 kHz采样频率 扩展了输出速率范围,由32384 kbps扩展到8640 kbps 增加了声道数,支持5.1声道和7.1声道的环绕声 支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码 它们的差别见表11-5,2019年4月5日,第11章 MPEG声音,28/42,11.4 MPEG-2 Audio(续2),MPEG-2 Audio使用的环绕声 5.1环绕声,也称3/2-立体声加LFE 5表示播音现场的前面可有3个声
21、道(左、中、右),后面可有2个环绕声声道 .1是指低频音效 (low frequency effects,LFE)加强声道,见图11-19(a) 7.1声道环绕立体声与5.1声道类似,见图11-19(b),图11-19 MPEG-2 Audio 环绕声,2019年4月5日,第11章 MPEG声音,29/42,11.5 MPEG-2 AAC,MPEG-2 AAC是什么 MPEG-2 Advanced Audio Coding的缩写,声音感知编码标准 像其他感知编码标准那样,使用听觉系统的掩蔽特性来减少声音的数据量,把量化噪声分散到各个子带并用全局信号来掩蔽噪声 采样频率可从8 kHz到96 kH
22、z,编码器的输入可来自单声道、立体声或多声道音源的声音 可支持48个声道、16个低频音效加强通道(LFE)、16个配音声道(overdub channel)或称多语言声道(multilingual channel)和16个数据流 在压缩比为11:1时,很难区分压缩前和压缩还原后的声音 11:1即每个声道的数据率为(44.116 )/11=64 kbps,5个声道的总数据率为320 kbps 在声音质量相同的前提下 与MPEG-1/-2 Audio 的第2层相比,AAC的压缩率可提高1倍 与MPEG-1/-2 Audio 的第3层相比,AAC的数据率是它的70,2019年4月5日,第11章 MP
23、EG声音,30/42,11.6 MPEG-4 Audio,MPEG-4 Audio是什么 包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图11-23 该标准为每个声道规定的数据速率为264 kbps,并为此定义了三种类型的编码器,称为“编码工具(coding tool)” 在数据速率为26 kbps范围内,可使用参数编码(parametric coding),声音信号的采样频率使用8 kHz 在数据速率为624 kbps的范围内,可使用码激励线性预测技术(code excited linear prediction,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 版章 MPEG 声音
链接地址:https://www.31doc.com/p-2528303.html