《第3章音频.ppt》由会员分享,可在线阅读,更多相关《第3章音频.ppt(113页珍藏版)》请在三一文库上搜索。
1、第3章 音频,音频(audio)指人能听到的声音,包括语音、音乐和其它声音(声响、环境声、音效声、自然声)。 3.1 声音 3.2 音频信号的数字化 3.3 数字音频技术与格式 3.4 MIDI 3.5 音频编码 3.6 语音处理简介,3.1 声音,3.1.1 声波 声音(sound)是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播 声波(sound wave)指在物理介质中传播的声音。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。因此,声波可用振幅和频率这两个
2、基本物理量来描述: 振幅:声波的振幅 (amplitude) A定义为振动过程中振动的物质偏离平衡位置的最大绝对值 频率:声波的频率(frequency) f 定义为单位时间内振动的次数,单位为赫兹Hz(每秒钟振动的次数),声音是一种连续的波,声速,声音在空气中传播的速度几乎不受气压大小的影响,但是受气温的影响很大。在气温为t时的声速: c = 331.5 * (1 + t / 273)1/2 331.5 + 0.6 t (m/s) 例如在室温(15)下,声速c 340 m/s。,波长与频率,声音的波长(wave length)定义为声音每振动一次所走过的距离,单位为米(m)。声波的波长与频率
3、的关系为(其中c为声速): = c / f (m),纯音与复音、基频与谐频,纯音(pure tone)具有单一频率的声音 复音(complex tone)具有多种频率成分的声音。普通的声音(如人讲话和乐器演奏)一般都是复音 和谐的复音由基音(fundamental tone)和谐音(harmonic tone)所组成 基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频(fundamental frequency) 谐音(也叫泛音overtone)的频率是基频的整数倍,称为谐频(harmonic frequency) 基音决定声音的高低(音调),谐音则决定声音的音品(音色),和谐复音的
4、基频与谐频,声音三要素,声音的感知特性主要有音调、响度和音色,称之为声音的三要素: 音调人耳对声音高低的感觉称为音调(tone)。音调主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。音调的单位为美(mel) 响度声音的响度(loudness)就是对声音强弱的主观感知。声音的大小在客观上一般用声级(soundlevel)表示,其单位为分贝(dB),无量纲,人能感知的声音大小的范围一般为0120dB。主观感觉的声音强弱则使用响度“宋(sone)”或响度级“方(phon)”来度量 音色音色(timbre)是人们区别具有相同的响度
5、和音调的两个(不同发声体所发出)声音的主观感觉,也称为音品。例如,每个人讲话都有自己的音色;每种乐器都有各自的音色。音色主要是由复音中不同谐音的分布和组成所决定的,影响音色的因素还有声音的时间过程,3.1.2 频率范围,声音 人类听觉:20Hz20kHz 人声:80Hz3400Hz 语音:300Hz3000 Hz 传统乐器:16Hz7kHz 钢琴:27.5Hz4186Hz 声乐:87Hz(男低音)1318Hz(花腔女高音),器乐的频率,传统乐器的发声范围为16Hz (C2)7kHz(a5),如钢琴的为27.5Hz (A2)4186Hz(c5) 乐理的音高采用12平均律,将8度(倍频)音,按2的
6、指数分为12份(21200),每份相当于一个半音(100音分) 可把音高分为若干组,低音用大写字母,高音用小写字母,更低/高的音在大/小写字母后用数字下/上标表示其级别,如标准音:a1 = 440Hz,中央C:c1 = 261.6255653Hz 8度音的频率差一倍,如a2 = 2a1 = 2440Hz = 880Hz,C1 = 2*C2 = 216.35Hz = 32.70Hz,声乐,声乐指人唱歌,可以按照男、女、童和高、中、低等来进行分类 声乐的频率范围为87Hz(男低音) 1318Hz (花腔女高音) 一般歌手的音域都有两个8度左右的宽度,但是有少数通俗唱法歌手的音域只有8度宽,3.1.
7、3 音量,音量(sound volume)即声音的强弱,可以用声压(级)、声强(级)和声功率(级)来度量 声压(sound pressure) P = 空气压强 - 大气压 一个标准大气压=1.03*105Pa。人耳对1kHz频率声音之听阈的声压约为2*10-5Pa,痛阈的声压约为20Pa,正常说话时的声压约为0.020.03Pa,是标准大气压的千万分之二、三。 由于人耳对声压的感知范围大(相差约一百万倍),而且人的听觉与声压不是线性关系,而是近似于对数关系。所以常按对数式分级(level)办法来表示声音的大小 声压级(sound pressure level): 其中,参考声压Pref取为1
8、kHz的听阈声压(2*10-5Pa),声压级的值无量纲,单位为dB(decibel分贝)。如1kHz频率声音的听阈之声压级=20*lg1=0dB,痛阈之声压级=20*lg106 =120dB。声压变化10倍,声压级才变化20dB。,3.1.4 听觉系统的感知特性,人耳分为外耳、中耳和内耳三个部分: 外耳由耳廓和耳道构成 鼓膜处在外耳和中耳之间 中耳包含三根听骨及通向咽腔的耳咽管 内耳则包括耳蜗、前庭、三半规管和听神经等部分。内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关,耳蜗与柯蒂器,耳蜗(cochlea)是一种充满液体的卷曲结构,大小如一颗豆子。管长35mm,卷绕两圈半,成蜗壳状
9、耳蜗内部被两个膜(前庭膜和基膜)分隔,中间形成的一个楔形剖面部分,称为蜗管 蜗管内部的复杂结构称为柯蒂器(organ of Corti)是外周听觉系统的核心部分。,对音强的感知,在物理上,声音的大小使用客观测量单位来度量,即声压用Pa(帕)或N/m2(牛顿/平方米)、声强用W/m2(瓦特/平方米)、声功率用W(瓦)、声级用dB(分贝) 在心理上,主观感觉的声音强弱使用响度(loudness)或响度级(loudness level)来度量 响度的单位为“宋(sone)”,为了对响度进行计算,定义声级为40dB的1kHz标准音的响度等于1宋 定义响度级的值为1kHz标准音的声级的dB值,单位为“方
10、(phon)”,响度S与响度级P之间的关系,可见,40方为1宋,2宋比1宋响1倍,3宋比1宋响2倍,其余可依次类推 听阈(hearing/audibility threshold)人耳朵刚刚可以听见时的声音强度。此时的主观响度级定为0方 痛阈(pain threshold)使人的耳朵刚刚感到疼痛时的声音强度。此时的主观响度级定为120方 实验表明,听阈和痛阈都是随频率变化的,等响曲线,对音高的感知,客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高(音调)单位则是“美尔(Mel)”和“巴克(Bark)” 主观音高与客观音高的关系是: 其中f的单位为Hz,这也是两个既不相同又有联系的单
11、位,音高频率 曲线,掩蔽效应,掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 掩蔽可分成频域掩蔽和时域掩蔽等 频域的纯音掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音。也称为同时掩蔽(simultaneous masking) 一般来说,弱纯音离强纯音越近就越容易被掩蔽 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念 临界频带表示的是人耳对两个纯音叠加时的分辨能力。通常将从20 Hz到20 kHz范围分成24个临界频带,临界频带的中心频率越高,其带宽也越大 临界频带的单位也叫Bark(巴克),即1 Bark
12、= 一个临界频带的宽度,复音掩蔽与时域掩蔽,复音掩蔽复音由多种频率的声音组成,人耳能分辨出复音所包含的各种分音,从而感受到它的音色。由于纯音的掩蔽效应可能使得复音中的部分分音人耳听不到,使得原来的音色发生改变,称之为复音掩蔽效应 时域掩蔽除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽 时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking) 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约520 ms,而滞后掩蔽可以持续50200 ms,时域掩蔽,3.1.5 声道,声道(sound
13、 channel/track)是分开录音然后结合起来以便同时听到的一段声音 单声道早期的声音重放(playback/reproduction)技术落后,只有单一声道(mono/monophony),只能简单地发出声音(如留声机、调幅AM广播) 双声道后来有了双声道的立体声(stereo)技术(如立体声唱机、调频FM立体声广播、立体声盒式录音带、激光唱盘CD-DA),利用人耳的双耳效应,感受到声音的纵深和宽度,具有立体感 环绕声现在又有了各种多声道的环绕声(surround sound)重放方式(如4.1、5.1、6.1、7.1声道),将多只喇叭(扬声器speaker)分布在听者的四周,建立起环
14、绕聆听者周围的声学空间,使听者感受到自己被声音包围起来,具有强烈的现场感(如电影院、家庭影院、HDTV、DVD/BD、dts-CD),C = Center中 L = Left左 R = Right右 S = Surround环绕 B = Back后 LFE = Low Frequence Enhancement低频增强(也叫woofer,低音喇叭 / 低音炮),因低音通道LFE的方向性不强,且频率 200Hz 一般为15120Hz,故称为0.1声道),3.2 音频信号的数字化,声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。为了便于计算机处理,同时也为了信号在复制、存储和传输过程中少
15、受损害,需要将模拟信号数字化 模拟信号(analog signal):在时间和幅度上都是连续的信号 数字信号(digital signal) :时间和幅度都用离散的数字表示的信号 模数转换(A/D=Analog-to-Digital):从模拟信号到数字信号的转换 数模转换(D/A=Digital-to-Analog):从数字信号到模拟信号的转换,音频信号的数字化,将音频信号数字化,实际上就是对其进行采样和量化。即:数字化=采样+量化 采样(sampling):连续时间的离散化通过采样来实现,就是每隔相等的一小段时间取一次声波振幅的样值,这种采样称为均匀采样 量化(quantization):连
16、续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,在每一段中只取一个强度的等级值(一般用二进制整数表示),如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化,连续音频信号的采样和量化,从声音到计算机数据再到声音 之全过程的设备/技术示意图,话筒 采样A/D(声卡) 量化 D/A(声卡) 喇叭/耳机 声波电平信号离散时间信号数字信号电平信号声波 时间幅度连续 时间离散 时间幅度离散 时间幅度连续 幅度连续 声音数字化需要确定采样频率和量化精度 采样频率(sampling frequency) :每秒钟采集的声音样本数 (常用的采样频率有:8kHz、11.025kHz、
17、22.05kHz、44.1kHz、48 kHz ) 量化精度(quantizing precision):每个声音样本的二进制位数(bps = bit per sample) (常用的采样精度为8bps、12 bps、16bps、20bps、24bps ),奈奎斯特(Nyquist)采样定理,当采样频率不低于声音信号最高频率的两倍时,可把以数字声音信号无损地还原成原来的模拟声音信号,这叫做无损数字化(lossless digitization) 采样定理可用公式表示为 fs 2 f 或 Ts T/2 其中fs为采样频率、f为被采样信号的最高频率、 Ts为采样周期、T为最小采样间隔,声音质量和数
18、据率,AM (amplitude modulation):调幅广播 FM (frequency modulation):调频广播 DAT (digital audio tape) :数字音带,3.3 数字音频技术与格式,数字音频数据的种类 波形数据:声波通过声/电和A/D而得到的量化后的采样数据。数字化的波形数据又有两类存储方式: 文件存储:有多种文件格式,如wav、au、aiff和snd 非文件存储:激光唱盘(CD-Audio)和数字录音带(DAT) MIDI数据:MIDI 是乐器和计算机之间交换音乐信息所使用的标准语言。MIDI数据只是一些指令。所以,与波形文件相比,MIDI文件非常小。常
19、见的MIDI文件格式为PC机上扩展名为.mid文件,3.3.1 文件格式,常见音频文件的扩展名: aiff(Audio Interchangeable File Format):Apple计算机上的声音文件存储格式 ape(猿) :Monkey Audio公司的无损音频文件存储格式 au(audio):Sun和NeXT公司的声音文件存储格式,主要用在Unix工作站上 flac(Free Lossless Audio Codec) :Xiph.Org 基金会的无损音频文件存储格式 mid(MIDI):PC上的MIDI文件存储格式,mp3(MPEG-1 Audio Layer III):压缩波形音
20、频文件存储格式 mp4/m4a:MPEG-4 Audio/Video或AAC编码 ra(RealAudio) / .rm(RealMedia):RealNetworks公司的流式音频/媒体文件格式 wav (waveform): Windows采用的(无损)波形声音文件存储格式 seq(sequence):MIDI文件存储格式 snd(sound) : Apple计算机上的声音文件存储格式 wma (Windows Media Audio):Microsoft公司的流式音频文件格式,WAV文件格式,波形音频文件(The Waveform Audio File Format)(*.WAV)是Mi
21、crosoft为Windows设计的多媒体文件格式RIFF(The Resource Interchange File Format,资源交换文件格式)中的一种(另一种常用的为AVI)。RIFF由文件头、数据类型标识及若干块(chunk)组成 注意: 多字节整数的低位在前,同Intel CPU 单字节样本值v为无符号整数(0255),实际样本值应为v-128;多字节样本值本身就是有符号的,可直接使用 各种文件格式可参见网站:http:/www.wotsit.org,WAV文件的基本格式,3.3.2 音频技术,杜比实验室(Dolby Lab)是由Ray Dolby于1965年创建于英国的一家专攻
22、音频的压缩和复制的美国公司 Dolby Surround / Dolby Prologic(杜比环绕声 / 杜比逻辑定向)1976年/1986年推出、模拟(无压缩)、4声道(左中右后后左右相同)、用于电影院 Dolby Digital(杜比数字)= AC-3 (Audio Code Number 3,音频编码3号) 1992年推出、数字编码(压缩12倍)、5.1声道、48KHz采样、用于电影院、DVD和HDTV 2003年推出的Dolby Digital EX(杜比数字扩展)支持6.1声道 2004年推出的Dolby Digital Plus(杜比数字+)支持多达13.1声道 Dolby Tr
23、ueHD(杜比真高清)2005年推出的一种为蓝光盘开发的无损音频编码格式,码率可达18Mbps、8个以上全频带的24-bit/96 kHz声道、被HDMI(High-Definition Media Interface,高清介质接口)所支持、被Blu-ray Disc选为可选音频格式,DTS(Digital Theater System,数字影院系统)由美国的DTS公司于1993年推出、数字编码(压缩4倍)、5.1声道、48KHz采样、用于电影院和DVD DTS-ES(扩展环绕):6.1声道、用于家庭影院 DTS-HD(高清):支持虚拟的无限多个环绕声通道、是BD的一种可选环绕声格式 AAC(
24、Advanced Audio Coding,先进音频编码) 由AT&T、杜比实验室、Fraunhofer IIS和索尼四个公司于1997年4月共同开发出的一种有损音频压缩技术,支持8 kHz96 kHz采用频率、1 48.16个声道、16个配音声道和16个数据流,是MPEG-2/4的重要组成部分,用于DVD和MP4等,3.3.3 音频光盘,CD-DA(Compact Disc-Digital Audio,紧凑光盘数字音频)Philips与Sony公司于1981年联合推出的一种可以存储74分钟无损数字音频数据的直径12厘米的光盘,一般称为数字激光唱盘,简称为CD。它采用PCM技术、44.1kHz
25、采样频率、16位量化、双声道立体声、最大码率1.4Mbps,存储容量为680MB HDCD(High Definition Compatible Digital,高清晰兼容数字)由Keith Johnson和Pflash Pflaumer于1991年开发出的一种专利技术、1996年他们二人创立了PMI (Pacific Microsonics Incorporated,太平洋微指令公司),微软公司于2000年9月收购了PMI,并获得了其HDCD技术。HDCD采用20位量化、88.2kHz采样、记录在CD-DA 16位样本数据的最低一位,需专门的解码器,不然只能用作(少一位有效样本数据的)普通C
26、D,DTS-CD由DTS公司于1997年推出的一种存储74分钟的5.1声道、48KHz采样、20bit量化的DTS音频的CD-DA光盘,采用的是APT-X100数字压缩技术(压缩4倍),播放DTS-CD光盘需要支持DTS格式的CD或DVD播放机和支持DTS信号的功放,在只支持普通CD-DA的光盘机/功放上播放DTS-CD盘时,听到的是白噪声。DTS-ES CD支持6.1声道 DVD-Audio是DVD论坛(先锋、松下、东芝、日立等公司)于1999年3月提出的一种数字音频格式,采用DVD介质存储、PCM技术、5.1声道、96kHz采样、24位量化、135分钟、最大码率9.6Mbps SACD(S
27、uper Audio CD,超级音频CD)飞利浦与索尼公司于1997年9月推出的一种数字音频格式,采用DVD介质存储和DSD (Direct Stream Digital,直接数字流) 技术编码,5.1声道、2.82MHz采样、1位量化、74分钟,3.4 MIDI,MIDI = Musical Instrument Digital Interface(乐器数字接口)是音乐合成器(music synthesizers)、乐器和计算机之间交换音乐信息所使用的标准协议 MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么及怎么做,如演奏音符、加大音量、生
28、成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 MIDI常用作背景音乐:因为MIDI音乐可以和其它的媒体(如数字电视、图形、动画、话音等)一起播放,这样可以加强演示效果,MIDI的优点,生成的文件比较小:因为MIDI文件存储的是命令,而不是声音波形 容易编辑:因为编辑命令比编辑声音波形要容易得多,简史,1920s:出现第1种流行的(声音单一)电子合成器、60年代 Robert Moog设计了首台广泛使用的模拟电子合成器、70年代初期出现了计算机音乐合成器,但各个厂商的产品互不兼容 1981年11月:Sequen
29、tial Circuits公司的Dave Smith写出通用合成器接口USI协议提交给音频工程协会;经过对USI的改进和扩展,美国和日本的主要合成器制造商在1982年6月的美国全国音乐商协会NAMM展上,提出MIDI规范 1983年8月:公布MIDI 1.0详细规范(Detailed Specification),1995年1月推出版本v95.1,1995年9月v95.2,1996年3月v96.1,2001年11月推出v96.1的第二版,1991年9月:控制MIDI标准的两个组织MIDI制造商协会MMA(http:/www.midi.org/)与日本MIDI标准委员会JMSC提出通用MIDI级
30、别1 (GM1)规范(General MIDI 1 Specification),1999年11月推出GM2规范,2003年9月推出GM2规范的1.1版 2001年8月31日:MMA推出可扩展音乐格式XMF (eXtensible Music Format) 1.0、2003年8月推出XMF 1.0.1、2004年12月推出XMF 2.0 2003年7月:MMA和AMEI(日本的电子音乐工业协会)批准MIDI XML规范 2004年11月:MMA又推出了用于3G移动通信的SP-MIDI(Scalable Polyphony MIDI Specification,可伸缩多音调MIDI规范) 新标
31、准MIDI 2.0或HD-MIDI(High-Definition Protocol,高清协议)目前还在制定过程中,音乐生成方法,调频(FM = frequency modulation频率调制)合成法:80年代初由美国斯坦福大学的研究生John Chowning发明。将数字表示的简单乐音波形用计算机组合起来,通过数模转换器DAC来生成乐音。FM合成法使合成音乐工业发生了一次革命 乐音样本合成法,也称为波形表(Wavetable)合成法:把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。 比FM合成法所产生乐音更逼真,FM合成器的基本组成模块,
32、数字载波器:用于数字载波,使用了3个参数:音调、音量和波形 调制器:用于波形调制,使用了6个参数:频率、调制深度、波形的类型、反馈量、颤音和音效 声音包络发生器:乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为调幅AM,并且作为数字式音量控制旋钮,它的4个参数写成ADSR(Attack起声/decay衰落/sustain维持/release释放),这条包络线也称为音量升降维持静音包络线 数字运算器:用于组合数字载波和调制波形的参数进行数字运算 数模转换器:将数字信号转换成模拟声音,FM声音合成器所用的波形,FM声音合成器的工作
33、原理,通过改变合成器的参数 可以生成不同的乐音,改变数字载波频率可以改变乐音的音调(音高) 改变数字载波的幅度可以改变声音的音量 改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性 快速改变调制波形的频率(即音调周期)可以改变颤音的特性 改变反馈量,就会改变正常的音调,产生刺耳的声音 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同,乐音样本合成器的工作原理,MIDI系统,MIDI消息(MIDI messages):告诉音乐合成器如何演奏一小段音乐的一种指令,其数据流是单向异步的数据位流(bit stream),速率为31.25 kbps,每个字节为10位(
34、1位开始位、8位数据位和1位停止位) MIDI数据流:通常由下面两种MIDI设备产生 MIDI控制器(controller):是当作乐器使用的一种设备(如乐器键盘),在播放时把演奏转换成实时的MIDI数据流 MIDI音序器(sequencer):是一种允许MIDI数据被捕获、存储、编辑、组合和重奏的装置,简单的MIDI系统,一个简单的MIDI系统,由一个MIDI键盘控制器(把演奏转换成实时的MIDI数据流)和一个MIDI声音模块 (在MIDI IN端口接收MIDI信息,然后播放声音 )组成 许多MIDI键盘乐器(如电子琴)在其内部,既包含键盘控制器,又包含MIDI声音模块功能,PC机MIDI系
35、统,MIDI的通道概念,单个物理MIDI通道(channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器 在MIDI信息中,用4个二进制位来表示这16个逻辑通道 音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收,复杂MIDI系统,在一个MIDI设备上的MIDI IN连接器接收到的信息可通过MIDI THRU连接器输出到另一个MIDI设备,并能以菊花链的方式连接多个MIDI设备,这样就可组成了复杂的MIDI系统,MPC合成器,多媒体个人计算机MPC要求声卡的合成器是多音色和多音调的合成器 多音色(muti-timbral)是指合成器能够
36、同时播放几种不同乐器的声音 多音调(polyphonic) (复音)是指合成器一次能够同时播放的音符(note)数 MPC规格定义了两种音乐合成器:基本合成器和扩展合成器,MPC的基本/扩展合成器之间的差别,3.5 音频编码,音频信号包括窄带(3.4kHz)的话音信号和宽带(20kHz)的其他音频信号(包括音乐) 3.5.1 简介 3.5.2 波形编译码 3.5.3 音源编译码 3.5.4 混合编译码,3.5.1 简介,由于话音信号和非话音信号的波形数据的压缩/编码方法差别较大,本节主要讲话音编码,而非话音编码将放在MPEG音频编码中介绍 单声道、8位/样本、采样频率为8 kHz的话音数据流的
37、码率是1*8bit/样*8k样/s = 64kb/s 而现在调制解调器的速率一般为28.8 kb/s或56 kb/s。为了提高通信效率和带宽利用率,必须对话音数据进行编码压缩。联合国下属的国际电信联盟ITU制定了一系列的话音编码标准G.7xx,音频编码算法与标准,注:音源编解码器(source codec)又叫参数编解码器(parameter codec),普通编译码器的音质与数据率,3.5.2 波形编译码,波形编译码的想法是,不利用生成话音信号的任何知识而直接由波形数据产生一种重构信号,它的波形与原始话音波形尽可能地一致 一般来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,
38、质量相当高。低于这个数据速率时,音质急剧下降,常见波形编码,1脉冲编码调制 PCM 2自适应差分脉冲编码调制 ADPCM 3子带-自适应差分脉冲编码调制 SB-ADPCM 4全球移动通信系统 GSM,1PCM,脉冲编码调制(PCM = pulse code modulation):最简单的波形编码,它仅仅是对输入信号进行采样和量化 典型的窄带话音带宽限制在4 kHz,采样频率是8 kHz。如果要获得高一点的音质,样本精度要用12位,它的数据率就等于96 kb/s,这个数据率可以使用非线性量化来降低 这种量化器在20世纪80年代就已经标准化,而且直到今天还在广泛使用。在北美的压扩标准是律,在欧洲
39、的压扩标准是A律 它们的优点是编译码器简单,延迟时间短,音质高。但不足之处是数据速率比较高,对传输通道的错误比较敏感,PCM编码框图,量化方法,均匀量化:采用相等的量化间隔对采样得到的信号作量化,也称为线性量化。对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用 非均匀量化:基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。这样就可以在满足精度要求的情况下用较少的位数来表示信号,均匀量化与非均匀量化,均匀量化,非均匀量化,律与A律,在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为律压扩算法,另一种称为A
40、律压扩算法 律压扩(-Law companding) (G.711)主要用在北美和日本等地区的数字电话通信中 A律压扩(A-Law companding) (G.711)主要用在欧洲和中国大陆等地区的数字电话通信中,律压扩,输入和输出的量化关系: 式中:x为输入信号幅度,规格化成 -1x1;sgn(x)为x的极性;为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100500 由于律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。具体计算时,用255,把对数曲线变成8条折线以简化计算过程,律曲线图(255),A律压扩,输入和输出的量化关系(分段函数): 式中:x为输入信
41、号幅度,规格化成 -1x1;sgn(x)为x的极性;A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比 A律压扩的前一部分是线性的,其余部分与律压扩相似为对数的。具体计算时,A87.56,为简化计算,同样把对数曲线部分变成折线,A律曲线图(A87.56),律曲线与A律曲线比较图,G.711标准,对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用率压扩编码或者使用A率压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s 这个数据就是CCITT推荐的G.711标准话音频率脉冲编码调制(PCM of Voice Frequencies),
42、PCM在通信中的应用,PCM编码早期主要用于话音通信中的时分多路复用(time-division multiplexing,TDM) TDM是数字通信的主要手段,可容纳的话路数有两种规格: 24路制:数据传输率R8000Hz193b1544kb/s (其中,8kHz为采样频率,193b=24路8b量化精度+1b同步位) 30路制:数据传输率R8000Hz2 (15路+1同步)8b2048kb/s 每一个话路的数据传输率8000Hz8b=64kb/s 通常用群(group)这个术语来表示PCM信号复用的复杂程度。PCM通信方式发展很快,传输容量已由一次群(基群)的30路(或24路),增加到二次群
43、的120路(或96路),三次群的480路(或384路),,二次复用示意图,多次复用的数据传输率表,在数字通信中,具有一次复用数据率的线路在北美叫做T1远距离数字通信线,提供这种数据率服务的级别称为T1等级,在欧洲叫做E1远距离数字通信线和E1等级。对应多次复用的为T2/E2、T3/E3、T4/E4和T5/E5等,2ADPCM,在话音编码中,一种普遍使用的技术叫做预测技术,这种技术是企图从过去的样本来预测下一个样本的值。这样做的根据是认为在话音样本之间存在相关性 如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的
44、位数来表示差值。这就是差分脉冲编码调制(DPCM = differential PCM)的基础对预测的样本值与原始的样本值之差进行编码 这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法之一就是使用自适应的预测器和量化器,这就产生了一种叫做自适应差分脉冲编码调制(ADPCM =adaptive DPCM),APCM,自适应脉冲编码调制APCM是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术 改变量化阶大小的方法有两种: 前向自适应(forward adaptation):根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信
45、息(side information)传送到接收端 后向自适应(backward adaptation):从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。,APCM方块图,(a) 前向自适应 (b) 后向自适应,DPCM,差分脉冲编码调制DPCM是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术 差分脉冲编码调制的思想是,根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数 它与脉冲编码调制不同的是,PCM是直接对采样信号进行量化编
46、码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号,DPCM方块图,ADPCM,自适应差分脉冲编码调制ADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码 ADPCM的核心想法是: 利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值 使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小,ADPCM方块图,G.721/G.723标准,ADPCM是利用样本与样本
47、之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术 CCITT为此制定了G.721推荐标准32 kb/s自适应差分脉冲编码调制,它使用ADPCM转换技术,实现64 kb/s A律或律PCM速率和32 kb/s速率之间的相互转换 在此基础上CCITT还制定了G.721的扩充推荐标准G.723 ,使用该标准的编码器的数据率可降低到24 kb/s,3SB-ADPCM,两类编译码方法: 时域法(time domain approach):在时域里开发的编译码方法,如上述的所有波形编译码器PCMADPCM 频域法(frequency domain approach):在频域里开发的编译码方法,如
48、子带编码(sub-band coding,SBC) 子带编码将输入的话音信号被分成好几个频带(即子带) 。对听觉感知比较重要的子带信号,编码器可分配比较多的位数来表示它们,于是在这些频率范围里噪声就比较低。对于其他的子带,由于对听觉感知的重要性比较低,允许比较高的噪声,于是编码器就可以分配比较少的位数来表示这些信号,子带编码需要用滤波器把信号分成若干个子带,这比使用简单的ADPCM编译码器复杂,而且还增加了更多的编码时延,但压缩比较高 自适应位分配的方案和差分方法也可以考虑用来进一步提高音质,从而就有了子带-自适应差分脉冲编码调制SB-ADPCM,子带编码,子带编码SBC的基本思想是: 使用一
49、组带通滤波器(band-pass filter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码 在信道上传送时,将每个子带的代码复合起来 在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号,子带编码的优点,采用对每个子带分别编码的好处有二个: 第一,对每个子带信号分别进行自适应控制,量化阶(quantization step)的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声 第二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。例如,在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数,子带编码方块图,S
链接地址:https://www.31doc.com/p-2603913.html