欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    雷运发第3章音频信息处理.ppt

    • 资源ID:2264848       资源大小:713.01KB        全文页数:80页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    雷运发第3章音频信息处理.ppt

    第3章 音频信息处理,学习目标 l 了解声音信号的特点、存储格式及质量的度量方法 l 理解音频信号压缩方法及音频编码标准 l 掌握常用的音频处理软件对声音信号进行处理 l了解语音识别技术及其应用,3.1 音频信息处理基础,音频信息在多媒体中的应用极为广泛:视频图像配以娓娓动听的音乐和语音 ;静态或动态图像配以解说和背景音乐 ;立体声音乐可增加空间感 ;游戏中的音响效果等。 音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。,3.1.1 音频信号的特点,1.音频信号的分类 音频信号可分为两类:语音信号和非语音信号。 语音是语言的物质载体,是社会交际工具的符号, 它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。 非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。,用声音录制软件记录的英文单词“Hello”的语音实际波形,2.模拟音频信号的两个重要参数,模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。 一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。,3. 声音的A/D与D/A转换,A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩 。 A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。 借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换。,4. 声音的三要素,1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。 读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。,2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。,3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。,声音的频谱有线性频谱和连续频谱之分。线性频谱是具有周期性的单一频率声波;连续频谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设备中创造出来,声音效果单调而乏味。自然界中的声音几乎全部属于非周期性声波,该声波具有广泛的频率分量,听起来声音饱满、音色多样且具有生气。,5.声音的频谱,3.1.2 模拟音频的数字化过程,数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。 采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。,信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。 为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。,1. 采样,采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。,采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。 量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。,2. 量化,以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。,D/A转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。,失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。,3. 编码 模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。,3.1.3 数字音频的文件格式 在多媒体技术中,存储音频信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。 1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。,WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。 Wave格式支持多种压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。,未压缩的声音文件的存储量可用下式计算: 存储量(KB)=(采样频率KHZ×采样位数bit×声道数×时间秒)/8,2.VOC文件 VOC文件是Creative公司所使用的标准音频文件格式,多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持。 与WAV格式类似,VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针,这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。,3.MPEG音频文件.MP1/.MP2/.MP3 这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件; MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为41和6181,而MP3的压缩率则高达101121,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。,4. RealAudio文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。,5.AIFF文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式。,3.1.4 声音质量的评价,目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。此外,声音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语音质量时,有时同时采取两种方法评估,有时以主观质量度量为主。 1以声音的带宽衡量声音的质量,2、声音客观质量的度量 声音客观质量的度量主要用信噪比(signal to niose ratio,SNR)来度量。它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率,通常以S/N表示。一般用分贝(dB)为单位,信噪比越高表示音频质量越好。信噪比(SNR)用下式计算:SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db)。,3、声音主观质量的度量 与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义,感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义。可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。 对声音主观质量度量比较通用的标准是5分制 :优(Excellent)、良(Good) 、中(Fair) 、差(Poor) 、劣(Bad) 。,3.2音频信号压缩技术,音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点: 1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到 . 2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关 . 声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。,3.2.1 脉冲编码调制,1编码的原理 它的原理框图下图所示,3.2.1 脉冲编码调制,1编码的原理 它的原理框图下图所示,模拟信号数字化一般有三个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法;第三步是编码,就是按一定格式记录采样和量化后的数据。,2均匀量化,采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图3-4所示。量化后的样本值Y和原始值X的差 E=Y-X称为量化误差或量化噪声。,3非均匀量化,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图3-5所示。,一个CDDA采用脉冲编码调制PCM编码的实例,首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x(n),n表示量化的时间序列,x(n)的值就是n时刻量化后的幅值,以二进制的形式表示和记录。,3.2.2 增量调制 它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。,图3-7 DM波形示意图,从上图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象称为增量调制器的“斜率过载”(slope overload)。 在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granular noise),这种噪声是不可能消除的。 在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状噪声。,3.2.3 自适应脉冲编码调制,是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大小在较长时间才发生变化。 改变量化阶大小的方法有两种:一种称为前向自适应 ,后向自适应 。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。,(a) 前向自适应,(b) 后向自适应,3.2.4 差分脉冲编码调制,是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值。,差分脉冲编码调制的概念示于图3-9。图中的差分信号d(k)是离散输入信号s(k)和预测器输出的估算值se(k-1)之差。注意,se(k-1)是对s(k)的预测值,,3.2.5 自适应差分脉冲编码调制,综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3-10所示。,3.3 音频编码标准,3.3.1 CCITT G系列声音压缩标准 CCITT和ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。 1电话质量的音频压缩编码技术标准 信号频率规定在300Hz3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kb/s,即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711,其速率为64Kbs,使用非线性量化技术,主要用于公共电话网中。,2调幅广播质量的音频压缩编码技术标准 频率在50Hz一7kHz范围。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbits,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbits可以被压缩成64kbits,最后进行数据插入(最高插入速率达16kbits),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。,3高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz20kHz,采用441kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbits。1991年国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISOCDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz,44.1kHz,32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32448kbits,适合于CDDA光盘应用。,3.3.2 MP3压缩技术 MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式。 ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案 ,按照压缩质量(每Bit的声音效果)和编码方案的复杂程度分别是Layer1、Layer2、Layer3。所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。而音质听起来与CD相差不大。,MPEG的层次与压缩比率,3.3.3 MP4压缩技术 MP4并不是MPEG-4或者MPEG-1Layer4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。 MP4使用的是MPEG-2 AAC技术也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点就是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为896KHz下提供了148个声道可选范围的高质量音频编码。AAC就是Advanced Audio Coding(先进音频编码)的意思,适用于从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码,并且允许对多媒体进行编码/解码。,AAC与MP3相比,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性,使得在音频压缩后仍能完美的再现CD音质。 AAC技术主要由以下三个部分组成。第一,AT&T的音频压缩技术专利。它可以将AAC压缩比提高到20:1而不损失音质。这样,一首3分钟的歌仅仅需要2.25MB,这在互联网上的下载速度是很惊人的。第二、安全数据库。它可以为你的AAC Music创建一个特定的密钥,将此密钥存于其数据库中。同时,只有AAC的播放器才能播放含有这种密钥第三、协议认证。这个认证包含了复制许可、允许复制副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可等信息。,MP4技术的优越性要远远高于MP3,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,MP4是一种商品,它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而MP3是一种自由音乐格式,任何人都可以自由使用。此外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准。相比之下,MP3的灵活和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。更重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。,3.3.4乐器数字接口MIDI,产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是频率调制(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。 FM合成器生成乐音的工作原理主要是把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC)来生成乐音。但是使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。 乐音样本合成法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。乐音样本的采集相对比较直观。,MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。 MIDI信息是以“MIDI messages”传输的,它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。,MIDI数据流是单向异步的数据位流(bit stream),其速率为31.25 kbps,每个字节为10位(1位开始位,8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器,用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生,如乐器键盘(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。,3.4 常用音频处理软件简介,3.4.1 Cool Edit Pro,CoolEdit Pro是著名的Syntrillium公司开发的数字音频处理软件,其运行环境为Windows启动后其界面如右图所示。,CoolEdit Pro的主要特色有: (1).支持的音频格式十分丰富,多达十余种,还提供了对5种不同类型WAV文件的支持。 (2).提供丰富的特殊效果。包括3D混响、降噪、滤波、音频缩/放、合声、延迟、变形、反转、静音等。 (3).提供了强大的DSP(数字信号处理)能力。能够同时处理64条音轨。支持录音、回放、混音、音频编辑。借助它,能够方便地制作出自己想要的任何特殊音效,并添加到各种类型的多媒体作品中去。 (4).操作界面设计简捷方便。在工具栏中,提供了56个图形化按钮。几乎所有的编辑操作都能够方便地进行操作。,3.4.2 Gold Wave,GoldWave的窗口界面如图下图所示。,GoldWave是一款相当不错的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式,而且它可以不经由声卡直接抽取SCSI形式的CD ROM中的音乐来录制编辑。 作为Wave文件编辑处理工具,支持从MP3、MPG、AVI、ASF、MOV等文件中提取音频进行编辑,所以除了它强大的编辑功能外,用作把以上格式的音频转换成WAV文件也是很方便的。 GoldWave同时是较新的、适合于一般进行音频素材采集与制作的软件,它集音频录制和编辑于一体,不仅是一个录音程序,可以很方便地制作CAI课件的背景音乐、音效、录制CD、转换音乐格式等,而且还具有各种复杂的音乐编辑和特效处理功能。该软件不需要安装,只要运行程序文件夹中的可执行程序即可。GoldWave小巧玲珑,只有600K左右,可从http:/www.goldwave.com下载。,3.4.3 CakeWalk(音乐大师),作为一种图形化的音乐编辑软件,CakeWalk的主要工作界面就是各种工作窗口,我们对MIDI事件和音频事件的所有编辑和操作都是在工作窗口中完成的。如下图所示,音轨窗既是CakeWalk主界面的主要组成部分,也是重要的工作窗口。类似的还有钢琴窗帘、事件列表窗、调音台窗等,每个窗口各有所长,分别适用于不同的编辑对象和编辑特征。,1. Cakewalk的调音台可以自动混音,可以一边播放乐曲,一边记录控制键(滑键)的调整动作,而且多个控制键可以编组控制,这为制作渐强减弱效果提供了最为简单的操作手段。 2.对于所有连续变化的数据,例如弯音、调制、控制器、键速和速度等,Cakewalk都提供了手工划线的编辑方式,用鼠标划一条斜线或曲线便可随意改变数值。因此,对于像弯音轮的细微变化过程、速度的自由变化等之类较难处理的数据,在Cakewalk中都变得异常简单。 3.Cakewalk可以将其所有菜单操作命令赋予MIDI键盘,也就是说,可以用合成器的键盘来控制软件的各种操作,其功能是所有音序软件中最全面的。 4. Cakewalk可以将音符的位置、控制器的变化等MIDI信息图形化地显示出来,因此看起来更加接近总谱。,Cakewalk Pro Audio的 一些特色功能,3.5波形音频文件的采集与制作,3.5.1利用“录音机”生成和编辑波形文件 Windows录音机的主要功能是录音和放音,使用“录音机”可以录制、混合、播放和编辑声音,也可以将声音链接或插入到另一文档中。其主要功能操作如下所述: (1)波形文件的录制:确保音频输入设备已经连接到计算机。录音机常用的输入设备是麦克风和CD-ROM播放机。 (2)波形文件的存储:存储的文件格式为波形(.wav)文件。 (3)声音的编辑:复制、粘贴、插入、删除等操作。 (4)音频变换与特殊效果:更改声音的大小、速度、回音等。,Cool Edit Pro是一种非常出色的声音编辑器,其主要功能操作如下所述。 (1)波形文件的录制:录制及录制参数(采样率、量化位数、单双声道等)的设定。 (2)波形文件的存储:存储的文件格式(.wav、.au、.smp、.asf、.wma等)的选择,文件格式与参数(采样率、量化位数、单双声道)的变换。 (3)波形文件选定范围播放,记录播放时间。 (4)声音的编辑:剪切、拷贝、混合粘贴、插入多轨工程、插入多轨播放列表、删除静音、零点定位、确定节拍等。 (5)声音的变换与特殊效果:降噪、扩音、剪接、添加立体环绕、淡入淡出、3D回响等音效。,3.5.2用Cool Edit Pro编辑制作波形文件,3.6 声音文件格式的互换,1选择声音文件格式的部分原则 1)Wav文件:不仅所有的Windows的音效处理应用程序都可以播放WAVE文件,而且常见的各种多媒体编辑制作软件的音效播放都能直接使用WAV文件。再者,WAV格式的音质效果也不错 。 2)MP3文件 :如果通过适当的工具来截取CD上的数字音频并保存为CD音质的WAVE文件,然后进行MPEG Layer 3的压缩编码形成MP3文件,再用合适的解码软件对MP3解码。那么可以形成一个节约大量存储空间,保持CD音质的整体解决方案。 3)MIDI文件:是多媒体计算机产生音频(特别是音乐)的另一种主要方式,可以满足需要长时间音乐的场合。,4)SWA文件:SWA格式的音乐文件,是Authorware4.0以上版本支持的特殊音乐格式,它的容量类似于流行的MP3,也非常小。在Authorware4.0或4.0以上版本中,自带WAVSWA转换器,,3.6.2转换CD音轨,下面以比较常用的CDCopy为例来说明一下如何转换CD音轨。CDCopy是一个常用的抓音轨工具,它对烂盘的纠错性能非常好,还可以把CD音轨转换为WAV、AU、RA、Yamaha VQF、AAC、MP3等多种声音格式,而且CDCopy是一个共享软件,我们可以从http:/cdcopy.actadivina.com下载到它的最新版本。抓取及转换音轨 步骤分以下3步: 1选择文件格式 2设置文件保存路径 3转换音轨,3.7.1语音识别的发展历史 可以将语音识别近六十年的发展历史划分为4个时期: (1)初始发展期 (2)基础突破期 (3)综合发展期 (4)成熟期,3.7 语音识别技术及应用,3.7.2语音识别技术,语音识别以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,在人机语音通讯中“听懂”人类口述的语言。根据不同的需求,语音识别的识别内容可分为狭义的语音识别和说话人语音识别 。,1语音识别技术的基础,一个完整的语音识别系统可大致分为三部分: (1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 (2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。,声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。,语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。,2语音识别的基本原理,预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题: 特征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等; 训练在识别之前进行,通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库; 模式匹配部分是整个语音识别系统的核心,它是根据一定的准则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度,判断出输入语音的语意信息。,3处理的方法: (1) 连续语音流的预处理 ·波形硬件采样率的确定、分帧大小与帧移策略的确定; ·剔除噪声的带通滤波、高频预加重处理、各种变换策略; ·波形的自动切分(依赖于识别基元的选择方案)。,(2) 特征参数提取 识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征参数,这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。,(3)参数模板存储。在建立识别系统时,首先进行特征参数提取,然后对系统进行训练和聚类。通过训练,系统建立并存储一个该系统需识别字(或音节)的参数模板库。 (4)识别判决。识别时,待识语音信号经过与训练时相同的特征参数提取后,与模式模板存储器中的模式进行匹配计算和比较,并根据一定的规则进行识别判决,最后输出识别结果。,3.7.3 语音识别系统的类型,1按可识别的词汇量多少 2按照语音的输入方式 3按发音者为特定/非特定人 4按发音者的声纹,3.7.4 语音识别的应用,1在信息处理领域的应用 (1)给计算机发送指令 。 (2)听写系统 。 (3)信息查询。 (4)网上交谈。 2教育与商务应用 (1)语音教学软件。 (2)电话查询。 (3)电子商务。 3消费电子产品应用,第三章小结,声音是携带信息的重要媒体,对音频信息的处理是多媒体技术研究的一个重要方面。声音种类繁多,且不同种类的声音之间既有共性也有自身的特性。在本章的前3节主要介绍了音频信息处理的基本知识和音频信号压缩及编码等理论。在后4节中先介绍了常用音频处理软件及声音文件的制作、转换等实际应用,最后介绍了一个目前较热门的应用领域语音识别技术。,第3章讨论题,1.声音按其特性分为哪几类?举例说明。,分为规则和不规则两类。不规则指不含任何信息的噪音;规则声音分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体,音乐是规范的、符号化的声音,音效是指人类熟悉的其他声音,如雨声、雷声、机器轰鸣声。,2.声音具有哪3个要素?举例说明。,音强、音调、音色。,3.声音数字化分为哪两个步骤?,采样就是每隔一段时间就读一次声音信号的幅度,记录下来的原始模拟声波在某一时刻的状态,称之为样本;每秒钟抽取声波幅度样本的次数,称为采样频率,采样频率的高低由奈奎斯特采样订立和声音信号本身的最 高频率决定 ;常用的有8kHz , 11.025kHz, 22.05, kHz 16kHz, 44.1kHz, 48kHz等。 量化:把采样得到的声波幅度转化为数字值,也就是把某一幅度范围内的电压用用一个数字表示。量化位数 是每个采样点能够表示的数据范围,有8/12/16/32位。量化级 的大小决定了声音的动态范围,即被记录和重放的声音最高与最低之间的差值。量化有很多种方法

    注意事项

    本文(雷运发第3章音频信息处理.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开