第11章多带激励声码器.ppt
《第11章多带激励声码器.ppt》由会员分享,可在线阅读,更多相关《第11章多带激励声码器.ppt(51页珍藏版)》请在三一文库上搜索。
1、国家“十一五”规划教材 数字语音编码讲议 同济大学电子与信息工程学院 赵晓群 编著 机械工业出版社,2007年,第11章 多带激励声码器 11.1 概述 CELP、MPLPC等:全极点模型、LPC 分析,合成-分析法, 听觉加权方均误差准则,闭环确定激励参数。 这类混合编码,在 4.816 kbit/s 码率内获得巨大成功。 关键技术:是保持了合成语音与原始语音波形的相似性。 再降数码率时,合成语音质量迅速下降。 LPC 声码器:(清/浊音)二元激励模型,分析-合成法, LPC 分析,清/浊音判别,估计基音周期。 SNR 较高时,2.4 kbit/s 及以下码率,语音可懂度相当高。 以上编码器
2、,当噪声较大时,因无法准确提取参数, 性能严重恶化; 其它声码器,如通道声码器、同态声码器等也有同样弱点。,产生原因:二元激励模型过于简化,不符合实际语音的特性。 许多语音段,同时含周期性、非周期性分量, 过渡音段、有噪浊音段更是如此。 当用二元谱来拟合时,合成语音缺乏自然度。 1988 年 MIT 林肯实验室提出多带激励(MBE)语音编码, 突破二元激励的局限性,对多个频带逐个进行 V/U 判决, 故称为多带激励模型。 采用合成-分析法,在 2.4 4.8 kbit/s 码率时性能优良。 改进方案被国际海事卫星组织采用(INMARSAT-M Voice Codec),码率为 6.4 kbit
3、/s。 本章主要内容:MBE 原理,参数提取方法,合成语音的方法。重点介绍 INMARSAT-M Voice Codec 标准的算法。,第11章 多带激励声码器 11.2 多带激励语音模型 窗选语音信号为(窗长 2040 ms): 源-系统语音模型理论,语音段是线性系统(声道) 对某种激励信号的响应。 设系统的单位脉冲响应为,则的 Fourier 变换可表示为: 式中 Hw(), Ew() hw(n), ew(n) 的 Fourier 变换。 重建语音信号谱 Xwr() 可表示为: 式中 Hwr() 合成滤波器的系统函数; Ewr() 合成滤波器的激励信号的 Fourier 变换。 两者皆从原
4、始语音信号中分析提取。,清音波形,Hwr() 用全极点函数来逼近,相应于 Xwr() 的谱包络。 MBE 按基音各谐波,将语音分成若干个子频带 (如以 3 个相邻的谐波频带为一组进行分带), 分别对各子带进行 V/U 判决,激励信号为各子带的和。 清音带:用白噪声谱作为激励信号谱; 浊音带:用周期性的 Pw() 作为激励信号谱。 激励信号是周期性信号与非周期性噪声按不同频带混合而成。 系统函数 Hwr() 的作用是:调整各子带分量的相对幅度和 相位,并将 Ew() 映射成 Xw() 。 该模型较符合实际语音的特性,使合成语音谱同原语音谱 在频谱精细结构上拟合得更好。 若还利用谱的相位信息,则能
5、够合成出高质量的语音。,图11.1:典型的浊音、清音和混合语音段的分析-合成情况。 MBE 编码过程涉及三种参数的提取, 基音频率; 每个子带的谱包络的幅度和相位参数; 每个子带的 V/U 判决。 图11.2:MBE 语音编/解码器的简化原理图。,(a) 浊语音段 (b) 清语音段 (c) 混合语音段 图11.1 语音MBE的分析-合成波形(10 kHz采样,256点Hamming窗),第11章 多带激励声码器 11.3 多带激励语音分析 MBE模型参数的最优提取,计算量大,工程难以实时实现。 常用次优算法,分两步完成参数的提取: 确定基音频率和每个分带的谱包络参数,用 AbS 法提取; 对每
6、个分带进行 V/U 判决。 有两种参数提取方案: 使下列加权积分值(加权方均谱误差)为最小: 应使下列加权积分值达到最小: 式中 G() 频率加权函数; Xw(), Xwr() 原始语音谱和合成语音谱。,差别: 方案 利用语音谱的模值; 方案 利用模值和相位,性能优于 , 但计算复杂,码率有所增加。,INMARSAT-M Voice Codec 采用方案。 本节主要内容: 11.3.1 频域分析 11.3.2 时域分析 11.3.3 INMARSAT-M 改进 MBE 模型分析算法,11.3.1 频域分析 1. 基音估计及各次谐波幅度的计算 设基音周期为 T0(基音角频率 0=2/T0 )。
7、依次假设 0 为各种可能出现的值。 对于可能的基音角频率值0 ,将=- 分为若干频带, 分界点为:am=(m-0.5)0, bm=(m+0.5)0, m=0,1,(M+1) 设每个分带 am, bm 中 Hwr() 保持不变,Hwr()= Am, 则有: 式中 总的加权方均谱误差; m 第m子带加权方均谱误差, 或,仅考虑 幅度谱时,考虑幅度、 相位谱时,令 或 , 由上两式可分别解得一组最佳 和 : 或 若第 m 次谐波的能量显周期性,则其能量集中在该谐波附近; 选周期性 Pw() 的作为激励信号 Ewr(), 则合成语音谱Xwr() 与窗选语音谱 Xw() 在第 m 次谐波带内将拟合得很好
8、( m 最小)。 若第 m 次谐波的能量显非周期性, 则 Xw() 在该频带内没有特征性的形状。 仍用 Pw() 作为激励,m 值将较大。此时,应选噪声为激励。,仅考虑 幅度谱时,考虑幅度、 相位谱时,分析周期性与非周期性信号激励时的最佳解。 浊音频带时,选 Pw() 为激励信号,由上页两式得: 清音频带时,激励采用理想白噪声(幅度谱 = 1),则有:,仅考虑幅度谱时, 最佳谱幅度,考虑幅度、相位谱时, 最佳谱包络。,相位信息无关紧要, 在此无需计算 Am。,对于假定基音频率 0 的每一个谐波,计算 Am 或 Am , 再求出各次谐波内的最小误差 。 则整个频带的总的最小误差: 每假设一个基音
9、频率 0,计算出对应的 0。 显然,正确的基音周期或其倍数上,0 取极小值。 搜索 0 的全局最小值对应的 T0=2/ 0 值可能是 正确的基音周期的某个整数倍值。 因而,还需要对T0/2、T0/3、处的 0 进行校核, 以判断正确的基音周期,从而确定最佳基音周期。 最后确定最佳基音周期时,还需要考虑前后帧的情况。 一般相邻帧的 T0 值变化不会太大。,2. 谐波频带内 V/U 判决 第 m 子带的归一化误差能量为: 采用激励信号 Pw()(谱幅度Am 或谱包络 Am、周期 T0 ) 是第 m 谐波子带的谱拟合误差。 令频率加权函数 G()=1,上式化简为: 子带判决: 可以将相邻的几个谐波频
10、带合并成一个子频带, 用上述同样的方法提取Am 或 Am,并进行 V/U 判决。,11.3.2 时域分析 W():窗函数 w(n) 的 Fourier 变换, 0:归一化基音角频率(基音周期 T0,0= 2/T0) 假设在 - 频率范围内共 2M 个谐波, Pw() 为激励时,有: 式中,,令频率加权函数 G()=1 ,由前面给出的式子 得,全带拟合误差: 式中, 由上式可求出使 取极小值的矢量 a 为: 再代入上式,结合上页式,得: 式中, 因此,对于某个选定的 T 值时,计算 min 等价于 max 。,注:上标 T 为转置 H 为共轭转置,为了方便,选择窗函数 w(n),使其满足 频域内
11、正交条件: , I 是单位矩阵; 相当于时域内满足条件: 还要求其 Fourier 变换的泄露足够小, 主瓣宽度足够窄 (此宽度不应大于基音频率值) 。 满足上述条件且 w(n) 为偶函数时,上页计算 式可改写为: 注意到 0M= 近似成立,且 0T=2 ,则上式可简化为: 式中 T 假定的基音周期; w2(n)x(n) 的自相关函数,,由 Parseval 定理,总拟合误差写成: 为了去除由于 T 值增加造成的下降,需要对上式修正, 以保证真正的基音周期对应的是全局最小值。 采用无偏拟合误差公式如下: 采用此修正后,归一化总误差能量应写成下列形式:,设窗函数 w(n) 长为 2N+1,以原点
12、对称。 同时假设在窗长范围内有 L 个假设基音周期,即: 则上页式中,uB的求和上下限应作相应的改动,即得到: 为粗搜索时确定初始基音周期 TI 所用的拟合误差时域表达。 为提高精度,T 值也可取非整数,如 20.5, 21, 21.5。 非整数点上的相关函数可插值计算: 实验表明,10 kHz 采样,基音周期的精确可达 0.04 样点。 数码率较低时(4.8 kbit/s以下),精确到 1/4 1/8 样点也就满足要求了,这样运算量可以减少很多。,11.3.3 INMARSAT-M 改进 MBE 模型分析算法 图11.3:INMARSAT-M 改进 MBE 模型算法框图。 语音信号: 8 k
13、Hz 采样,线性 PCM 编码, 语音样值的最大值定标范围:214-1,215-1 最小值定标范围:-215,-214 需求出改进 MBE 模型参数:基音角频率、V/U判决, 子带谱包络参数(仅考虑幅度谱)。,1. 高通滤波 语音经数字高通滤波器,滤除信号中的直流分量。 高通滤波器的截止频率约 10 Hz,传递函数为: 2. 低通滤波 低通滤波器输出的信号按下式计算: 低通滤波器是 21 阶 FIR 数字滤波器,其系数值列于表11.1。,3. 基音估计 基音估计算法:应保持相邻语音帧基音周期的某种连续性。 基音跟踪算法:在确定当前帧的基音周期时要考虑 相邻的过去帧和将来帧的影响。 图11.4:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 章多带 激励 声码
链接地址:https://www.31doc.com/p-2978910.html