欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第3章语音信号的模型.ppt

    • 资源ID:2987032       资源大小:907.52KB        全文页数:41页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第3章语音信号的模型.ppt

    第3章 语音信号的模型 语音模型化,便于数字处理。 对模型的要求:精确描述语音产生过程、尽可能地简单, 便于处理和实现。 已提出许多种不同的语音信号模型。 线性模型:广泛使用级联无损声管模型和共振峰模型。 理论基础:发音过程中声道处于运动状态,这种运动与语音信号相比变化缓慢,故可用时变的线性系统来模拟。 更精细分析时,发现语音中也存在较大的非线性现象, 某些应用需考虑这些因素对所研究问题的影响。 非线性模型:有多种,调频-调幅模型受到广泛关注。 本章讨论:级联无损声管模型、共振峰模型、调频-调幅模型,第3章 语音信号的模型 3.1 声在声管中的传播特性 物理学的定律是描述声道中声音的产生和传播的基础。 包括:质量守恒、动量守恒、能量守恒的基本定律, 热力学、流体力学的定律等。 空气是一种流体,也是声音赖以传播的介质。 应用物理原理,可得描述发音系统中空气运动偏微分方程组。 精确的方程表达和求解都是极端困难的,需简化假设条件。 因周密的声学理论必须考虑以下各种影响: (1)声道形状的时变性质;(2)声道壁的热传导和粘滞摩擦损耗; (3)声音在嘴唇处的辐射;(4)声道壁的柔度; (5)鼻腔的耦合; (6)声道中的激励。 目前,没有全面考虑各因素影响的声学理论, 应用中对这些因素给出适当的说明或者给出定性的讨论。,图3.1:语音产生过程的最简单的物理模型。 假设:声道被看成是不均匀截面的声管; 沿管轴传播的声波是平面波; 在流体中或管壁上不存在热传导和粘滞损耗。 根据假设及守恒定律,Portnoff证明声波满足偏微分方程组: 式中,p, u 为声管内 x 位置处 t 时刻的 声压和体积速度,p=p(x,t),u=u(x,t) ; A 为声管内 x 位置处 t 时刻的管的横截面面积,A=A(x,t) ; 为声管内空气的密度; c为声的传播速度(空气中声速340m/s)。,给定声管的边界条件和面积函数后,可求得方程组的闭式解。 解的表达式非常复杂,但可以采用数值解。 应用中,某一特定时刻,面积函数可看成不随时间变化。 可借助于各种合理的近似和简化来使方程的求解成为可能。 并由此得到语音信号的模型(后续讨论该问题)。 声管中声传播特性与传输线中电流传播特性有很强的类比关系。 表3.1:声学量与电学量之间的类比关系。,第3章 语音信号的模型 3.2 语音信号的无损声管模型 无损声管模型(行波型模型):由多个不同截面积的无损耗 管子串联而成的系统。是最简单的声道模型。 图3.2:10级的无损声管级联模型。 语音信号的某一“短时”期间,声道可表示为形状稳定的管道。 该“短时”期间,管截面 A 是常数。偏微分方程以写成: 若第 m 段管子处,A(x,t)=Am,u(x,t)=um, p(x,t)=pm,上式可以写成,解偏微分方程组,得: 式中, lm第 m 节声管的长度; 和 第 m 节声管中的正向行波和反向行波。 在两个不同截面积的声管联接处,行波表达如图3.3。 连续条件:第 m 和 m+1 节声管 联接处的声压和体积速度连续。 设第m节声管左端点为坐标0点, 右端点为lm ,则有,重要表达式,后续求解要用到!,令声波通过长为 lm 的第 m 节声管需要的时间为 , 由上页两式,得: 解得: 式中 km第m节节点的反射系数; km是 在节点处 反射回波 的倍数。 图3.4:两级声管的流图。,3.2.1 嘴唇端 N 段无损声管,声门处为第一段,嘴唇处为第 N 段。 声学理论:嘴唇处的声压和体积速度间存在正弦稳态关系,即 式中,ZL嘴唇处的辐射阻抗,或辐射负载。 假定ZL()=ZL是实数,令N=LN/c,联立上式和8页偏微分方程 组的解,得: 即: 式中,kL嘴唇处的反射系数, 嘴唇处的体积速度为: 图3.5:级联无损声管在嘴唇处的流图。,该式与电学的欧姆定律相对应 (声压对应电压,体积速度对应电流),3.2.2 声门端 声门可以看成是控制送入声道气流的阻碍。 电模拟:声门处存在一个内阻抗(感性阻抗), 阻抗值为声门处声压与气流体积速度之比, 即:ZG=RG+j LG, RG和LG是常数。 图3.6:声门端的电模拟图。由图得: 式中,U1(0,) 声门处的体积速度u1(0,t)的Laplace变换; P1(0,) 声门处的声压p1(0,t)的Laplace变换; UG () 等效体积速度源uG(t)的Laplace变换。,如果ZG是实数,令m=1, x=0, 则由上页式和 8 页偏微分方程组的解,有: 解得: 式中 kG声门处的反射系数, 图3.7:声门端级联无损声管的流图。,将两级声管级联、声门端和嘴唇端与声管级联的结果合成, 可以画出基于声管理论的整个流图。 图3.8:无损声管模型图。 图3.8是无损条件下的结果; 若考虑空气与管壁间的摩擦、穿过管壁的热传导以及管壁振动等损耗,也可以解出前述方程式(结果复杂,不再赘述)。 管壁振动的影响最大,使低频端谐振频率提高; 其它两种损耗的影响较少;两者的净影响只是使低端的 谐振频率比刚性无损声管壁模型的情况稍有上移。,例:图3.9的两级无损声管的流图, 在嘴唇处的体积速度为 uL(t) = uL(lL,t) , 系统的频率响应为 令 s=j ,代入上式得该系统的系统函数为:,第3章 语音信号的模型 3.3 级联无损声管与数字滤波器的关系 工程上常将声道用 10 级等长无损声管的级联模型来表征。 每节声管长度均为x,x =c=l/N l 10 级声管总长度, 一节声管中声传播时间。 声门处加单位冲激序列uG=(t),冲激沿声管传播, 在节点处,一部分被反射,另一部分继续传播。 分析传播过程: (1) 声波无反射,直接到达嘴唇的幅度叠加为0,时延为N, 则嘴唇处的单位冲激为:0(t -N) ; (2) 一次反射的冲激到达嘴唇处多延迟2,幅度叠加为1, 则嘴唇处的单位冲激为:1(t -N -2) ; (3) 某一节两次反射,或某两节各一次反射,延迟为2×2, 幅度叠加为2,则嘴唇处的单位冲激为:2(t -N -2×2) 。,依此分析,无损声管级联系统的冲激响应及Laplace变换为: 式中,e-Ns传播 N 段管子所需的延迟时间, 如果设: 其频率响应为: 于是: 由上式看出,若系统输入是频带有限信号,即/T , 且取样周期T=2 ,则上述系统和下面的离散系统等效: 式中,n1, n 0,n 取正整数。,对式 作 z 变换: 令 z=esT,s=j,T=2,则 与 等价, 即: 此时,n = m, 即等长无损声管级联系统完全可以用一个取样间隔为2, 系数为m的FIR滤波器非递归的方法实现(应取有限项), 理论上证明声道可以用数字滤波器模拟。,延迟N 相当于N /T= N /2 =N/2的取样, 延迟 相当于位移 /T= /2 = 1/2 个样本。 图3.9两级无损声管节点信号流 图画成两级等长无损声管流图 (图3.10); 每个延迟 用z-1/2代替,可得到 等效的离散系统流图(图3.11)。 将图3.11中的4个z-1/2用z-1代替, 输出端再乘以z就构成等效的 数字滤波器流图(图3.12)。,分析:每个节点处都需要计算图3.13(a)的流图。计算式为 计算量:4次乘法,3次加法。 将上式改写为(流图为图3.13(b)) : 计算量:2次乘法,4次加法。 将上式改写为(流图为图3.13(c)) : 计算量:1次乘法,3次加法。 结论:改变算法结构,计算量不同。,第3章 语音信号的模型 3.4 无损声管模型的传输函数 推导无损声管模型的传输函数V(z) : 式中,UL(z)和UG(z)嘴唇处uL(n)和声门处uG(n)的 z 变换。 考虑无损声管模型一个节点处的 z 变换关系,如图3.14所示, 其 z 变换方程为(m = 1,2,N-1): 解得:,定义, , , 上页解改写成: 为简化结果,把嘴唇处的边界条件表示成统一的形式。 令UN+1(z)为假想的第 N+1 节声管输入的 z 变换。 设想这个声管无限长,因此第 N+1 节管子中无反向波, 或者等效地看成第 N+1 个声管的终端接有特性阻抗, 可得 : 或,重要的解表达式,后续推导要用到。递推使用可得出声管模型的完整解。,该式要代入递推式 中,以求出完整解。,如果 AN+1=c/ZL,AN=ZL,由嘴唇端的方程式,得 利用上页两式,则第一节声管输入处的变量可表示为: 按照图3.7,可得声门处的解为: 结合以上两式和上页最后一式,推导出下式:,由上式可导出,N 级声管传输函数为: 其中, 展开上式,用多项式表示为: 由此看出,无损声管模型的传输函数只有极点没有零点。 极点对应于无损声管的共振峰。 假定在声门处,kG=1,zG=,可以导出计算 D(z) 的递推公式。 (见下页),先定义: 其中, 。 同理,按照定义: 其中, 。 利用归纳法,得: 其中, 。,最后可得: 于是,计算 D(z) 的递推公式如下: 无损声管节数的选择:取决于语音信号的取样频率。 推导关系式:由前面知,取样周期 T =2, 是一段声管中声波单向传播所需要的时间。 若声管为 N 节,而总长为 l ,且每段长度相同, 则=l/Nc,解得 N = l/c=2l/Tc。 例:当1/T = 10 kHz,l = 17 cm,c = 340 m/s,则 N = 10, 即需要10节无损声管级联。,第3章 语音信号的模型 3.5 语音信号的数字模型 语音信号的数字模型:利用数字技术来模拟语音信号的产生。 一种实现发音器官的模拟的技术。 数字模型应能产生与语音声波相对应的信号序列。 通常,这种模型是一种线性系统,用一组模型参数可表征语音,并可使模型系统的输出所希望的语音。 系统的模型参数与语音产生过程有关,常采用离散时间模型。 激励与声道的面积函数在10 20 ms的时间范围内近似不变。 浊音为准周期脉冲激励;清音为随机噪声激励。 因此,语音信号的数字模型是一个缓变的线性系统, 线性系统的参数在10 20 ms时间范围内近似不变。,利用 N 节无损声管来模拟声道,已证明其传输函数为: 其中, 声道系统用一组面积函数 A(x) 或一组反射系数 km 来表示。 在一帧内,A(x) 或 km 近似不变。 另外,若有一数字系统,其系统函数表示为 : 若取 ,(1)(2)两式性质相当; 注意,此处省略了固定延迟 z-0.5N。 上述系统函数仅有极点,没有零点,称为全极点模型。 除声道响应以外,完整模型还包括激励函数和声辐射的影响。,系统函数 V(z) 的极点对应于语音的共振峰。 对于大多数语音,全极点模型能很好地模拟声道的特性。 声学理论表明鼻音和摩擦音有谐振和反谐振特性, 需要用零极点模型才能更好地模拟声道效应。 零点较难处理,常用全极点模型代替零极点模型。 逼近零点:用多个极点。 原理: V(z) 的分母多项式的根是实数或复共轭; 声道的典型复谐振频率为: 复共轭极点相应的时域离散表示为: 复共轭极点的幅值和相角为:,图3.15:声道谐振点的平面图。 声道谐振的带宽近似为 2k , 中心频率为 2Fk 。 z 平面原极点的距离 决定带宽; 相角2FkT决定中心频率。 结论:将 V(z) 的分母进行因式分解, 相应的模拟共振峰频率和带宽可以利用下式求出。 人类声道的复自然频率都在s平面的左半平面。 因系统是稳定的,所以,k 0,zk 1。 即:离散时域模型的极点必在单位圆内,由稳定性所要求。,利用数字滤波器的各种实现方法可以实现声道的时变滤波器。 时变数字滤波器的系数是随时间缓变,10 20 ms内不变。 例:用直接形式来实现,如图3.16。 也可以用二阶系统的级联来实现 V(z),即: ,其中, 式中,M 为 (N+1)/2的整数部分。 图3.17:上式的实现级联流图(特点是硬件可时分复用,对参数变化较 敏感,没有并联形式好)。,以上讨论了声道的数字模型, 下面分别讨论在嘴唇和声门处的数字模型。 嘴唇处的数字模型: 根据式 , 嘴唇处的声压、体积速度与辐射阻抗的关系式及 z 变换为: 由于的实部随频率增高而增高,故上式是一种高通滤波运算, 可以证明嘴唇辐射的影响可表示为:,声门处激励的数字模型: 语音分成清音和浊音,清音由随机噪声激励产生 浊音由准周期脉冲串激励产生,其周期称为基音周期。 图3.18:浊音情况下,激励信号的产生示意图。 冲激串发生器输出的单位冲激序列(冲激间隔为基音周期)。 线性激励系统函数为G(z),经幅度控制后输出为浊音激励。 G(z) 的反变换 g(n) 可以用Rosenberg函数近似表示: 式中,N1 斜三角波上升部分的时间,约占基音周期的50; N2 斜三角波下降部分的时间,约占基音周期的35。,斜三角波的占时比例关系与声带开启面积的与时间关系对应。 图3.19:单斜三角波波形及频谱。 是低通滤波器。 其 z 变换的全极点(二极点)模型: 式中,C 是一个常数。 斜三角波串可看成加权单位脉冲 激励单斜三角波模型的结果。 Av是单位脉冲串的幅度因子; 单位脉冲串的z 变换为: 完整的激励模型为:,清音情况下,发塞音或摩擦音,声道被阻形成湍流。 激励可模拟成随机白噪声, 用均值为0、方差为1,时间或/和幅值为白色分布的序列。 图3.20:考虑所有的激励因素,语音产生的数字模型。 特点:二元激励,浊音、清音激励交替进行。 声道可以用多种滤波器来模拟, 通常,把辐射和声道等因素全部结合,表示为全极点函数:,结论: 优点:该模型对大多数语音是一个好模型, 能合成出较满意的语音,是分析语音最重要的基础。 缺点:二元激励模型有局限性。 模型建立“短时”平衡为前提,不完全符合实际; 理论上鼻音和擦音需有零点, 浊擦音不是简单的浊音和清音的叠加。 该模型不能给出模拟。,第3章 语音信号的模型 3.6 语音信号的共振峰模型 将声道看成为谐振腔,共振峰是该腔体的谐振频率。 柯蒂氏器官的纤毛细胞按频率感受排列,故共振峰模型有效。 实践证明:元音用前 3 个共振峰。 辅音或鼻音,用到 5 个以上的共振峰。 应用物理学,易推导出均匀断面声管的共振峰频率。 例:成人声道约为17.5 cm, 可计算出:f1 = 500 Hz,f2 = 1500 Hz,f3 = 2500 Hz。 发e时声道最接近均匀断面,其共振峰最接近上述值。 从语音信号求出共振峰频率、带宽和幅度的方法是重要的。 三种实用的共振峰模型:级联型、并联型、混合型。,3.6.1 级联型共振峰模型 级联型共振峰模型认为声道是一组串联的二阶谐振器。 声道有多个谐振频率和反谐振频率,可模拟为零极点模型。 一般元音,使用全极点模型,其传输函数如下: 式中,N 极点个数; , G 幅值因子; ak 多项式系数。 可将传输函数分解为多个二阶极点的网络的串联,即: 式中, M 是 (N+1)/2 的整数部分。,第 k 个极点zk为 ,T 是取样周期,是带宽的 1/2。 取上式中的某一级,设为: 则其幅频特性及其流图如图3.21所示。 图3.22:级联型共振峰模型(取N =10,则M = 5)。 激励模型和辐射模型参照前述的结果,G 是幅值因子。,3.6.2 并联型共振峰模型 非一般元音和大部分辅音,必须考虑零极点模型。 零极点模型传输函数 V(z) 为:(分子与分母无公因子及分母无重根) 后面的等式是并联型共振峰模型,图3.23是M = 5时的示例。,3.6.3 混合型共振峰模型 级联型简单,可描述一般元音。级数取决于声道长度,取35级 鼻音、塞音或摩擦音时,级联模型不能胜任。 采用并联型可解决其不足。它比级联型复杂些。 混合型:级联型与并联型相混合。一种较完备共振峰模型。 图3.24:混合型共振峰模型。,第3章 语音信号的模型 3.7 语音信号的非线性模型 (略),谢 谢!,

    注意事项

    本文(第3章语音信号的模型.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开