关于多语言及跨语言的语音识别技术叙述.doc
《关于多语言及跨语言的语音识别技术叙述.doc》由会员分享,可在线阅读,更多相关《关于多语言及跨语言的语音识别技术叙述.doc(8页珍藏版)》请在三一文库上搜索。
1、关于多语言及跨语言的语音识别技术叙述在大多数传统的自动语音识别(automaTIc speech recogniTIon,ASR)系统中,不同的语言(方言)是被独立考虑的,一般会对每种语言从零开始训练一个声学模型(acousTIc model,AM)。这引入了几个问题。第一,从零开始为一种语言训练一个声学模型需要大量人工标注的数据,这些数据不仅代价高昂,而且需要很多时间来获得。这还导致了资料丰富和资料匮乏的语言之间声学模型质量间的可观差异。这是因为对于资料匮乏的语言来说,只有低复杂度的小模型能够被估计出来。大量标注的训练数据对那些低流量和新发布的难以获得大量有代表性的语料的语言来说也是不可避免
2、的瓶颈。第二,为每种语言独立训练一个 AM 增加了累计训练时间。这在基于 DNN 的 ASR 系统中尤为明显,因为就像在第7章中所描述的那样,由于 DNN 的参数量以及所使用的反向传播(backpropagaTIon,BP)算法,训练DNN要显著慢于训练混合高斯模型(Gaussian mixture models,GMM)。第三,为每种语言构建分开的语言模型阻碍了平滑的识别,并且增加了识别混合语言语音的代价。为了有效且快速地为大量语言训练精确的声学模型,减少声学模型的训练代价,以及支持混合语言的语音识别(这是至关重要的新的应用场景,例如,在香港,英语词汇经常会插入中文短语中),研究界对构建多语
3、言 ASR 系统以及重用多语言资源的兴趣正在不断增加。尽管资源限制(有标注的数据和计算能力两方面)是研究多语言 ASR 问题的一个实践上的原因,但这并不是唯一原因。通过对这些技术进行研究和工程化,我们同样可以增强对所使用的算法的理解以及对不同语言间关系的理解。目前已经有很多研究多语言和跨语言 ASR 的工作(例如 265, 431)。在本章中,我们只集中讨论那些使用了神经网络的工作。我们将在下面几节中讨论多种不同结构的基于DNN的多语言ASR(multilingualASR)系统。这些系统都有同一个核心思想:一个DNN的隐藏层可以被视为特征提取器的层叠,而只有输出层直接对应我们感兴趣的类别,就
4、像第9章所阐述的那样。这些特征提取器可以跨多种语言享,采用来自多种语言的数据联合训练,并迁移到新的(并且通常是资源匮乏的)语言。通过把共享的隐藏层迁移到一个新的语言,我们可以降低数据量的需求,而不必从零训练整个巨大的DNN,因为只有特定语言的输出层的权重需要被重新训练。12.2.1 基于Tandem或瓶颈特征的跨语言语音识别大多数使用神经网络进行多语言和跨语言声学建模(multilingual and crosslingual acoustic modeling)的早期研究工作都集中在 Tandem 和瓶颈特征方法上318, 326, 356, 383, 384。直到文献 73, 359 问世
5、以后,DNN-HMM 混合系统才成为大词汇连续语音识别(large vocabulary continuous speech recognition,LVCSR)声学模型的一个重要选项。如第10章中所述的,在 Tandem 或瓶颈特征方法中,神经网络可以用来进行单音素状态或三音素状态的分类,而这些神经网络的输出或隐藏层激励可以用作 GMM-HMM 声学模型的鉴别性特征。由于神经网络的隐藏层和输出层都包含有对某个语言中音素状态进行分类的信息,并且不同的语言存在共享相似音素的现象,我们就有可能使用为一种语言(称为源语言)训练的神经网络中提取的Tandem或瓶颈特征来识别另一种语言(称为目标语言)。
6、实验显示出当目标语言的有标注的数据很少时,这些迁移的特征能够获得一个更具有竞争力的目标语言的基线。用于提取Tandem或瓶颈特征的神经网路可以由多种语言训练384,在训练中为每种语言使用一个不同的输出层(对应于上下文无关的音素),类似于图12.2所示。另外,多个神经网络可分别由不同的特征训练,例如,一个使用感知线性预测特征(PLP)184,而其他的使用频域线性预测特征(frequency domain linear prediction or FDLP15)。 提取自这些神经网络的特征可被合并来进一步提高识别正确率。图 12.2 共享隐层的多语言深度神经网络的结构(Huang 等204 中有相
7、似的图)基于 Tandem 或瓶颈特征的方法主要用于跨语言 ASR 来提升数据资源匮乏的语言的ASR 性能。它们很少用于多语言 ASR。这是因为,即使使用同一个神经网络提取Tandem 或瓶颈特征,仍然常常需要为每种语言准备一个完全不同的 GMM-HMM 系 统。然而这个限制在多种语言共享相同的音素集(或者上下文相关的音素状态)以及决策树的情况下,就可能被移除,就像 265 中所做的那样。共享的音素集可以由领域知识确定,比如使用国际音素字母表(international phonetic alphabet,IPA)14,或者通过数据驱动的方法,比如计算不同语言单音素和三音素状态间的距离431。
8、12.2.2 共享隐层的多语言深度神经网络多语言和跨语言的自动语音识别可以通过 CD-DNN-HMM 框架轻松实现。图12.2描述了用于多语言 ASR 的结构。在文献 204 中,这种结构被称为共享隐层的多语言深度神经网络(SHL-MDNN)。因为输入层和隐层被所有的语言所共享,所以 SHL- MDNN 可以用这种结构进行识别。但是输出层并不被共享,而是每种语言有自己的 softmax 层来估计聚类后状态(绑定的三音素状态)的后验概率。相同的结构也在文献 153, 180 中独立地提出。注意,这种结构中的共享隐层可以被认为是一种通用的特征变换或一种特殊的通用前端。就像在单语言的 CD-DNN-
9、HMM 系统中一样,SHL-MDNN 的输入是一个较长的上下文相关的声学特征窗。但是,因为共享隐层被很多语言共用,所以一些语言相关的特征变换(如HLDA)是无法使用的。幸运的是,这种限制并不影响 SHL-MDNN 的性能,因为如第9章中所述,任何线性变换都可以被 DNN 所包含。图 12.2中描述的 SHL-MDNN 是一种特殊的多任务学习方式55,它等价于采用共享的特征表示来进行并行的多任务学习。有几个原因使得多任务学习比 DNN 学习更有利。第一,通过找寻被所有任务支持的局部最优点,多任务学习在特征表达上更具有通用性。第二,它可以缓解过拟合的问题,因为采用多个语言的数据可以更可靠地估计共享
10、隐层(特征变换),这一点对资源匮乏的任务尤其有帮助。第三,它有助于并行地学习特征。第四,它有助于提升模型的泛化能力,因为现在的模型训练是包含了来自多个数据集的噪声。虽然 SHL-MDNN 有这些好处,但如果我们不能正确训练 SHL-MDNN,也不能得到这些好处。成功训练 SHL-MDNN 的关键是同时训练所有语言的模型。当使用整批数据训练,如 L-BFGS 或 Hessian free280 算法时,这是很容易做到的,因为在每次模型更新中所有的数据都能被用到。但是,如果使用基于小批量数据的随机梯度下降(SGD)训练算法时,最好是在每个小批量块中都包含所有语言的训练数据。这可以通过在将数据提供给
11、 DNN 训练工具前进行随机化,使其包含所有语言的训练音频样本列表的方式高效地实现。在文献 153 中提出了另一种训练方法。在这种方法中,所有的隐层首先用第5章提到的无监督的 DBN 预训练方式训练得到。然后一种语言被选中,随机初始化这种语言对应的 softmax 层,并将其添加到网络中。这个 softmax 层和整个 SHL-MDNN 使用这种语言的数据进行调整。调整之后,softmax层被下一种语言对应的随机初始化的 softmax 代替,并且用那种语言的数据调整网络。这个过程对所有的语言不断重复。这种语言序列训练方式的一个可能的问题是它会导致有偏差的估计,并且与同时训练相比,性能会下降。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 语言 语音 识别 技术 叙述
链接地址:https://www.31doc.com/p-3388219.html