一种神经语音克隆系统两种方法在自然性和相似性方面表现良好.doc
《一种神经语音克隆系统两种方法在自然性和相似性方面表现良好.doc》由会员分享,可在线阅读,更多相关《一种神经语音克隆系统两种方法在自然性和相似性方面表现良好.doc(3页珍藏版)》请在三一文库上搜索。
1、一种神经语音克隆系统两种方法在自然性和相似性方面表现良好近日,百度研究者发表论文,利用两种方法,只需少量样本就能在几秒钟内合成自然且相似度极高的语音。近些年关于高质量的语音合成方法确实不少,但能在如此短时间内完成的却实属罕见。声音克隆是个性化语音交互领域高度理想化的功能,基于神经网络的语音合成系统已经可以为大量发言者生成高质量语音了。在这篇论文中,百度的研究人员向我们介绍了一种神经语音克隆系统,只需要输入少量的语音样本,就能合成逼真的语音。这里研究了两种方法:说话者适应(speaker adaptation)和说话者编码(speaker encoding),最终结果表明两种方法在语音的自然性和
2、相似性方面都表现良好。由于研究者要从有限且陌生的语音样本中进行语音克隆,这就相当于一个“语音在特定语境下的few-shot生成建模”问题。若样本充足,为任何目标说话者训练生成模型都不在话下。不过,few-shot生成模型虽然听起来很吸引人,但却是个挑战。生成模型需要通过少量的信息学习说话者的特征,然后还要生成全新的语音。语音克隆我们计划设计一个多说话者生成模型(multi-speaker generative model):f(ti,j,si; W,esi),ti表示文本,si表示说话者。模型以W进行参数化,作为编码器和解码器的训练参数。esi是对应到si的可训练说话者嵌入。W和esi均通过最
3、小化损失函数L进行优化,损失函数L对生成音频和真视音频之间的差异进行惩罚。这里S是一组说话者,Tsi是为si准备的文字-音频训练集,ai和j是ti和j的真实音频。期望值是通过所有训练说话者的文本-音频对来估计的。在语音克隆中,实验的目的是从一组克隆音频Ask中提取出sk的声音特征,并且用该声音生成不一样的音频。衡量生成结果的标准有二:看语音是否自然;看生成的语音与原音频是否相似。下图总结了说话者适应和说话者编码两种方法的语音克隆方法:说话者适应运用的是梯度下降原理,利用少数音频和对应的文本对多语音模型进行微调,微调可以用于说话者嵌入或整个模型。而说话者编码的方法是从说话者的音频样本中估计说话者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 神经 语音 克隆 系统 方法 自然 相似性 方面 表现 良好
链接地址:https://www.31doc.com/p-3364780.html