基于光谱图利用CNN进行音频处理效果不佳的原因.doc
《基于光谱图利用CNN进行音频处理效果不佳的原因.doc》由会员分享,可在线阅读,更多相关《基于光谱图利用CNN进行音频处理效果不佳的原因.doc(4页珍藏版)》请在三一文库上搜索。
1、基于光谱图利用CNN进行音频处理效果不佳的原因编者按:Kanda机器学习工程师Daniel Rothmann分析了基于光谱图利用CNN进行音频处理效果不佳的原因。图片来源:Jack Hamilton近几年来,基于神经网络生成、处理图像方面有很多伟大的成果。这部分归功于深度CNN在捕捉、转换图像的高层信息上的强大表现。一个知名的例子是L. Gatys等提出的使用CNN转换图像风格的方法,该方法能够以不同的风格渲染图像的语义内容。Y. Li等很好地解释了神经风格迁移的过程:“该方法使用CNN不同层的神经激活组成的格拉姆矩阵表示图像的艺术风格。接着使用迭代优化方法,通过神经激活匹配内容图像,格拉姆矩
2、阵匹配风格图像,从白噪声生成新图像。”简单地说,根据源内容图像和风格图像在不同抽象水平上的特征组合生成图像,得到了这些结果。例如,保持内容图像的高层结构和轮廓,纳入风格图像的颜色和低层纹理。图片来源:L. Gatys等视觉处理领域风格迁移的表现相当令人印象深刻,所以人们很自然地想到利用CNN优化“更智能”的音频处理算法,例如,使用CNN分析和处理音频的光谱。将光谱作为图像处理,并基于CNN进行神经风格迁移,这是可以做到的,但到目前为止,我们得到的结果远远不能和视觉图像相比。为了克服这一挑战,在神经音频处理上得到更好的结果,我们也许需要考虑下为什么基于CNN的风格迁移在光谱上的表现不佳。这些技术
3、基本上是通过应用机器视觉来进行机器听觉任务。我相信这带来了一个本质问题,可能阻碍了AI辅助技术在音频处理上的进展。尽管这个问题无疑可以从许多角度考虑,探索下图像和光谱的区别,还有视觉和听觉的一些不同,也许是值得的。声音是“透明的”通过比较视觉图像和光谱,我们可以发现视觉物体和声音事件积聚的方式不同。用视觉来类比,声音总是“透明的”而大多数视觉物体是不透明的。遇到图像中某一颜色的像素时,大多数情况下我们都可以假定它属于单个物体,而不同的声音事件在光谱图上并不分层。这意味着,我们不能假定光谱图中观察到的某一具体频率属于单个声音,因为该频率的幅度可能是任意数目的声音累加所得,甚至是相位相抵这样的声波
4、间的复杂交互。所以,在光谱表示中,区分同时发生的声音很难。上图展示了三个光谱分析的困难场景。左:相似的音调导致频率上不均匀的相位相抵。中:难以分离音高相似的同时发生的嗓音。右:噪杂、复杂的声音场景,使得区分声音事件特别困难。光谱的轴携带不同的含义用于图像的CNN使用在x和y维度共享权重的二维过滤器4。如前所述,这一切建立在图像的特征携带的含义与其位置无关这一假定上。例如,不管图像中的人脸是横向的,还是纵向的,它始终是一张人脸。而光谱图的两个维度表示根本不同的单位,一个是频率的强度,另一个是时间。横向移动声音事件意味着它在时间上的位置发生了偏移,可以主张,不管它是何时发生的,一个声音事件都意味着
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 光谱 图利 CNN 进行 音频 处理 效果 不佳 原因
链接地址:https://www.31doc.com/p-3416894.html