《自然语言处理技术》——实训16 提取MFCC特征.docx

资源ID：591408 资源大小：27.08KB 全文页数：5页
资源格式： DOCX 下载积分：5元

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要5元

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

《自然语言处理技术》——实训16 提取MFCC特征.docx

1、项目5初识语音数据加工处理提取MFCC特征1实训目标(1) 掌握Iibrosa库提取MFCC特征的流程。(2) 掌握通过librosa.feature中的mfcc函数实现MFCC特征提取。(3) 熟练掌握使用Matplotlib库对MFCC特征进行可视化展示。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3

2、3.0主要用于数据可视化PaddlePaddle2.4.2是一个深度学习框架，提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号，是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包，可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包，可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明在语音信号中，包含着非

3、常丰富的特征参数，各种不同的特征向量代表了不同的物理和声学属性。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,那么将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响，减少后续识别阶段需处理的数据量，生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途，需要提取不同的特征参数，从而保证识别的准确率。梅尔频率倒谱系数(MelFrequencycepstralCoefficients,MFCC)是一种常用的语音特征，模拟了人耳对声音的感知特性。梅尔频率倒谱系数考虑了人类听觉系统的非线性特性,使得提取到的特征更符合人类的语音感知。

4、MFCC在语音识别、说话人识别、情感识别等领域中有广泛应用。由于其良好的性能和较低的计算复杂度，使得MFeC成为了这些领域中的基本特征。许多研究工作都是基于MFeC特征进行的，如自动语音识别、说话人验证等。本实训将基于实训15预处理后的语音数据，提取MFCC特征，其流程如图3-1所示。MFCC特征提取一可视化展示图3-1提取MFCC特征流程4实训步骤4.1MFCC特征提取在Python中，可以使用Iibrosa库提取MFCC特征，如代码4-1所示。代码4-1提取MFCC特征#定义参数n_mfcc=20#提取的MFCC特征数量n_fft=2048#FFT窗口大小hopjength=512#帧移#

5、提取MFCC特征mfccs=librosa.feature.mfcc(y=audio_data_louder,sr=sampling_rate,n_mfcc=n_mfcc,hop_length=hop_length)在代码4-1中，使用到IibroSa.feature中的mfcc函数提取MFCC特征数量，其中mfcc函数的常用参数说明如表4-1所示。表4-1mfcc函数的常用参数说明参数名称参数说明y接收数组，表示原始音频信号。默认为Nonesr接收int,表示音频采样率。默认为22050n_mfcc接收int,表示返回的MFCC数量。默认为20n_fft接收int,表示计算STFT时的FFT

6、窗口大小，以音频样本数为单位。默认为2048hopjength接收int,表示当计算音频信号时，帧之间的跳跃量，以音频样本数为单位。默认为5124.2可视化展示为了直观地显示音频数据的MFCC特征，对提取的MFCC特征进行可视化，如代码4-2所示。代码4-2MFCC特征可视化importmatplotlib.pyplotaspit#显示MFCC特征plt.imshow(mfccs,CmaP=cool,interpolation=nearest,aspect=auto)plt.title(MFCC特征)pltxlabel(帧)plt.ylabel(MFCC系数Vplt.colorbar()plt

7、show()运行代码4-2,可以得到MFCC特征的热力图，如图4-1所示。0.015.017.5然怅。OLL.WMFCC特征0100200300400500帧-200-250图4-1MFCC特征热力图MFCC特征的热力图是一种可视化表示方法，通常用于展示音频信号的频谱信息和特征在时间和频率上的变化。热力图的每一行代表一个MFeC系数，每一列代表音频信号的时间片段，而每个像素点则表示该时间片段中相应MFCC系数的强度或权重。不同颜色的像素点表示不同的权重或强度，颜色越深表示权重或强度越大。通过观察MFeC特征的热力图，可以更加直观地了解音频信号在时间和频域上的变化情况，同时也可以识别出某些重要的音频特征，如音调、语速和声音强度等。5实训小结技术点自评达标未达标能够通过librosa.feature中的mfcc函数实现MFCC特征提取能够使用可视化库绘制MFCC特征的热力图心得体会（如遇到的问题及解决方法、存在的不足之处等）：

注意事项: 本文（《自然语言处理技术》——实训16 提取MFCC特征.docx）为本站会员（极速器）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！