研究语音识别技术必知的声学特征.pdf

资源ID：4515856 资源大小：67.42KB 全文页数：8页
资源格式： PDF 下载积分：4元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

研究语音识别技术必知的声学特征.pdf

1 / 8 研究语音识别技术必知的声学特征祁慧慧 |创建时间： 2018 年 07月 27日 16:13|浏览： 160|评论： 0 标签： b5E2RGbCAP 【导读】语音声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。本文详细介绍了语音识别技术研究者必知的声学特征。语音识别技术中，声学特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100 之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本、性能、响应时间、计算量等。因此，掌握语音识别常用声学特征是每一个语音识别技术研究者必备的专业技能之一。线性预测系数LPC 线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS ，即可得到线性预测系数LPC 。对 LPC 的计算方法有自相关法基于 LPC的倒谱参数； (2Mel 系数的倒谱参数； (3采用前沿数字信号处理技术的特征分析手段，如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法，提取出的特征值存入参考模式库中，用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分，由待识别人的语音经过特征提取后，与系统训练时产生的模板进行匹配，在说话人辨认中，取与待识别语音相似度最大的模型所对应的语音作为识别结果，这就是语音识别的整个过程。语音识别技术从应用类分为特定人语音识别和非特定人语音识别。特定人语音识别技术是针对指定人的语音识别，其他人的话玩具不识别，应用模式是使用前需要指定人的语音训练过程，一般按照玩具提示训练2 遍语音词条，然后就可以使用了；非特定人语音识别是不用针对指定的人的识别技术，不分年龄，性别，只要说相同语言就可以，应用模式是在产品定型前按照确定的十几个语音交互词条，采集200 人左右的声音样本，经过我们的PC算法处理得到交互词条的语音模型和特征数据库，然后烧录到我们的芯片上，应用我们芯片的玩具就具有交互的功能了。非特定人语音识别应用有的是基于音素的算法，这种模式下不需要采集很多人的声音样本，就可以做交互识别，但是缺点是识别率不高，识别性能不稳定。在 PC领域， Microsoft的 Word软件就有语音识别技术，但我们的语音识别芯片SR160X与 PC相比，具有自己的特点：首先，它是一个完整的语音识别系统，除了识别外还具备语音提示及语音回放等功能；其次，嵌入式语音识别系统具有体积小，可靠性高，功耗低，价格低，易于商品化，应用于玩具领域技术已经非常成熟。嵌入式语音识别系统的特点使得其应用领域十分广泛，可以做玩具、礼品、学习机、消费类产品控制。文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。语音识别系统的声学建模：隐马尔可夫模型 2. 可观测状态 O 在模型中与隐含状态相关联，可通过直接观测而得到。( 例如 O1 、O2 、O3等等，可观测状态的数目不一定要和隐含状态的数目一致。） 3. 初始状态概率矩阵表示隐含状态在初始时刻t=1 的概率矩阵，( 例如 t=1 时， P(S1=p1、P(S2=P2、 P(S3=p3，则初始状态概率矩阵= p1 p2 p3 . 4. 隐含状态转移概率矩阵 A 描述了 HMM 模型中各个状态之间的转移概率。其中 Aij = P( Sj | Si ,1i,jN. 表示在 t 时刻、状态为 Si 的条件下，在 t+1 时刻状态是 Sj 的概率。 5. 观测状态转移概率矩阵 B 4 / 8 , 1i M,1j N. 表示在 t 时刻、隐含状态是 Sj 条件下，观察状态为 Oi 的概率。【总结】一般的，可以用=(A,B, 三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展，添加了可观测状态集合和这些状态与隐含状态之间的概率关系。文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。浅析嵌入式语音识别系统的工作原理祁慧慧 |创建时间： 2018 年 07月 19日 13:35|浏览： 101|评论： 0 标签： RTCrpUDGiT 【导读】嵌入式语音识别系统的语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取，本文简要介绍了语音信号特征提取的三个基本要素和识别结果的获取方法。嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理，包括语音信号的采样、反混叠滤波、语音增强，接下来是特征提取提取的特征参数能有效地代表语音特征，具有很好的区分性； (2各阶参数之间有良好的独立性； (3特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。特征提取之后的数据一般分为两个步骤：第一步是系统“学习”或“训练”阶段，这一阶段的任务是构建参考模式库，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。第二步是“识别”或“测试”阶段，按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。语音芯片常用音乐格式有哪些？祁慧慧 |创建时间： 2018 年 07月 15日 13:39|浏览： 154|评论： 0 标签： 5PCzVD7HxA 【导读】语音芯片常用语音格式有：PCM 格式、 RAW 格式、 SND格式、 ADPCM 格式、 MP3格式、 Linear Scale 格式、 Logpcm格式。本文详细介绍了各种语音格式的原理及特点，希望借此帮助大家更好的理解语音芯片。 PCM 格式： Pulse Code Modulation 脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。同它极为类似的还有RAW 格式和 SND格式。它们都是纯语音格 5 / 8 式。 WAV 格式：Wave Audio Files 是微软公司开发的一种声音文件格式，也叫波形声音文件，被 Windows 平台及其应用程序广泛支持。WAV 格式支持许多压缩算法，支持多种音频位数、采样频率和声道，但 WAV 格式对存储空间需求太大不便于交流和传播。WAV 文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据，这些数据包括采样频率和位数，单声道(mono 还是立体声 (stero 等。 ADPCM 格式：是利用对过去的几个抽样值来预测当前输入的样值，并使其具有自适应的预测功能与实际检测值进行比较，随时对测得的差值自动进行量化级差的处理，使之始终保持与信号同步变化。它适用于语音变化率适中的情况，而且声音回放过程简短。它的优点是对于人声的处理比较逼真，一般达到 90% 以上，已广泛地应用于电话通信领域。 MP3格式： Moving Picture Experts Group Audio Layer III，简称为MP3 。它是利用 MPEG Audio Layer 3 的技术，采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的 mp3文件，并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是 vbr ，但是在语音芯片的大类型中，又被分为语音IC( 这里应该叫成Speech IC 和音乐 IC(Music IC两种。目前，中国语音芯片的生产及研发主要集中在广东省。什么是语音芯片？语音芯片定义：将语音信号通过采样转化为数字，存储在IC 的 ROM 中，再通过电路将ROM 中的数字还原成语音信号。 6 / 8 根据语音芯片的输出方式分为两大类：一种是 PWM(Pulse Width Modulation，脉冲宽度调制输出方式，一种是DAC(Digital Analog Change，数模转换输出方式。 PWM 输出音量不可联系可调，不能接普通功放，目前市面上大多数语音芯片是 PWM 输出方式；另外一种是DAC经内部 EQ放大，该语音芯片声音连续可调，可数字控制调节，可外接功放。普通语音芯片放音功能实质上是一个DAC过程，而 ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。录音芯片包括ADC和 DAC两个过程，都是由芯片本身完成的，包括语音数据的采集、分析、压缩、存储、播放等步骤。 ADC=Analog Digital Change 模数转换 DAC= Digital Analog Change 数模转换语音芯片音质的优劣取决于ADC和 DAC位数的多少。例如：SX06040到 SX06680，时间从40 秒到 680 秒不等 ( 根据控制方式取决段落多少。文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。语音识别技术的应用祁慧慧 |创建时间： 2018 年 07月 13日 11:02|浏览： 78|评论： 0 标签： xHAQX74J0X 语音识别技术的应用语音是众多信息载体中具有最大信息容量的信号，具有最高的智能水平，也是人类用来交流的最自然最有效的手段，如果计算机具备了这种语言功能，其智能程度和应用价值将大大增加，但计算机想要语言交流能力，首先必须对语言进行识别和理解。LDAYtRyKfE 语音识别是将人发出的声音，字或短语转换成电信号，然后将电信号转化成赋予相应含义的编码图形，也就是将说出的文字编成一种机器可读的形式，具预测，带有语音功能的计算机将很快成为大众化产品，语音识别将有可能代替键盘和鼠标成为计算机的主要输入手段，使用户界面产生一次飞跃，所以语音识别所具有的商业前景是不言而喻的。 Zzz6ZB2Ltk 语音识别技术应用于需要以语音作为人机交互手段的场合，主要是实现听写和命令控制功能。从技术成熟程度，实际需要及应用面大小等多方面的因素考虑，办公自动化称为优先应用的领域，在办公业务处理中，起草和形成各种书面文件是一个重要内容，但录入是一个很麻烦的事，在有些场合，如移动工作中，人的手和眼都很忙，设备和键盘也变得越来越小，如使用个人通讯中断PDA，使用语言将使计算机的操作变得简单方便，而对于不能做键入动作的残疾人以及医学，法律和其他领域的工作人员，他们不能或不便于用手将信息输入计算机，这些场合下，使用语音操作计算机就越发显得重要。dvzfvkwMI1 7 / 8 电话商业服务是语音识别技术应用的又一个主要领域，基于电话线输入的语音信号识别系统将得到广泛的应用。语音技术的推广一直由于缺乏直接和吸引用户的应用而受助，而计算机和电话的结合已经远程计算平均通话的发展则可能促进语音技术应用的普及。语音拨号电话机，具有语音识别能力的电话定片服务和自动话务转换系统在国外已经由一定程度的应用。淡然对于现代通讯来说麻醉重要的莫过于具有多种语言的口语识别，理解和翻译功能的电话自动翻译系统，唯此才能实现不限地点，不限时间，不限语言的全球性自由通讯。rqyn14ZNXI 目前，计算机领域多媒体技术发展很快，使用媒体产品具有语音识别能力，将称为商业竞争中优先考虑的问题，现在越来越多的功能处理器和先进的软件已经实现把声音和语音功能集成到微机系统中，借助于具有命令识别能力的多媒体操作系统和具有语音识别能力的数据库系统，语音可以命令和控制计算机像代理一样为用户处理各种事务，从而极大的提高用户的工作效率EmxvxOtOco 文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。语音识别系统按照时候别对象，语音识别技术可以分成两大类，说话人的识别和语音内容的识别 1、说话人识别系统特征提取部分：说话人的模型不是由语音信号直接得到的，而是通过从语音信号中提取特征得到的，所以这个模型反映的是说话人语音的特征。训练语言只有在进行语音特征提取后才能得到其特征的模型，待识别语音也只有在经过语音特征提取后才能与说话人的模型进行比较和匹配，提取合适的特征对于识别效果来说是至关重要的SixE2yXPq5 模型训练部分：要求系统能够识别说话人，需要用说话人的语音对系统进行训练。无论识别系统在建立还是在扩展时如需增加或减小系统所等级的人数），对模型的训练都是必要的。6ewMyirQFL 由于说话人的声音常在变化如年龄的增长），因此需要在说话人辨认或说话人证实结果是正确时，用待识别语音对已识别正确的说话人模型进行自适应调整和修正，从而构成自适应说话人识别系统。kavU42VRUs 模型参数存储部分：对模型的训练实际上时用训练语音的特征对模型参数进行估计，估计出的参数就表示说话人的个性特征，应很好的保存下来，以便在说话人识别时用来与待识语音进行匹配。y6v3ALoS89 8 / 8 匹配计算部分：把待识别语音的特征与说话人模型进行匹配，计算匹配距离，说话人证实时，只与所声称的说话人的模型进行匹配的匹配距离据算，说话人辨认时，与所有说话人的模型进行匹配和匹配距离进行计算。M2ub6vSTnP 判决部分：根据匹配距离的最小值来确认说话人到底是谁说话人辨认），根据匹配距离的计算结果是否小于一个规定的法制来判断说话人是否时所声称的说话人说话人证实） 0YujCfmUCw 自适应部分：为提高系统适应说话人特征的长时间变动情况，有些系统设有这一部分，从而能够根据说话人识别的结果对得到正确识别的说话人的模型参数机型实时修正 eUts8ZQVRd 2、语音内容识别系统预处理部分：对模拟语音信号采样，将其离散化，采样周期的选取应根据模拟语音信号的带宽以香农定理确定，以避免信号的频域混叠失真。sQsAEJkW5T 特征参数提取部分：对语音的识别，实际上时对语音特征参数的模式的比较和匹配，语音特征参数的选取对整个识别系统很重要，因此，必须寻找一个既能充分表达元咯爱语音意义而又可以机型相对简单的比较运算的特征参数，并且最好能去掉干扰识别的非本质信息如量化噪音）。语音识别中经常采用的特征参数由线性预测系数，倒频谱系数，平均过零率，短时频谱，共振峰频率及带宽等GMsIasNXkA 模式末班存储本分：在建立识别系统时，完成特征参数提取后，对系统进行训练和聚类，通过训练，系统建立并存储一个改系统需识别字(或音节）的模式模板库，作为识别标准。 TIrRGchYzg 识别判决部分：待识语音信号经过与训练时相同的特征参数提取后，与模式末班存储器中的模式进行匹配计算和比较，并能根据一定的规则进行识别判决，最后输出识别结果。 7EqZcWLZNX 文章为作者独立观点，不代表阿里巴巴以商会友立场。转载此文章须经作者同意，并附上出处及文章链接。申明：所有资料为本人收集整理，仅限个人学习使用，勿做商业用途。

注意事项

本文（研究语音识别技术必知的声学特征.pdf）为本站会员（tbuqq）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。