毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计.doc
《毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计.doc(60页珍藏版)》请在三一文库上搜索。
1、内蒙古科技大学 本科生毕业设计说明书(毕业论文) 题 目:利用 HMM 技术实现基于文本相 关的语音识别 学生姓名: 学 号: 专 业:电子信息工程 班 级:信息 2003-4 班 指导教师: 内蒙古科技大学毕业设计说明书(毕业论文) I 摘要摘要 语音识别作为一个交叉学科,具有深远的研究价值。语音识别和语音合成技术 已经成为现代技术发展的一个标志,也是现代计算机技术研究和发展的一个重要领 域。虽然语音识别技术已经取得了一些成就,也有部分产品面世,但是,大多数语 音识别系统仍局限于实验室,远没有达到实用化要求。制约实用化的根本原因可以 归为两类,识别精度和系统复杂度。 HMM是一种用参数表示的
2、用于描述随机过程统计特性的概率模型,它是由马 尔可夫链演变来的,所以它是基于参数模型的统计识别方法。它是一个双重随机过 程具有一定状态数的隐马尔可夫链和显示随机函数集,每个函数都与链中一个 状态相关联。“隐”的过程通过显示过程所产生的观察符号序列来表示,这就是隐 马尔可夫模型。 本文主要介绍了语音识别的预处理,隐马尔可夫模型(Hidden Markov Models,HMM)和语音识别的基础理论和发展方向。对数字 09 的识别进行了 详细的 Matlab 语言实现。 关键词:关键词:HMM;文本相关;语音识别 内蒙古科技大学毕业设计说明书(毕业论文) II Abstract As an int
3、erdisciplinary field, speech recognition is theoretically very valued .Speech recognition has become one of the important research fields and a mark of the development of science. Although speech technology has got some achievements, most speech recognition systems are still limited in lab and would
4、 have problems if migrated from lab which are much far from practicality. The ultimate reasons for restricting practicality can be classified to two kinds, one is precision for recognition and the other is complexity of the system. HMM is one kind expresses with the parameter uses in the description
5、 stochastic process statistical property probabilistic model, it is may the husband chain evolve by Mar, therefore it based on parameter model statistics recognition method. It is a dual stochastic process has the certain condition number to hide type Markov to be possible the husband chain and the
6、demonstration stochastic function collection, each function all a condition is connected with the chain in. Hidden Markov process the observation mark sequence which produces through the demonstration process to indicate that, this is hides type Markov to be possible the husband model. This article
7、mainly introduced the speech recognition pretreatment, hides Mar to be possible the husband model (Hidden Markov Models, HMM) and the speech recognition basic theory and the development direction. Has carried on the detailed Matlab language realization to the number 09 recognitions. Key word: HMM; T
8、ext Correlation; Speech recognition 内蒙古科技大学毕业设计说明书(毕业论文) III 目录目录 摘 要I ABSTRACTII 第一章 绪论 .1 1.1 背景、目的和意义 1 1.2 发展历史和国内外现状 1 1.3 语音识别系统概述 3 1.3.1 语音识别系统构成 3 1.3.2 语音识别的分类 4 1.3.3 识别方法介绍 .5 第二章 语音信号的预处理及特征提取 .8 2.1 语音信号的产生模型 9 2.2 语音信号的数字化和预处理 9 2.2.1 语音采样 10 2.2.2 预加重10 2.2.3 语音信号分帧加窗 .11 2.3 端点检测 13
9、 2.3.1 短时能量 .13 2.3.2 短时平均过零率 .14 2.3.3 端点检测“双门限”算法15 2.4 语音信号特征参数的提取 16 2.4.1 线性预测倒谱系数 LPCC .16 2.4.2 Mel 倒谱系数 MFCC.17 2.4.3 LPCC 系数和 MFCC 系数的比 较18 第三章 隐马尔可夫模型(HMM).20 3.1 隐马尔可夫模型 20 3.1.1 隐马尔可夫(HMM)基本思想.20 内蒙古科技大学毕业设计说明书(毕业论文) IV 3.1.2 语音识别中的 HMM 24 3.1.3 隐马尔可夫的三个基本问题10.24 3.1.4 HMM 的基本算法 .25 3.2
10、HMM 模型的一些问题 28 3.2.1 HMM 溢出问题的解决方法 .28 3.2.2 参数的初始化问题 .29 3.2.3 提高 HMM 描述语音动态特性的能力 31 3.2.4 直接利用状态持续时间分布概率的 HMM 系统 31 第四章 基于文本相关的语音识别 .33 4.1 引言 33 4.2 HMM 模型的语音实现方案 33 4.2.1 初始模型参数设定 34 4.2.2 HMM 模型状态分布 B 的估计.34 4.2.3 多样本训练 .35 4.2.4 识别过程 .36 4.3 仿真过程及系统评估 37 4.3.1 语音数据的采集及数据库的建立 .37 4.3.2 仿真实验HMM
11、用于语音识别 38 4.3.3 Matlab 编程实现40 4.4 系统仿真中的若干问题 .43 总结展望 .44 参考文献 .45 附 录 46 致 谢.54 内蒙古科技大学毕业设计说明书(毕业论文) 1 第一章第一章 绪论绪论 1.1 背景、目的和意义背景、目的和意义 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着 计算机越来越向便携化方向发展和计算环境的日趋复杂化,人们越来越迫切要求摆 脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。尤 其是汉语,它的汉字输入一直是计算机应用普及的障碍,因此,利用汉语语音进行 人机交互是一个极其重要的研究课题。
12、它正在直接与办公、交通、金融、公安、商 业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的 自动拨号、辅助控制与查询,以及医疗卫生和福利事业的生活支援系统等各种实际 应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面1。 语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究领 域之一,它与语音学、语言学、数理统计学和神经生理学等学科有非常密切的关系。 语音识别的目标是让机器能听懂人类口述的语言,语音识别中的汉语数字语音识别, 具有更为重要的意义。汉语数字语音识别的任务是识别“0”到“9”等10个非特定 人汉语数字语音。信用卡号码、电话语音拨号、个
13、人身份证号码、电子密码等都具 有数字化特征,因此,连续数字语音识别成为语音识别中极其重要的一项任务。一 方面,连接数字语音识别可以识别用户说出的数字串,向用户提供最自然、最灵活 和最经济的人机接口界面,从而能有效解决军用和民用领域中遇到大量数据录入问 题,另一方面,由于电话网络的日益普及,连接数字语音识别也可以用于电话人口 统计、远程股票交易及各种号码的远程认证等。因此,汉语数字语音识别 (mandarin digit speech recognition, MD SR) 是语音识别领域中一个具有广泛应用背 景的分支。 随着计算机软硬件的飞速发展,汉语语音识别技术也有了很大的进步。如在掌 上电
14、脑上使用语音识别技术,乃至固定到一个小小的芯片上,将为语音识别应用开 拓更新的领域。 1.2 发展历史和国内外现状发展历史和国内外现状 内蒙古科技大学毕业设计说明书(毕业论文) 2 语音识别的研究工作大约开始于上个世纪50年代。1952年贝尔(Bell)实验室的 Davis等人首次研制成功能识别10个英语数字的实验装置。1956年Olson和Belar等人 用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字 机。20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快 速傅里叶变换等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计 算机的发展,以
15、往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而, 在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下 来,这说明了当时人们对语音识别难度的认识得到了加深。 到了1970年,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨, 实用机的生产销售也上了轨道。此外社会上所宣传的声纹(Voice Print)识别,即说 话人识别的研究也扎扎实实地开展起来,并很快达到了实用化的阶段。到了1971年, 以美国ARPA(American Research Projects Agency)为主导的“语音理解系统”的研 究计划也开始起步。这个研究计划不仅在美国国内,而且对
16、世界各国都产生了很大 的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的ARPA研究计划, 虽然在语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果, 但没能达到巨大投资应得的成果,在1976年停了下来,进入了深刻的反省阶段。即 使这样,在整个20世纪70年代还是有几项研究成果对语音信号处理技术的进步和发 展产生了重大的影响。这就是20世纪70年代初由板仓(Itakura)提出的动态时间规整 (DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;20世纪70年代中期线 性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法(HMM)也获得初步 成功,该技术后来在语
17、音信号处理的多个方面获得巨大成功;20世纪70年代末, Linda, Buzo, Gray和Markel等人首次解决了矢量量化(VQ)码书生成的方法,并首先 将矢量量化技术用于语音编码获得成功。从此矢量量化技木不仅在语音识别、语音 编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。 20世纪80年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继 被应用于语音信号处理,并经过不断改进与完善,其中,隐马尔可夫模型作为语音 信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其理论基 础是1970年前后,由Baum等人建立起来的,随后,由美国卡内基-梅隆大学
18、(CMU) 的Baker和美国IBM公司的Jelinek等人将其应用到语音识别中。由于美国贝尔实验 内蒙古科技大学毕业设计说明书(毕业论文) 3 室的Rabiner等人在20世纪80年代中期,对隐马尔可夫模型深入浅出的介绍,才使 世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点, 也是目前语音识别等的主流研究途径。 进入20世纪90年代以来,语音识别在实用化方面取得了许多实质性的研究进展, 逐渐由实验室走向实用化。一方面,对声学语言学统计模型的研究逐渐深入,鲁棒 的语音识别、基于语音段的建模方法及隐马尔可夫的模型与人工神经网络的结合成 为研究的热点。另一方面,为了语音识
19、别实用化的需要,讲者自适应、听觉模型、 快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。 进入21世纪,语音识别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们许 多人的工作和生活方式。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音 识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究 开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新 加坡等地聚集了一批来自大陆、台湾、香港等地的学者,汉语大词汇量语音识别都 达到了相当高的水平。 与此相反,汉语数字语音识别技术虽然在移动通信、电脑话务员、电话证券交 易等领域有着极大的
20、应用价值,并因此受到国内科研单位的广泛重视,但是其进展 却相当缓慢。这主要是因为汉语数字语音识别存在诸多困难。语音间高混淆的问题, 由于汉语数码语音的音节数少,因此,语音混淆高;非特定人问题,汉语是一种多 方言语种,由于各地人群在普通话中带有或多或少的方言,因此这种数字语音识别 系统仍然具有很大难度;噪声环境问题,由于环境复杂,噪声源较多,使得相应的 数字语音识别任务相当艰巨。连续语音问题,汉语数字连续语音的连续程度高2。 1.3 语音识别系统概述语音识别系统概述 1.3.1 语音识别系统构成语音识别系统构成 大部分语音识别系统都采用的是模式匹配的原理,系统的一般结构可以用图 1.1 表示 3
21、。 内蒙古科技大学毕业设计说明书(毕业论文) 4 图 1.1 语音识别系统的原理框图 语音信号首先经过预处理,之后提取特征参数。训练在识别之前进行,通过讲 话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定 规则对数据加以聚类,形成模式库。将提取的参数根据一定的准则(如某种距离测 度),计算其与库存模式之间的相似度(如匹配距离、似然概率),判断输入语音的 语意信息,这就是语音识别。 预处理单元的功能是通过高频预加重来平滑信号频谱,并利用窗函数把语音数 据序列分成连续的信号帧。特征提取单元的功能是完成基于频谱的特征矢量的计算。 当端点检测单元检测到当前语音信号帧为起始帧时,
22、特征提取单元开始特征提取计 算,并存储帧特征矢量。语音帧特征矢量按照一定的要求处理后,作为识别模型的 特征参数,建立模型库。最后,模式匹配单元完成特征观察矢量与己知的语音信号 模板之间的匹配计算, 并选择其中匹配程度最高的语音信号模板作为识别结果。 鉴于不是每个系统都能为每一个词都建立相应的语音识别模板,那将导致识别难度 和计算量大大增加,因而建立更加精细的语言转换概率库己成为大词汇量语音识别 系统中的一个研究热点。 1.3.2 语音识别的分类语音识别的分类 对于语音识别系统,较为普遍的分类如下: 从识别的词汇量分 每一个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词条。 训练 语
23、音信号 预处理 逐帧特征 提取 失真测度 模式匹配 模型库 识别结果 识别 内蒙古科技大学毕业设计说明书(毕业论文) 5 通常,词条越多,则相似的词也越多,这样其误识率也相应增加;此外,随着词数 增加,搜索运算使计算开销迅速增加。因此词的数量越多,则系统实现越困难。词 汇表的大致划分标准是,词数少于100时,称为小词汇表;100-500称为中词汇表; 超过500时称为大词汇表。 从识别的基本单元来分 语音识别按系统的识别对象可分为孤立词、连接词和连续语音三种方式。孤立 词识别(IWR, Isolated Word Recognition)是指对说话人每次只说一个字、一个词或一 条命令这样的孤立
24、词进行识别, 其中的词或命令在词汇表中都作一个独立的词条; 连接词识别(CWR, Connected Word Recognition)一般特指对十个数字(0-9)连接而成 的多位数字的识别,有时还可加上少量的操作指令,这时词汇表只由这十个数字及 少数指令构成;连续语音识别(CSR, Continuous Speech Recognition)是对说话人以日 常自然讲述的方式而进行的识别。这三种方式,其识别困难是依次递增的。 从识别对象来分 语音识别系统可以是只针对一个用户的,例如个人专用的语音打字机,这称为 特定人工作方式(SD, Speaker Dependent);系统若是针对任何人的,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 利用 HMM 技术 实现 基于 文本 相关 语音 识别 设计
链接地址:https://www.31doc.com/p-3949598.html