六章声音基本概念.ppt
《六章声音基本概念.ppt》由会员分享,可在线阅读,更多相关《六章声音基本概念.ppt(51页珍藏版)》请在三一文库上搜索。
1、第六章 声音基本概念,一、声音的数字化,什么是声音?,frequency (Hz) 音调,音高(12音阶) amplitude/power(W,mW) 音量, 响度(Phon, 方) shape of waveform 音色 注意:物理特性与心理/生理感觉有关,但并不是线性关系!,声音是通过一定介质(如空气、水等)传播的连续的波,纯音与复音,声音的分类(1),按频率划分: 次声(Infra-sound) 0-20Hz 可听声 (Audio) 20-20kHz 超声 (Ultrasound) 20kHZ-1GHz 可听声中,声音分为: 语音,言语 ( speech ) 300-3400Hz 全频
2、带声音 20-20kHz 音乐 ( music ) 其它声音 (effect sound, noise),声音的分类(2),数字波形声音 语音 音乐 效果声 数字合成声音 合成语音 MIDI,3 声音信号的数字化,取 样,能够无失真地恢复出原始信号的最低取样频率称为Nyquist取样频率。取样定理表明:Nyquist取样频率为原始信号最高频率的2倍。,量化精度既决定了取样值的动态范围,也决定着所引入的噪声大小。,Nyquist取样频率,数字波形声音的基本参数,sampling frequency(取样频率) quantization bits(量化位数) number of sound cha
3、nnels(声道数目) encoding method ( compression method )(压缩编码方法) bit rate(码率,比特率),每秒钟的数据量,数字化声音举例,信噪比和信号量化噪声比,信噪比(Signal-to-Noise Ratio SNR) 信号量化噪声比(Signal-to-Quantization-Noise Ratio SQNR),非线性量化,目的 : 适应听觉的非线性特性;压缩数据。,北美和日本等地区 ( 律压扩算法),声音获取设备,联机获取设备,脱机获取设备:数码录音笔,麦克风,动圈式麦克风Moving-coil MIC (Dynamic) 利用声波推动震
4、膜,震膜带动线圈,利用磁力线的改变产生微弱的电压。例 电容式麦克风Condenser MIC 丝带式麦克风RIBBON MIC 压电式麦克风PIEZO-ELECTRONIC MIC,麦克风的指向性(Directional),指向性是指话筒灵敏度随声波入射方向而变化的特性 区分: 心型指向指向麦克风 超心型指向麦克风 全指向麦克风 8字型球指向麦克风,声卡 (sound card ),用途: 波形声音的获取、编码; 波形声音的重建、播放; MIDI声音的输入; MIDI声音的合成、播放; (CD-ROM 驱动器的控制,CD-DA声音的播放。),声卡的性能参数,最高取样频率、量化精度; 输出功率(
5、110W); 是否支持波表合成,波表的容量; 芯片类型:Advance Logic,Aureal,ESS 支持的API:D3D、A3D、EAX CPU占有率 Money,二、语音合成(Speech synthesis),概述,语音合成:利用适当的方法和手段,从文本、概念或意向通过合成产生语音的过程。 对合成语音的要求: 可理解、自然、低延迟、 语速可变 声音可变 语言可变 应用: 声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等.,语音基础知识,音素(phoneme)是语音的最小单位。音素分为: 元音(vowel)(浊音),不受声道阻碍的音。 辅音(consonant)(浊音或清
6、音), 受声道阻碍的音。,英语语音,每字(词)一个或几个音节(syllable)(多音节字) 音节由一个或几个音素组成 英语的音素: 元音20个 辅音28个,汉语语音,每字一个音节(syllable)(单音节字) 音节由一个或几个音素组成 汉语的音素 声母(21个,b,p,m,f,d,t,n,l,) 韵母(39个,a, e,i, o, u,ao,ou,an,en,eng,ong,) 音调(4个: 阴平、阳平、上声、去声) 汉语语音的数目: 无声调的音节数目:412个 带声调的音节数目:1282个,()音系简单(音节少、音素少) ()汉语没有词的自然界限分词问题 咬死了猎人的狗 下雨天留客天留我
7、不留 今年真好晦气全无财帛进门 熊出没注意! ()一字多音: 我们都是同行,我们一路同行,去参加人参培植研讨会。 (4)数字的读音: 南京大学计算机系2002年招收了202名本科生,130多名硕士生,分成2个专业。,汉语语音的特点,文语转换过程,查找拼写错误,对不规范或无法发音的字符进行过滤。 分析文本中词或短语的边界, 分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。,根据文本的结构、组成和标点符号,确定发音时语气的变换以及不同音的轻重方式。 分析并决定各个音节的声调、语气和停顿方式,发音的轻重、长短等,文语转换方法,参数合成法 波形拼接法,参数合成法,优点:音素参数库比较小
8、,韵律控制能力较强 不足:音质难以达到较好的水平,先从音素库中选择相应的声学参数,根据韵律控制参数作一定的修改调整,“声道滤波器”模型按照激励源和滤波器的参数(一般每隔10ms-30ms一组参数),合成出语音。,波形拼接法,优点:语音基元取自自然语音的词或句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音清晰自然,其质量普遍高于参数合成法. 缺点: 韵律参数修改范围受限, 机器味较浓,其自然度还不能达到用户可广泛接受的程度,预先存储了大量语音基元(字或词组)的波形,合成时,按字(词)读取基元的波形,进行拼接和韵律修饰,然后输出连续语流,波形拼接法需考虑的问题,语音基元的选择。语音基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 声音 基本概念
链接地址:https://www.31doc.com/p-2592181.html