语音识别和合成 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

A B C 发音矩阵 D E F G H I J K L 模板矩阵 M N O P Q R
距离：
16个时间间隔，16 个滤波器
D ( A J ) 2 ( B K ) 2 (C L) 2 ( D M )2 ( E N )2 ( F O ) 2 (G P ) 2 ( H O ) 2 ( I R )2
语音识别
●其他问题 2. 发音的长度：动态时间扭曲dynamic time warping Digital diigitaal
对发音矩阵在时间轴上进行伸长或压缩，与模板配准。 3. 音调：归一化
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●其他问题 1. 强音和弱音将发音和模板的幅度进行比例缩放，都缩放到±R之间。输入音： x缩放
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别

自动语音识别Automatic Speech Recognition (ASR) ：目标是让机器能够“听懂”不同人说的话，实现从声音到文字的转换。
当空气经过人的声道时会产生语音。
声音的基本频率：声道的总长度决定。声音特征：喉咙、声带、舌、牙齿和下颌的特殊配置。
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
声音处理技术主要内容语音识别技术语音合成技术声纹识别技术
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音的概念
● 声音的三要素音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。 ● 音质对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比(SNR)有关。
语音识别
●自动语音识别的难度 1. 每个人的嗓音千差万别：指纹 2. 方言和地区的差异使字音发生改变 3. 声音在强和弱的情况下具有不同的特征 4. 孤立单词识别 isolated word recognition: 连续语音识别 continuous speech recognition 例：英语识别系统识别普通话 How to wreck a nice beach How to recognize speech
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●问题2：如何比较？将各个滤波器的响应强度生成一个数据矩阵。模板的形成：训练训练：同一个词反复若干次产生若干矩阵，然后平均形成模板。每个单词都需要一个对应的模板。比较模板和输入词的距离：例子：单词分成三个时间间隔，三个滤波器
最高频带通滤波器1
问题1：如何评估滤波器的输出强度？问题2：如何比较？
带通滤波器2
响应强度强
带通滤波器3
中弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
数字信号处理的应用 ----语音识别和合成
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
捕捉一个音素或单词中不断变化的频率的本质
最高频带通滤波器1
带通滤波器2
响应强度强
带通滤波器3
中弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
x xmin x x min max 2 R R
其中：x 元发音的采样点值 x缩放采样点缩放后的值 xmax发音的最大采样点值 xmin发音的最小采样点值
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
关键词识别
识别单元是词，判断输入语音中是否含有词表中的词优点：能够处理连续语音，词表可定制缺点：速度较慢，词表越大，错误率越多应用案例：电话呼叫服务，电话安全监听
连续语音识别
识别单元可以是字，词或者句子优点：应用范围广缺点：速度慢，识别率不高，尤其是词表较大的时候应用案例：语音翻译，语音短信，听写机，语音邮件
语音识别
●问题1：滤波器的响应强度滤波器的响应强度用滤波器输出信号的功率来测量。数字信号的功率：信号采样点平方和的平均。例：采样频率为 2kHz，中心频率为300Hz的带通滤波器的第2个信号的输出功率最大，输出强度可以体现输入信差分方程是：号的频率。
y( n) 1.0275 y( n 1) 0.725 y( n 2) 0.1367 x ( n) 0.1367 x ( n 2)
最高频带通滤波器1
输出显示：垂直方向----频率变化水平方向----时间变化
带通滤波器2
响应强度强
带通滤波器3
中弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
输出图形记录一个在开始时包含大量高频，最终是低频。
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
形成5×6矩阵，描述此发音，用此矩阵与事先存储在存储器中的模板矩阵进行比较就可识别。
最高频带通滤波器1
带通滤波器2
响应强度强
带通滤波器3
中弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
考虑三个输入信号： 100 x1 ( n) sin( n2 ) 2000 300 x 2 ( n) sin( n2 ) 2000 400 x 3 ( n ) sin( n2 ) 2000
y1(n)输出功率0.0093 y2(n) 输出功率0.4833 y3(n)输出功率0.1080
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●语音识别系统框架
语法
语音
特征提取
模式匹配
拒识
结果
ຫໍສະໝຸດ Baidu
训练
模型
说话人自适应
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●中文语音识别的特点相对于西方语言来说，中文有自己的独特之处。中文是有调语言，发音的基本单元是声母和韵母并且以音节为自然单位，一个音节就是一个字甚至词，以至字词的时长很短，混淆度更大。中文用415个基本的无调音节来构成7000多个基本汉字的发音，多音字很多。特别是，中文的发音和字是独立的，仅仅是中国大陆地区就有很多的方言，口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候，由于没有上下文的信息并且语音的长度很短，口音会严重地降低识别率。
语音识别
●连续语音识别问题的难点 (1)单词切分连续语音句子中各单词的发音之间通常是没有停顿的，即各单词之间不存在明显的边界。 (2)发音变化连续语音中各单词的发音通常都比较自然和随便，因而，各单词受协同发音的影响也更为严重。方法一, 停顿不能识别词的边界，弱音可能出现在某些声音和词的中间。方法二, 滤波器阻加于重叠的语音段上

Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●语音识别—分类
孤立词识别
识别单元是有限的，单个的词；优点：速度快，识别正确率高缺点：应用范围窄，不能识别词表外的词应用案例：语音命令，手机语音拨号
语音识别
●语音识别过程语音识别算法：主要依靠频率成分进行音素分析音素 phoneme ：构成一种语言的单个语音如：b p m f a o e i u ü Lap : l boot: oo poke:k 一个音素可持续100ms. 元音：特殊，周期性，在频域有少量的共振峰如：ay S、f: 具有宽范围的频率成分，类似白噪声
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
语音识别算法：主要依靠频率成分进行音素分析当一段声音通过一组带通滤波器，滤波器的响应揭示其存在的主要频率成分。例：一个中心频率是300Hz的带通滤波器，对一个具有很强的300Hz的输入信号谐振最好，产生很强的响应。利用一组滤波器，每个滤波器在每个时间间隔的输出强度形成一个能够进行识别的图形。每个滤波器记录该滤波器对于输入语音序列的每个时间间隔的输出强度。