语音识别和合成

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A B C 发音矩阵 D E F G H I J K L 模板矩阵 M N O P Q R
距离:
16个时间 间隔,16 个滤波器
D ( A J ) 2 ( B K ) 2 (C L) 2 ( D M )2 ( E N )2 ( F O ) 2 (G P ) 2 ( H O ) 2 ( I R )2
语音识别
●其他问题 2. 发音的长度:动态时间扭曲dynamic time warping Digital diigitaal
对发音矩阵在时间轴上进行伸长或压缩,与模板配 准。 3. 音调:归一化
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●其他问题 1. 强音和弱音 将发音和模板的幅度进行比例缩放,都缩放到±R之间。 输入音: x缩放
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别

自动语音识别Automatic Speech Recognition (ASR) : 目标是让机器能够“听懂”不同人说的话,实现从声音到 文字的转换。
当空气经 过人的声道时 会产生语音。
声音的基本频率:声道的总长度决定。 声音特征:喉咙、声带、舌、牙齿和下颌的特殊配置。
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
声音处理技术 主要内容 语音识别技术 语音合成技术 声纹识别技术
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音的概念
● 声音的三要素 音调代表声音的高低,与频率有关。频率越高,音调 越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音, 即具有不同频率和不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波 的振幅成正比,振幅越大,强度越大。 ● 音质 对于数字音频信号,音质的好坏与数据采样频率和数据 位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
语音识别
●自动语音识别的难度 1. 每个人的嗓音千差万别:指纹 2. 方言和地区的差异使字音发生改变 3. 声音在强和弱的情况下具有不同的特征 4. 孤立单词识别 isolated word recognition: 连续语音识别 continuous speech recognition 例: 英语识别系统识别普通话 How to wreck a nice beach How to recognize speech
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●问题2:如何比较? 将各个滤波器的响应强度生成一个数据矩阵。 模板的形成:训练 训练:同一个词反复若干次产生若干矩阵,然后平均形 成模板。每个单词都需要一个对应的模板。 比较模板和输入词的距离: 例子:单词分成三个时间间隔,三个滤波器
最高频 带通滤波器1
问题1:如何评估滤波器的 输出强度? 问题2:如何比较?
带通滤波器2
响应强度 强
带通滤波器3
中 弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
数字信号处理的应用 ----语音识别和合成
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
捕捉一个音素或单词中 不断变化的频率的本质
最高频 带通滤波器1
带通滤波器2
响应强度 强
带通滤波器3
中 弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
x xmin x x min max 2 R R
其中:x 元发音的采样点值 x缩放采样点缩放后的值 xmax发音的最大采样点值 xmin发音的最小采样点值
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
关键词识别
识别单元是词,判断输入语音中是否含有词表中的词 优点:能够处理连续语音,词表可定制 缺点:速度较慢,词表越大,错误率越多 应用案例:电话呼叫服务,电话安全监听
连续语音识别
识别单元可以是字,词或者句子 优点:应用范围广 缺点:速度慢,识别率不高,尤其是词表较大的时候 应用案例:语音翻译,语音短信,听写机,语音邮件
语音识别
●问题1:滤波器的响应强度 滤波器的响应强度用滤波器输出信号的功率来测量。 数字信号的功率:信号采样点平方和的平均。 例:采样频率为 2kHz,中心频率为300Hz的带通滤波器的 第2个信号的输出功率最大,输出强度可以体现输入信 差分方程是: 号的频率。
y( n) 1.0275 y( n 1) 0.725 y( n 2) 0.1367 x ( n) 0.1367 x ( n 2)
最高频 带通滤波器1
输出显示: 垂直方向----频率变化 水平方向----时间变化
带通滤波器2
响应强度 强
带通滤波器3
中 弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
输出图形记录一 个在开始时包含大量高 频,最终是低频。
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
形成5×6矩阵,描述此发音,用此矩阵与事先存储在存 储器中的模板矩阵进行比较就可识别。
最高频 带通滤波器1
带通滤波器2
响应强度 强
带通滤波器3
中 弱
带通滤波器4
带通滤波器5 带通滤波器6 最低频
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
考虑三个输入信号: 100 x1 ( n) sin( n2 ) 2000 300 x 2 ( n) sin( n2 ) 2000 400 x 3 ( n ) sin( n2 ) 2000
y1(n)输出功率0.0093 y2(n) 输出功率0.4833 y3(n)输出功率0.1080
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●语音识别系统框架
语法
语音
特征提取
模式匹配
拒识
结果
ຫໍສະໝຸດ Baidu
训练
模型
说话人自适应
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●中文语音识别的特点 相对于西方语言来说,中文有自己的独特之处。中文是 有调语言,发音的基本单元是声母和韵母并且以音节为 自然单位,一个音节就是一个字甚至词,以至字词的时 长很短,混淆度更大。 中文用415个基本的无调音节来构成7000多个基本汉字 的发音,多音字很多。 特别是,中文的发音和字是独立的,仅仅是中国大陆地 区就有很多的方言,口音问题非常严重。特别是在做中 文孤立词和短语命令识别的时候,由于没有上下文的信 息并且语音的长度很短,口音会严重地降低识别率。
语音识别
●连续语音识别问题的难点 (1)单词切分 连续语音句子中各单词的发音之间通常是没有停顿的, 即各单词之间不存在明显的边界。 (2)发音变化 连续语音中各单词的发音通常都比较自然和随便,因 而,各单词受协同发音的影响也更为严重。 方法一, 停顿 不能识别词的边界,弱音可能出现在某些声音和词 的中间。 方法二, 滤波器阻加于重叠的语音段上

Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
●语音识别—分类
孤立词识别
识别单元是有限的,单个的词; 优点:速度快,识别正确率高 缺点:应用范围窄,不能识别词表外的词 应用案例:语音命令,手机语音拨号
语音识别
●语音识别过程 语音识别算法:主要依靠频率成分进行音素分析 音素 phoneme :构成一种语言的单个语音 如:b p m f a o e i u ü Lap : l boot: oo poke:k 一个音素可持续100ms. 元音:特殊, 周期性,在频域有少量的共振峰 如:ay S、f: 具有宽范围的频率成分,类似白噪声
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
语音识别
语音识别算法:主要依靠频率成分进行音素分析 当一段声音通过一组带通滤波器,滤波器的响应揭示 其存在的主要频率成分。 例:一个中心频率是300Hz的带通滤波器,对一个具有很 强的300Hz的输入信号谐振最好,产生很强的响应。 利用一组滤波器,每个滤波器在每个时间间隔的输出 强度形成一个能够进行识别的图形。 每个滤波器记录该滤波器对于输入语音序列的 每个时间间隔的输出强度。
相关文档
最新文档