HMM隐马尔科夫简介及语音合成解析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
隐马尔可夫模型 Hidden Markov model
马尔可夫性和马尔可夫链 HMM实例分析 HMM的三个基本问题及求解
8
马尔可夫性
如果一个过程的“将来”仅依赖“现在” 而不依赖“过去”,则此过程具有马尔 可夫性,或称此过程为马尔可夫过程 X(t+1) = f( X(t) )
9
3
一:概述
一:根据人类语言功能的不同层次,语言合成可以分为三类层 次,它们是: (1)按规则从文字到语音的合成(Text-To-Speech) (2)按规则从概念到语音的合成(Concept-To-Speech) (3)按规则从意向到语音的合成(Intention-To-Speech) 我们现在做的是从文字到语音的合成,即TTS。 二:在语言层、语法层、语义层的工作可以归结为前端文本分 析,而语音层面上的韵律生成和声学层面上的按韵律合成语 音单元或在音库中挑选单元可以说是后端的韵律合成。对于 TTS系统来说,前端的文本分析部分都是相同的,只是由于 要求的不同而有不同信息表达方式。
10
转移概率矩阵
0.5 0.25
晴天
阴天
下雨
晴天 晴天 0.50
阴天 0.25 0.25
下雨 0.25 0.375
阴天 0.375
下雨
0.25
0.125
0.625
11
12
例子: 赌场的欺诈
某赌场在掷骰子根据点数决定胜负时 , 暗中采取 了如下作弊手段
在连续多次掷骰子的过程中 , 通常使用公平骰子 A, 偶而混入一个灌铅骰子 B
1. 由离散隐状态组成的状态序列 (路径)
隐序列
15
HMM的定义
一阶离散HMM是一个关于时间 序列的随机生 成模型。其基本要素如下:
有限隐状态集 离散明字符集 V={V1,…,VM}V={1,2,3,4,5,6} 初始状态概率矢量 π=(π1,…, πN) π1=1, π2=0 状态转移概率矩阵 A=(aij)N× N A=
明字符生成概率矩阵 B=(bjk)N× M
马尔科夫链
时间和状态都离散的马尔科夫过程称为马尔科 夫链 记作{Xn = X(n), n = 0,1,2,…}
– 是在时间集T1 = {0,1,2,…}上对离散状态的过程相继 观察的结果
链的状态空间记做I = {a1, a2,…}, ai∈R. 条件概率Pij ( m ,m+k)=P{Xm+k = aj|Xm = ai} 为马 氏链在时刻m处于状态ai条件下,在时刻m+k转 移到状态aj的k步转移概率。 由Pij ( m ,m+k)构成的矩阵称为马尔科夫K步转 移矩阵。
4
后端的韵律合成方面可以层次化分为两部分:一是按前端 给出的层次化文本信息生成合适的韵律,二是按照生成 的韵律来产生最后的合成语音。这篇论文所做的工作主 要是围绕后端来进行的。 三:语音合成方法介绍 ①物理机理语音合成:通过对人产生语音的物理结构进行建模
从而产生语音。
②源-滤波器语音合成:认为声音由激励和相应的滤波器形成。
赌场例子对应: S={S1,…,SN} S={骰子 A, 骰子 B}
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 B= 0 1/ 8 1/ 8 3 / 16 3 / 16 3 / 8
HMM记作 λ =(S, V, π, A, B) 或 λ =(π, A, B)
16
HMM将两个序Hale Waihona Puke Baidu相联系起来
HMM在语音信号处理中的应用 Trainable TTS 技术框架构建 Trainable TTS 技术改进 • 谱参数选取优化 • 时长模型改进 TTS训练准则改进 TTS技术应用
6
HMM在语音信号处理中的应用:
人的语言过程可以看作是一个双重随机过程,HMM较合理的模仿了这一过 程,很好地描述了语音信号的整体非平稳性和局部平稳性,是一种较为理想的语 音信号模型。 HMM用于语音信号建模已经有了二十多年,对于各种应用的建模参数也比 较成熟,下面列举了一些重要的建模参数: 谱参数选择:在Trainable TTS系统中,可以采用倒谱参数也可以采用LSF (Linear Spectral Frequency线谱频率)或LSP参数(Line Spectral Pair 线 谱对 )。 参数分布:一般都采用多维高斯分布,针对语音参数的特性,又可以有多 流和多高斯的情况。 建模单元尺度:一般都是对音素建模,对于中文而言就是声韵母单元,但 是在一些特殊应用中(比如数字串识别)可以以音节 或 词为基本单元进行 HMM建模。 HMM拓扑结构:对一般的单元建模采用的是从左到右各态历经的拓扑结 构,对于某些特殊单元(如sp)有时可以采用空跳结构。 状态数目:在Trainable TTS中为了达到一定的恢复精度,对于所有的音素 都采用5状态模型。 混合高斯数目:在Trainable TTS中,由于采用的是上下文相关的HMM建 模,所以只采用一个混合高斯分量。
(LPC(线性预测分析)合成,共振峰合成)
③基于波形拼接技术的语音合成 ④可训练的语音合成:基于一套自动化的流程,根据输入的语
音信号进行训练,并形成一个相应的合 成系统
5
四:本文研究目标和内容
①目标:
基于Trainable TTS技术框架并进行优化改进, 构建一个高品质,多样化的语音合成系统。
②内容:
论文阅读报告
1
所读论文
基于隐马尔科夫模型的语音合成技术研 究—吴 义坚
基于HMM的可训练越南语语音合成系统—和林 钰 基于HMM的维吾尔语合成系统的研究与实现— 艾斯卡尔.肉孜 HTK BOOK ...
2
主要内容
概述
HMM 介绍 Trainable TTS 技术框架
Trainable TTS 技术改进
0.8
0.9 A B 0.2
0.1
13
公平骰子 A与灌铅骰子 B的区别
骰子A 1/6 1/6 1/6 1/6 1/6 1/6 骰子B 0 1/8 1/8 3/16 3/16 3/8
14
1点 2点 3点 4点 5点 6点
一次连续掷骰子的过程模拟
时间 骰子 掷出 点数
1 A 3 2 A 3 3 A 4 4 B 5 5 A 1 6 A 6 7 A 2 明序列
隐马尔可夫模型 Hidden Markov model
马尔可夫性和马尔可夫链 HMM实例分析 HMM的三个基本问题及求解
8
马尔可夫性
如果一个过程的“将来”仅依赖“现在” 而不依赖“过去”,则此过程具有马尔 可夫性,或称此过程为马尔可夫过程 X(t+1) = f( X(t) )
9
3
一:概述
一:根据人类语言功能的不同层次,语言合成可以分为三类层 次,它们是: (1)按规则从文字到语音的合成(Text-To-Speech) (2)按规则从概念到语音的合成(Concept-To-Speech) (3)按规则从意向到语音的合成(Intention-To-Speech) 我们现在做的是从文字到语音的合成,即TTS。 二:在语言层、语法层、语义层的工作可以归结为前端文本分 析,而语音层面上的韵律生成和声学层面上的按韵律合成语 音单元或在音库中挑选单元可以说是后端的韵律合成。对于 TTS系统来说,前端的文本分析部分都是相同的,只是由于 要求的不同而有不同信息表达方式。
10
转移概率矩阵
0.5 0.25
晴天
阴天
下雨
晴天 晴天 0.50
阴天 0.25 0.25
下雨 0.25 0.375
阴天 0.375
下雨
0.25
0.125
0.625
11
12
例子: 赌场的欺诈
某赌场在掷骰子根据点数决定胜负时 , 暗中采取 了如下作弊手段
在连续多次掷骰子的过程中 , 通常使用公平骰子 A, 偶而混入一个灌铅骰子 B
1. 由离散隐状态组成的状态序列 (路径)
隐序列
15
HMM的定义
一阶离散HMM是一个关于时间 序列的随机生 成模型。其基本要素如下:
有限隐状态集 离散明字符集 V={V1,…,VM}V={1,2,3,4,5,6} 初始状态概率矢量 π=(π1,…, πN) π1=1, π2=0 状态转移概率矩阵 A=(aij)N× N A=
明字符生成概率矩阵 B=(bjk)N× M
马尔科夫链
时间和状态都离散的马尔科夫过程称为马尔科 夫链 记作{Xn = X(n), n = 0,1,2,…}
– 是在时间集T1 = {0,1,2,…}上对离散状态的过程相继 观察的结果
链的状态空间记做I = {a1, a2,…}, ai∈R. 条件概率Pij ( m ,m+k)=P{Xm+k = aj|Xm = ai} 为马 氏链在时刻m处于状态ai条件下,在时刻m+k转 移到状态aj的k步转移概率。 由Pij ( m ,m+k)构成的矩阵称为马尔科夫K步转 移矩阵。
4
后端的韵律合成方面可以层次化分为两部分:一是按前端 给出的层次化文本信息生成合适的韵律,二是按照生成 的韵律来产生最后的合成语音。这篇论文所做的工作主 要是围绕后端来进行的。 三:语音合成方法介绍 ①物理机理语音合成:通过对人产生语音的物理结构进行建模
从而产生语音。
②源-滤波器语音合成:认为声音由激励和相应的滤波器形成。
赌场例子对应: S={S1,…,SN} S={骰子 A, 骰子 B}
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 B= 0 1/ 8 1/ 8 3 / 16 3 / 16 3 / 8
HMM记作 λ =(S, V, π, A, B) 或 λ =(π, A, B)
16
HMM将两个序Hale Waihona Puke Baidu相联系起来
HMM在语音信号处理中的应用 Trainable TTS 技术框架构建 Trainable TTS 技术改进 • 谱参数选取优化 • 时长模型改进 TTS训练准则改进 TTS技术应用
6
HMM在语音信号处理中的应用:
人的语言过程可以看作是一个双重随机过程,HMM较合理的模仿了这一过 程,很好地描述了语音信号的整体非平稳性和局部平稳性,是一种较为理想的语 音信号模型。 HMM用于语音信号建模已经有了二十多年,对于各种应用的建模参数也比 较成熟,下面列举了一些重要的建模参数: 谱参数选择:在Trainable TTS系统中,可以采用倒谱参数也可以采用LSF (Linear Spectral Frequency线谱频率)或LSP参数(Line Spectral Pair 线 谱对 )。 参数分布:一般都采用多维高斯分布,针对语音参数的特性,又可以有多 流和多高斯的情况。 建模单元尺度:一般都是对音素建模,对于中文而言就是声韵母单元,但 是在一些特殊应用中(比如数字串识别)可以以音节 或 词为基本单元进行 HMM建模。 HMM拓扑结构:对一般的单元建模采用的是从左到右各态历经的拓扑结 构,对于某些特殊单元(如sp)有时可以采用空跳结构。 状态数目:在Trainable TTS中为了达到一定的恢复精度,对于所有的音素 都采用5状态模型。 混合高斯数目:在Trainable TTS中,由于采用的是上下文相关的HMM建 模,所以只采用一个混合高斯分量。
(LPC(线性预测分析)合成,共振峰合成)
③基于波形拼接技术的语音合成 ④可训练的语音合成:基于一套自动化的流程,根据输入的语
音信号进行训练,并形成一个相应的合 成系统
5
四:本文研究目标和内容
①目标:
基于Trainable TTS技术框架并进行优化改进, 构建一个高品质,多样化的语音合成系统。
②内容:
论文阅读报告
1
所读论文
基于隐马尔科夫模型的语音合成技术研 究—吴 义坚
基于HMM的可训练越南语语音合成系统—和林 钰 基于HMM的维吾尔语合成系统的研究与实现— 艾斯卡尔.肉孜 HTK BOOK ...
2
主要内容
概述
HMM 介绍 Trainable TTS 技术框架
Trainable TTS 技术改进
0.8
0.9 A B 0.2
0.1
13
公平骰子 A与灌铅骰子 B的区别
骰子A 1/6 1/6 1/6 1/6 1/6 1/6 骰子B 0 1/8 1/8 3/16 3/16 3/8
14
1点 2点 3点 4点 5点 6点
一次连续掷骰子的过程模拟
时间 骰子 掷出 点数
1 A 3 2 A 3 3 A 4 4 B 5 5 A 1 6 A 6 7 A 2 明序列