语音识别系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉英双语直接合并的 Phone Set
IPA映射—基于知识的汉英双语Phone共享
IPA 映射法就是根据国际音标协会的发音规则,把特定语言的 Phone用国际音标来表示。 这也是构建多语言的 Phone Set 最简便的方法。其映射过程 可简要表示为:
合并聚类 —数据驱动的汉英双语Phone共享
引入错误的三个过程
ቤተ መጻሕፍቲ ባይዱ
在一个连续语音识别系统中, 存在着多种有可能引入最终 识别错误的因素, 例如:不够鲁棒的声学模型, 端点的不精确检测,不够完 善的状态解码算法等 等。如右图所示:
解决方法
我们从不同的侧面提出了两套判别准则来指明产生识别错误的原因 利用时域信息进行切分 在语音段内进行帧同步的 Viterbi 解码
1.搜索算法的主要目的 2.Bayes 判别准则
搜索算法的主要目的 减少寻找最佳假设的时间和内存的需要, 而同时维持最小的搜索错误。 搜索的目的 获得最佳的词序列,即最大化后验概率, 这就是所谓的 Bayes 判别准则,它的计算需要用到两种类型的概率分布: 即 Pr(x1··T·· )1·· N) ·x |w ·w 语言模型,即 Pr(w ·w
启动WORD听写可谓相当方便。我们可以对准麦克风念 “听写到WORD”或从屏幕右下角的图标中启动程序。在 WORD里,我们会发现在工具栏上多了一个“听写”菜单。 在听写时,发音要清楚,语速要正常,并且念出所有的标点 和排版符号。 限于各方面的原因,ViaVoice还不能100%识别你的口 音,所以完成一段文字的录入后,往往需要校对 。
基于最大后验概率
基于变换的方法
MAP算法
Range-free
MLLR算法
MAP算法
MAP(最大后验概率)算法的原理:基本准 则是后验概率最大化,利用贝叶斯(Bayes)学习理论, 将SI系统的先验信息与被适应人的信息相结合实 现自适应 . 性能及使用范围:
通过词汇表管理器,你可以查看加入到词汇表中的所有
词汇,并对其进行编辑。
ViaVoice Pro Edition Windows版参考命令
自适性与棒鲁性
汇报者:
结构
引言 自适应性及相关算法 棒鲁性及相关算法 总结

引言
在实际应用时,有许多原因可能会导致 语音识别系统的识别率显著下降,这些原因 包括语音采集环境的影响(如加性噪声,录音 设备,信道畸变等) 和说话人的影响(如说话 风格,口音,以及环境影响引起的说话风格 的变化等)。为了使语音识别系统在面对这些 不利条件时也能具有较好的性能,采用了许 多方法来增强系统的鲁棒性(Robustness)。

Windows 2000:
Intel Pentium 300MHz,256K L2缓存(或相当配置,包括 AMD-K6 处理器, 256K L2缓存),96MB RAM

Windows XP Home Edition/XP Professional Edition: Intel Pentium 300MHz,256K L2缓存(或相当配置, 包括AMD-K6 处理器,256K L2缓存),192MB RAM

一般性限制
操作系统/硬件 ViaVoice程序 听写限制 导航限制 音频限制(只针对模拟麦克风)

商标和通告
IBM ViaVoice都是国际商业机器公司在美 国或/和其他国家的商标或注册商标。 例如:World Book是World Book, Inc在美 国或/和其他国家的商标;Sound Blaster是 Creative Technology Ltd.在美国或/和其他国 家的注册商标;Netscape是Netscape Communications Corporation在美国或/和其 他国家的注册商标。
搜索算法2:

时间异步的搜索算法
时间异步的搜索算法可以通过堆栈解码器 (Stack decoder)来实现。用到的是一些按 照某种分数排序的的假设的列表。 排序所基于的分数可以是
部分假设的对数似然度 整个完整的句子的对数似然度的预测(A*准则) 其它一些能够反映部分假设的正确性的分数
简要补充:
安装过程中的注意事项
您计算机的系统配置必须满足上述所说明的最 低要求; 如果您已经安装了一个IBM语音产品,或者您 的IBM语音产品准备在多个语言环境中使用, 请继续阅读自述文件下面的部分; 3) 你准备安装ViaVoice for Windows的磁盘 驱动器没有用磁盘压缩工具进行过压缩。
语音识别中使用HMM通常是用从左向右单向、 带自环、带跨越的拓扑结构来对识别基元建 模,一个音素就是一个三至五状态的HMM, 一个词就是构成词的多个音素的HMM串行起 来构成的HMM,而连续语音识别的整个模型 就是词和静音组合起来的HMM。
汉英双语混合建模方法
直接合并汉英双语的基本建模单元
进行汉英双语混合声学建模, 一个很自然的方法就是直接 合并二者的Phone Set ,然后按照单一语言的声学建模方法 训练双语的声学模型。 在我们的汉英双语识别系统里, 使用的是从左至右的三状 态隐马尔科夫模型( Hidden Markov Model , 简称HMM) , 与两个单语系统是一致的。
声学模型
汇报者:
两声学建模和语言建模现代化的重要组成部 分statistically-based语音识别算法。隐马尔 可夫模型被广泛地使用在许多系统。还有许 多其他语言建模等领域的应用智能键盘和文 件自动分类技术.。
HMM声学建模:
马尔可夫模型的概念是一个离散时域有限状 态自动机,隐马尔可夫模型HMM是指这一马 尔可夫模型的内部状态外界不可见,外界只 能看到各个时刻的输出值。
自下而上的合并聚类算法在语音识别领域应用很多, 是典型 的数据驱动的聚类方法。其优点是不需要先验知识的引导。 因此, 我们考虑利用合并聚类的方法进行汉英双语的Phone 共享, 使得共享后双语的Phone 和 IPA 映射方法得到的 Phone数目相等,以便于进行比较研究。
语言模型
汇报者:
语言模型
ViaVoice词汇管理器
ViaVoice词汇管理器是对在个人进行听写、录入产生错 误词汇时添加到个人词汇表中的词汇进行管理的工具。当你 下次碰到同样的词时,计算机能自动识别,这将大大减少你 的工作量。经常对词汇表进行维护,是一个良好的习惯,你 还可以用你的方言添加词汇,让你的计算机成为你亲切的 “老乡”。

IBM公司Via Voice 语音识别软件应用了规则 与统计相结合的语言模型。其中,统计语言 模型是用概率统计的方法来揭示语言单位内 在的统计规律,其中N-Gram简单有效,被广 泛使用。
N-Gram

该模型基于这样一种假设,第n个词的出现只 与前面N-1个词相关,而与其它任何词都不相 关,整句的概率就是各个词出现概率的乘积。 这些概率可以通过直接从语料中统计N个词 同时出现的次数得到。
口音适应
口音适应分为两部分: 1.用户对一组给定的句子进行录音; 2.ViaVoice进行口音训练生成语音文件。
(某词变红未被识别的原因主要有:1.麦克风未置于正确位
置;2.在词间没有停顿;3.某些词发音不符合ViaVoice要求 或你念错了某词;4.你的音量必须处于绿色区域里。)
在WORD中听写
语音搜索技术
汇报者:
特征提取 语音识别系统 模型结构的定义 模型训练部分 在既定的模型结构下, 如何选择一种比较好的 方法来预测模型的参数 识别部分
采用正确的搜索算法, 找到识别基元的边界
根据声学模型提供的信 息输出合适的声学候选
利用语言模型提供的信 息得到最终希望的词序 列
理论基础:
SI
Range-free
语音识别中的非特定人 (Speaker Independent,SI)系 统是由所有训练者的语音数据 统计出来的,它描述了所有训 练者共同的声学特性,而牺牲 了个人的特性。
SD
语音识别中的特定人(speaker Dependent ,SD) ,这种语音 识别系统只适用于某个特定 的用户,并要求该使用者预 先提供足够多的个人语音数 据以训练系统。
对语音识别系统,输出值通常就是从各个帧 计算而得的声学特征。用HMM刻画语音信号 需作出两个假设,一是内部状态的转移只与 上一状态有关,另一是输出值只与当前状态 (或当前的状态转移)有关,这两个假设大 大降低了模型的复杂度。HMM的打分、解码 和训练相应的算法是前向算法、Viterbi算法 和前向后向算法。
系统实现
----IBM语音识别系统
汇报者:
Windows系统下的使用说明
最低系统配置 安装过程中的注意事项 一般性限制 商标和通告

最低系统配置

Microsoft Windows 98 Second Edition:
Intel Pentium 300MHz,256K L2 缓存(或相当配置,包括 AMD-K6 处理器,256K L2缓存)
自适应与相关算法
说话人自适应 (Speaker Adaptation ,SA)算法有效地解 决了特定人和非特定人系统各自的问题。该方案利用系统使 用者的少量训练语音,调整系统的参数,使得系统对于该使 用者的性能有明显的提高。
目前语音识别系统采用的最实用的框架
自适应算法
目前语音识别技术中使用的自适应方法主要分为两大类
1 N
声学模型,即 Pr(x1··T|w1·· N) ·x ·w
搜索算法1:
时间同步的搜索算法
1.一遍 DP 搜索 常用词典:线性词典和树型词典 具体步骤: 动态规划递归
剪枝操作
基本剪枝策略 声 学 剪 枝 语 言 模 型 剪 枝 直 方 图 剪 枝
搜索算法1:
时间同步的搜索算法(续)
2.词图算法 使用范围:词图搜索算法主要是在词的混淆度 采用词图搜索算法的语音识别系统的框架结构如下图所示: 比较高时用来处理多个词的候选。 优点:声学识别过程可以和复杂语言模型的使 用分离开来,使复杂语言模型可以在后续的 处理过程中被利用上
系统使用技巧
设置麦克风 语音设置 口音适应 在WORD中听写 ViaVoice词汇管理器

设置麦克风
1.启动麦克风设置 2.麦克风设置向导程序将检测计算机并显示出它找到的混音器 设备 3.单击“测试”按钮 4. 使用麦克风 5. 正确安装并测试耳机或外部扬声器后,就可安装和设置麦克 风 6.向导程序将提示你麦克风已设置成功 (注意:选择麦克风使用的每一个适配器 )
语音设置
在对麦克风进行正确的安装和配置后,还必须耐心地进 行语音设置,否则麦克风不能工作。系统提供一组词组要求 我们朗读,语音识别核心根据我们的读音,自动调节麦克风 音量和识别核心,以适应我们的声音。
进行音量调节时,首先进入音量调节窗口,单击开始按 钮后,随着指示框(蓝框)的移动读出当前高亮显示的词。 当蓝色框长时间停止不动时,会出现提示信息,说明麦 克风检测不到声音,请重新检查麦克风设置。
混 合 特 征
L P C C
M F C C
P 语 共 鼻 L 音 振 音 P 帧 峰 联 短 频 合 时 率 特 谱 及 征 带 宽
谱 相 关 特 征
音 调 特 征
K L 特 征
仿真与实现
从训练语音中提取特 征矢量,得到特征矢 量集,通过 LBG 算法 生成码本
1.从输入语音中提取特征参数 2.由每个模板依次对特征矢量序 列进行矢量量化,计算各自的平 均量化误差。
美尔倒谱系数(MFCC)
语音 信号 分帧 加窗 FFT Mel滤 波器组 Log || DCT Mel 倒谱
动态特征与混合特征参数
帧->静态特征
每帧所包含的特征:
动态特征根据静态特征的差分 谱来获取
单独一种参数往往难 以完全反映出每个说 话者的个性特征
参与组合的特征应 该具有区分性、稳 定性和独立性
语音识别技术
1.声学特征 2.声学模型 3.语言模型 4.语音搜索技术 5.系统实现 6.语音识别系统的自棒性与鲁棒性 7.综合总结
声学特征
汇报者:
线性预测倒谱系数(LPCC) 美尔倒谱系数(MFCC) 语音动态特征与混合特征 仿真与实现

线性预测倒谱系数(LPCC)
式中, a i 为线性预测系数, c i为所求的 LPCC 参数,P 是参数的个数。 优点: 1.去掉激励信息,主要反映声道特性。 2.计算量小-且只需十几个倒谱系数。 缺点: 1.对辅音的描述能力较差。 2.抗噪声性能也较弱。
相关文档
最新文档