语音识别的翻译

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然话语识别的字典学习
斯诺波达,亚力怀贝尔互动系统实验室
卡尔斯鲁厄大学- 卡尔斯鲁厄,德国
卡耐基梅隆大学- 匹兹堡,美国
摘要
自然语音给语音识别增加了新任务:端点检测,人类和非人类的噪声,新词和其他非正常发音。

当将一个语音识别系统应用于自然语音时,所有这些现象都需要解决。

在本文中,我们将关注如何自动的将语音词典扩展和应用到自然语音识别。

特别对于自然语音而言,重要的根据语音在数据库中出现的频率,而非词汇中的“正确”发音来选择一个单词的读音。

因此,我们提出了一个数据加载方法,通过模拟数据库中已给出的单词把新的发音添加到已有的语音词典中。

我们将展示这种程序将如何造出其他发音元组,以及一些经常被错误识别的单词。

我们还将讨论如何通过语音识别系统归纳已找到的发音,将知识进一步的整合到语音识别系统中。

GSST已经利用JANUS 2语音识别引擎和卡耐基梅隆大学与卡尔斯鲁厄大学的交互系统实验室的自然语音翻译进行了试验。

1. 引言
对一个语音识别系统而言,语音字典是主要的知识来源之一,这保证了语音识别过程中假定的有效性。

不过与声音模拟或者语言模拟相比,它往往被认为不太重要。

在连续语音识别系统中,研究人员经常使用一个单词的“正确”发音,譬如这个发音可以在词典中找到。

但是,这种“正确”的发音,对于一个已给的任务(尤其是自然语音),往往不是最常见的变异的读法,并且,考虑到目前的声音模拟,这种“正确”的发音也不一定能带来最好的语音识别表现。

如果字典中的音标与数据库中实际情况不匹配,在声学不足的训练过程中,语音单位将被损坏,而这将降低整体性能。

国家文艺语音识别系统开始投入更多的努力来制作带有变异读音和缩略词的字典,这些词典同样能模拟替代发音,如协同构音词。

当我们想要提高语音识别系统的整体性能时,我们特别感兴趣的是给定任务的最常见发音,更好的模拟常被错误识别的单词以及有着强烈的方言变异的单词顺序。

我们将展示程序如何学习单词的发音,从而学习例如协同词那样的替代发音效果,单词的方言变异和单词顺序。

2. 字典学习
通常是通过手工或利用语音规则来修改字典。

手工调整和修改,需要一个字典专家。

尤其是当任务在不断增加或者系统要用于新的任务,将有大量的新单词添加到词典中,这将费时又费力。

手工添加词典的条目通常关注单个单词的出现,并没有改善整体的识别性能。

此外,这还容易出错。

所有下面的错误都可能在手工修改时引入语音字典。

·随着基本的语音单位的增加(通常介于40至100之间)和字典中的条目数的增加,在词典条目间持续应用语音单位将变得越来越困难。

·专家倾向于使用“正确”的单词发音,而对于一个已给定的任务来说,这往往并不是使用最频繁,甚至不是最可能的发音。

·实际发音和“正确”的发音可能很不一样。

在自然语音和方言中有大量的替代发音,而这些往往不易预测。

外国文字和名称的发音就是很好的例子。

·因为很难说哪一个变异读音对于给定任务是有统计意义上的价值性,字典的维护者很容易错过有价值的形式。

如果使用语音规则来生成读音变体,规则的数目可以从几十到几千之间变化。

只使用一部分规则不一定能涵盖所有的自然语音效果,另一方面,使用太多规则则可能导致过多的语音变体。

即使在词典中运用了一小部分规则也会明显地增加读音数目。

需要运用专家知识来限制规则的使用,否则过多的规则可能会导致假变种。

最终也不能保证给定的规则能实际模拟一个单词常见的所有读音变异。

因此,我们提出了一个数据加载方法来改善现有语音词典并且自动添加新的单词,假如需要的话,还可以自动添加新的读音变异。

该程序应该做到:
·在字典中使用语音条目的的驱动性能优化,而不是一个单词的“典型”形式。

·用基本的语音模型在语音词典中产生精确、一致的条目。

·只有具有统计意义上的价值,才生成发音变体。

·在重新优化后后能有更低的发音混乱。

·能有更高的整体识别性能。

我们给了一个词典学习程序的大纲,该程序目的是优化字典,使受损坏的语音单位得到更多的准确训练。

在第一个实验中我们将展示,即使使用一个简单的程序来提取语音变体的候选者也会带来识别性能的显著提高。

我们也将展示通过模拟单词来解决常被错误识别单词问题的实验。

3.程序大纲
我们把修改给定任务前的语音识别系统的训练作为一个音素识别与平滑音素。

我们需要两个音素和语音识别算法来执行。

我们不需要他的任何标记的语音数据,但我们会需要一个字,因为它们在语音识别系统中需要被训练。

此外,我们将需要以下先决条件:
先决条件:
1.在所有现有的语音识别训练的言论里,通过设置现有的语音识别创造字标签,来发现所有字的单词边界。

2.为基础语音识别系统创建一个音素矩阵。

3.创造一个语言平滑音素模型。

4.分析在语音识别系统的训练和验证设置经常出现的错误。

5.根据这个词的生成元组列表仿照字典。

通过语音识别系统的分析,我们发现,他们往往由于简短的语句而造成错误识别。

简单的术语字包含文字“短”的发音。

另一个问题是由于一些字看起来有相似发音变体而变得易混淆。

在这些模型当中的介绍字元组提高了语音识别的性能,因为他减少了声学和语言模型的缺失。

同时使用语音词典和音素识别器,可以通过以下学习:
词典学习算法:
1.在数据库中收集所有元组中的每个词,并在平稳音素LM中运行音素识别器。

2.统计计算所得到所有单词/元组的音标。

3.使用可靠结果对候选人的发音结果进行排序,并且确定一个阈值,拒绝统计不相干的变种。

4.以现有的词典条目,拒绝同音异议词的变种。

5.拒绝只是在混淆音素上的变种。

6.添加新的变种到词典。

7.在验证设置上测试改良的字典集。

8.识别再培训的语音时候,允许在训练时使用多个发音。

9.可选步骤的纠正音素训练可被演示。

10.在验证设置上对识别结果和修改后的识别字典进行测试。

11.将所有的新变种创建成一个新的音素语音模型平滑识别器。

12.可选的第二个方案:
在步骤5中,音素矩阵是用来拒绝混淆该识别器的音素变体之间的变种,因此会导致错误的训练。

(例如:如果拒绝变异德语单词“dann ”,因为音素N 和M 是高度易混淆的)。

在语音单位上这将进一步避免潜在污染。

第8步更准确的训练数据和更好的把握语音单位。

在第11步,新的音素语音模型采用统计知识(类似于语音规则)对已经观察到音素序列进行计算,并在下一次使用这种算法应用。

4.实验设定
4.1 数据库和基准系统
这个文件里的所有实验在德国的数据库称为德国自发性调度任务,它被收集作为VERBMOBIL 项目的一部分。

在这里人与人自发的对话被收集在德国四个不同的网站上。

两个人被给予各种各样不同的约定,必须找到一个适合他们的时段。

测试词汇包含了超过3300个条目。

训练 测试 对话
608 8 话语
10735 110 词
281160 2346 词汇量 5442 543
表1 GSST 数据库
对于这个实验,我们采用JANUS2的混合LVQ/HMM 识别器,我们自发的语音到语音翻译系统,采用包括噪声模型的69个独立的音素语音模型。

4.2 实验
在我们第一组实验中,我们用反复训练进行了上一节所述所有步骤。

表2总结了第一批成果和它们与基线系统不使用替代发音的比较。

在实验A1中,我们生成了在字典中不影响同音字的替代发音。

在实验A2中,我们使用额外音素矩阵拒绝变种,它是易混淆识别的。

对于第二套实验,我们稍微的改善了基线系统。

表3总结反复培训后的结果和不使用其他发音与基线系统B 的比较。

在实验B1中,我们生成和在实验A2中一样的发音。

在实验B2中,我们还用歧视性音素训练,以增加混淆音素之间的歧视。

表2利用字典学习识别结果
用字典
WA 减少错误 基线系统
61.77% — 实验B1
实验B2 6439% 65.6% 5.2% 6.3%
表3经过再培训识别结果
用字典 WA 减少错误 基线系统 60.8% — 实验A1 实验A2 63.5% 64.2% 4.4% 5.6%
用新字典再培训语音识别提高了整体识别性能,额外的歧视性音素训练,进一步改善了识别性能。

在第三套实验里,我们研究了最频繁的字/元组,并且用字典学习算法去生成他们的发音。

在这个实验里没有再培训,因此,有了再培训之后还有改善的可能。

在这些实验,识别基准系统的性能的增加,是因为使用对三元语言模型。

基准系统C的字典有3309项。

在实验C1中额外119元组被添加到词典中。

C2系统使用130个变种字,C3系统用了297个变种字和元组。

用字典WA 减少错误
基线系统65.4% —
实验C1 实验C2 实验C3 67.5%
67.7%
68.4%
3.1%
3.4%
4.4%
表4识别结果和元组字
通过元组字的实验表明,发音变种在一个更大的范围内找到了和辩证变种模型一样的短句。

4.3 例子
对造成的元组字读音的一些例子列在下面的两个表。

在第一个表,你看到的德语单词的发音变种“ist”和“es”,和这两个字的缩写,导致元组“ist-es”。

第二个表显示发音为元组候选“einen - Termin”和“nochsinen - Termin”,在给定任务中经常出现并且发音非常草率的两个元组,在很多发音变体中辩证出现相当多的发音变体,这往往是自然的变化中找到讲德语发音。

发生发音
23.35% 36.55% ?IST ? IS
为IST申请发音发生发音
11.40% 21.24% 23.83% S ?ES ?IS
为ES申请发音秩发音
(1)(2)?ISIS ?ISES
为IST ES申请发音表格5,例1
秩发音
(1)(2)(3)(4)(5)(6)
? AI N T ER M IE N
? AI N E2 N T ER M IE N
N T ER M IE N
N E2 N T ER M IE N
? AI N E2 N T ER M IE N
? E N T ER M IE N
为einen Termin申请发音
秩发音
(1)(2)(3)(4)N O X AI N T ER M IE N
N O X ? AI N T ER M IE N
N O X AI N E2 N T ER M IE N N O X E2 N T ER M IE N
为noch einen Termin申请发音
表格6 例2
5.结论
我们已经指出,手工添加或修改语音变异是容易出错并且很费力的过程。

本文给出了一个学习词典的数据加载程序,这个程序可以通过使所有词典条目与基本的语音模型保持一致在语音词典中自动生成新单词。

我们的研究结果显示,通过使用单词音素可以更准确地模拟一些经常被错误识别的单词,同时利用学习词典也能找到这些音素的读音。

在语音识别过程中利用平滑音素语言模型可以无需追踪和应用语音规则就能整合先前观察的音素顺序。

实验表明,我们用来适应和添加音标到现有词典中的学习词典显著地改善了语音识别系统的整体识别性能。

致谢
本研究作为VERBMOBIL项目的一部分,得到了德国科技部(BMBF)413-4001-01IV101S3的部分资金支持。

本文中的观点和结论为作者所有。

笔者要感谢ISL所有成员所有有益的讨论和积极支持,特别是迈克尔芬克和莫妮卡威逊他们极有帮助的讨论以及克劳斯里斯关于语言模型方面的帮助。

我特别感谢我的导师亚历韦伯。

6.参考文献
1.斯洛波达:词典学习:语音信号处理通过性能的一致性:1995年,底特律,页453-456。

2.A.Waibe1, M.Finke, D.Gates, M.Gavaldh, T.Kemp, vie,L.Levin, M.Maier, L.Mayfield,
A.McNair, I.bgina, K.Shima,T.Sloboda, M-Woszwyna, T-Zeppenfeld, P.Zhan: JANUS II - 会话语言,语音信号处理项目1996年的亚特兰大,第1卷,第409-412。

3.M. Woszuyna, N. Aoki-Waibel, F.D. Bu0, N. Coccaro, K.Horiguchi, T. Kemp, A. Lavie, A. McNair, T. Polzin, I.hgina, C.P. Rose, T. Schultz, B. S u b , M. Tomita, A.Waibef: JANUS 93:走向自然话语,电力系统及其语音与信号处理1994年,阿德莱德,第1卷,345-3488页。

4.M. Woszczyna, N.Coccaro, A.Eisele, vie, A.McNair,T.Polzin, 1-Rogina, C.P.Rose, TSloboda, M.Tomita,J.Tsutsumi, N.Aoki-Waibel, A.Waibe1, W.Ward: 近期亚努的一个演讲,演讲lhnslation系统,欧洲电力系统的进程,柏林,1993年。

5.JLGauvain,LFLamel,葛阿达,M.Adda -德克:连续语音听写系统:在华尔街日报上的评价,语音信号处理会议1994年,阿德莱德,第1卷,第557-560。

6.Tom Imai, Akio Ando, Eiichi Miyasaka:一个新方法关于说话人一般自动依赖语音规则的语音信号处理会议1995年,底特律,第一卷,864-867页。

相关文档
最新文档