大词汇量连续语音识别探讨

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2007年8月

技术Vol.15No.4

Aug.2007

语音识别[1]技术是研究如何使得机器能够听懂人的话语的技术。这项技术一般分为连续语音识别和孤立词语音识别。本文探讨的就是大词汇量连续语音识别技术,重点是这项技术在中文和英文上的发展。

随着80年代初隐马尔可夫模型引入到语音识别这个领域,语音识别技术得到了突飞猛进的发展,语音识别也从小词汇量孤立词发展到大词汇量连续语音。为了进行大词汇量连续语音识别,各研究机构均提出了许多新颖的方法,并且大多数方法在某个任务上都取得了成功。但是,有些方法可能在A机构的任务集上能够取得很好的效果,但是在B机构的任务集上却难以取得好的效果。如何能够知道这个算法的优劣呢?显然,我们需要一个共同的任务集,大家都在这个任务集上工作,在同一参考标准下来评估算法的优劣。

在这方面,英文的连续大词汇量语音识别走在了前列。也正如此,现在国际上英文的语音识别技术代表着该领域的最高水平。

1英文大词汇量连续语音识别

美国的DARPA(DefenseAdvancedResearchProjectsAgency)从1989年开始举行LVCSR的比赛,每年一次。参加的机构既有像IBM这样的公司,也有Cambridge这样的学校研究机构。比赛的任务也从最开始的简单的听写机的比赛,发展到之后的BroadcastNews和TelephoneConversation这样难度的比赛。DARPA的比赛大力推动了LVCSR技术的发展。这10多年来,涌现出了许多新颖的技术,其中一些技术已经被人们广泛的使用。可以这么说,这些年来LVCSR技术的发展与DARPA的贡献是密不可分的。

1.1DARPA的LVCSR任务的历史回顾

首当其冲的是1989年开始的ResourceManage-ment任务,它分别在1989、1990、1991和1992举行了4次比赛。训练集是109个人的3990句话,内容是一些信息查询。测试集是10个人的300句话。词典总共有997个词。在今天看来,RM是一个非常小的任务,但是它的设计机制为今后的LVCSR的比赛打下了一个很好的基础。

1992年开始了著名的WallStreetJournal评测,WSJ的语料来自华尔街日报,属于新闻类型。1992年和1993年WSJ任务的词典的大小分别是5k和20k。WSJ任务的训练语音数据是非常大的,而且还提供训练语言模型的语料[2]。

1994年WSJ被扩展,引入了NorthAmericanBusiness的语料,词典发展到65k。这个任务也被叫做WSJ/NAB,有时也称为HUB1。从这个时候起,DARPA的比赛很多时候被冠以HUB,这是由于一种特殊的测试机制。

1995年发展出HUB3任务,在这个任务中,已经

第15卷第4期2007年8月电脑与信息

ComputerandInformationTechnology

文章编号:1005-1228(2007)04-0054-03

大词汇量连续语音识别探讨

阮玲英,陈立万

(重庆三峡学院应用技术学院,重庆404000)

摘要:文章探讨了中文和英文的大词汇量连续语音识别,讨论了如何设计数据库进行不同识别技术的评测,采用何种评测方法,以及一些代表性的语音识别技术。

关键词:大词汇量连续语音识别;任务;评估

中图分类号:TN912.34文献标识码:A

TheResearchonLargeVocabularyContinuousSpeechRecogntion

RUANLing-ying,CHENLi-wan

(SchoolofAppliedTechnology,ChongqingThreeGorgesUniversity,404000,China)Abstract:ThispaperdiscussedtheChineseandEnglishlargevocabularycontinuousspeechrecognition.Itdiscussedhowtodesignthedatabasetoevaluatedifferentrecognitiontechnologies,andhowtoevaluatethem.Somestandardspeechrecognitiontechnologiesaregiven.

Keywords:LVCSR;task;evaluation

收稿日期:2007-04-27

作者简介:阮玲英(1976-),女,重庆,讲师,研究方向:语音合成;陈立万(1964-),男,重庆人,副教授,研究方向:语音信号处理。

第15卷第4期

不是只考虑干净语音的LVCSR,而是考虑各种实际的情况。所以引入了噪声和不同麦克风的不匹配问题。

1996年开始推出HUB4任务,在此之后HUB4任务一直存在直到1999年。在此之前的任务目标都是一个听写机的测试。而HUB4任务是针对广播新闻(BroadcastNews)语料来进行识别的,在BroadcastNews这样的任务里,有着各种情况,比如说背景有音乐等,这个任务的难度远高于ReadSpeech任务的难度。

DARPA1998年正式推出了电话语音识别的评比。这个任务又称为HUB5,以后每年都举行,到2001年结束。这个任务的语料是在Switchboard上录制的电话的交谈语料,所以,有时这个任务也称为Hub5-Switch-board任务。这个任务也是非常难的,一个是由于电话信道的变化,不同说话人的电话特性也是不同的。另外,由于是交谈,很多时候,内容与书面语也是不一样的。在2002年,DARPA又推出了RichTranscriptionEvaluation任务来取代Hub5-Switchboard任务。1.2比赛评估机制

显然,比赛评估机制最直接的方法就是评估错误率。所以,DARPA以及现在绝大多数研究机构都将WER(WordErrorRate)作为评判的标准。将识别结果与该句子正确的transcription对齐,就可以得到三种类型的错误:替换错误(S),插入错误(I)和删除错误(D)。则:

WER=S+D+I

*100%

其中N是该句子含有的词的个数。

关键问题是如何对齐。现在采用的也是标准的策略,是一个动态规划的方法,为每种错误赋予相应的错误代价。这里有个原则,插入错误和删除错误的代价相同:PD=PI,而插入错误和删除错误的代价之和大于替代错误的代价:PD+PI>PS.在评估的时候,这三个代价的取值一般是:PS=4,PD=PI=3.

但是这种对齐方法也有一定的问题,如下面这个例子:

REF:HeCalledForANewStart

(A)HYP:HeCalledForeignNewsTheArt

(B)HYP:HeCalledForeignNewsTheArt

在这个例子中,(A)HYP是根据传统方法对齐的结果,我们可以看到4个替代错误。而(B)HYP是另一种对齐方式,出现了3个替代错误,以及1个插入错误和1个删除错误。但是,我们的直觉告诉我们,(B)HYP的对齐效果更好。所以,有一种方法提出使用phono-logically-based策略,基于每个音素之间的距离来对识别结果对齐。另外,还有人提出将识别结果打上时间标签,然后去对齐。还有一些方法根据任务的不同,采用自适应的transcription。这些方法都存在着实现复杂的缺点,所以最终都没有被DARPA正式采用。

图1是1989年到1999年的DARPA比赛的最优性能图,从图中可以看到在ReadSpeech任务上,最好的技术已经取得了错误率小于或接近10%的效果,而对于HUB4和HUB5来说,错误率仍然居高不下。

1.3主要技术

所有这些语音识别系统,最核心的技术都是采用隐马尔可夫模型。我们搭建的系统模型,由于参数非常多,但是训练数据有限,就会出现分配到每个参数的训练数据非常少的现象。这将导致对模型参数的估计出现极大的偏差。而决策树[3]方法可以通过决策树对参数进行绑定,一些参数共用相同的训练数据,解决了数据稀少的问题。在具体的系统中,使用triphone模型作为参数模型。由于triphone的数目巨大,而且需要预测不可见的triphone,所以引入了决策树。决策树对tri-phone状态的绑定是对LVCSR技术的一个非常大的贡献,在此之后的LVCSR系统,无论是使用triphone还是quinphone,最终都要求助于决策树。Triphone等基于Context的模型单元的引入使得识别器能够模拟更细致的语言现象,这可以说是90年代语音识别的一个具有深远意义的技术。

在HUB中,这些系统都是非常庞大的,在一个大的系统中,关注的是如何使系统性能最优,所以不断地进行参数模型的优化。在这些不断优化的过程中使用的方法,最大似然线性回归(MLLR)[4]是一个非常优秀的方法。MLLR自适应是90年代语音识别的另一个非常重要的技术,可以用该方法调整高斯分布的均值。这个方法就是使用一个变换矩阵来变换模型的均值,这个变换矩阵应该是采用无监督方法获得。采用的策略图1DARPA比赛的最优性能图

1988198919901991199219931994199519961997199819992000200120022003100%

10%

1%

CountesyNIST1999DARPA

HUB-4Report,Pallettetal.Management

Resource

1kNoisy

5k

NAB

foreign

Speech

Broadcast

Microphone

Varied

20k

ATIS

Speech

Spontaneous

WSJ

Speech

Readforeign

Speech

Conversational

Switchboard

阮玲英等:大词汇量连续语音识别探讨・55・

相关文档
最新文档