语音识别文献综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
噪音环境下的语音识别
1.引言
随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究.
语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。
2.语音识别的发展历史和研究现状
2.1国外语音识别的发展状况
国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。
20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。
20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。
20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。
当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识
别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。
2.2国内语音识别的发展状况
20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才由中科院声学所开始进行计算机语音识别的研究.80年代开始,很多学者和单位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别,到非特定人、大词汇量连续语音识别的研究工作.80年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。因此,对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义.
2.3语音识别的分类
语音识别存在不同的分类方法:
(1)按词汇量大小分。每个语音识别系统都有一个词汇表,系统能识别词汇表中所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词汇量包括10~100个词;中词汇量大约包括100~500个词条;大词汇量则至少包含500个以上的词条。
(2)按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音
识别以及关键词检出等。孤立词识别,是机器只识别一个个孤立的音节、词或者短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词识别中,发音方式介于孤立词和连续语音之间,它表面上看起来象连续语音发音,但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由交谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别.
(3)按说话人分.可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音,而后者是机器能识别出任意人的发音。
(4)从语音识别的方法分.有模式匹配法、随机模型法和概率语法分析法。模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决.
2.4噪声对语音识别的影响
随着科技的发展,人们对语音识别的研究越来越深入,在理论上达到了很成熟的阶段,也开始步入实用化阶段。以mM的ViaV oice为代表,其对连续语的识别率可以达到95%以上.但是所有识别系统对噪声都是极为敏感的,在噪声环境下,识别性能会大幅度下降州.例如,在一个典型的孤立词识别系统中,用纯净语音训练,识别效果会达到100%,但在以100公里每小时的速度行驶的小车上,其识别率将下降70%左右;一个用纯净语音训练的识别系统,误识率不到l%,但是在自助餐厅里,其误识率竟然上升近50%:一个与说话者无关的语音识别系统,在实验室环境下其误识率不到l%,但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音,其错误率将高达44%。在噪声环境下,识别系统的识别率大幅度下降,是现在语音识别产品无法广泛走入实用的主要障碍。
在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。在实验室环境下,训练环境相对安静,基本上是对纯净语音迸行训练,模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大幅度下降。
为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:
(1)假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度.
(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数.这种方法被称为语音增强。
(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声补偿.无论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类.
(1)如性噪声
噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的和,这种噪声就是所谓的加性噪声。语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声.
(2)乘性噪声
乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷积关系的噪声。乘性噪声可以转换为加性噪声.由于实际环境中的背景噪声多数是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。我们在后面讲到的去噪,也是指去除加性噪声。