噪音环境下的语音识别研究概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

噪音环境下的语音识别

摘要：语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。

关键词：语音信号，识别，应用

众所周知，语音在人类社会中起了非常重要的作用。在现代信息社会中，小至人们的日常生活，大到国家大事、世界新闻、社会舆论和各种重要会议，都离不开语言和文字。近年来，普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中，语音信号处理中的语音编码和语音合成就有很大贡献。再进一步，可以预料到的口呼打字机(又称听写机，它能把语音转换为文字)、语音翻译机(例如输入为汉语，输出为英语，或者相反)，已经不是梦想而是提到日程上的研究工作了。

计算机语音识别的最终目标是使计算机能够听懂人的语言。尽管语音识别的研究历史最早可以追溯到二十世纪50 年代初，但是直到60 年代中期以后才作为一个重要的课题展开工作，并且逐步取得实质性的进展。这有两方面的原因，一方面计算机产业的迅速发展提出了使用要求，同时软、硬件环境的改善为复杂算法的实现提供了好的环境；另一方面，数字信号处理的理论和算法已有相当基础。许多算法诸如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等已经出现，语音信号特有的基音周期、共振峰等特征的提取算法也出现了。识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。近十年来，语音识别的产品也逐渐多起来，例如Motorola 的语音拨号电话、IBM 的语音听写机等。但是，现有的语音识别系统都存在一个共同的问题，即性能不稳定。不同的用户、不同的信道、不同的背景噪音环境、不同的口音和发音方式都对识别性能有很大的影响。最近十多年来抗噪语音识别方法形成了高潮，因此，提高语音识别系统对噪音的鲁棒性，是今后语音识别研究的一个重点。

1 三种典型的去噪处理方法

我们可以将各种抗噪方法粗略可以分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法。后两种方法有些交叉。下面逐一进行讨论。

信号级抗噪处理

这种处理是从带噪语音信号中提取尽可能纯净的原始语音，在语音信号处理中称为语音增强。语音增强技术在语音通讯、语音识别中有都有应用。在实际应用推动下，早在60 年代语音增强这个课题就已引起了人们的注意，70 年代形成一个高潮，取得了一些基础性成果。由于噪声来源众多，并随应用场合而异，它们的特性也各不相同，因此，即便是在实验室仿真条件下，也难以找到一种通用的、能适用于各种噪声环境的语音增强算法。这就表明：必须针对不同噪声，采取不同的语音增强对策。文论述了如下一些语音增强方法：LPC 全极点模型增强算法、最大后验概率估计法、卡尔墁滤波法、维纳滤波法、谱减法及其改进形式、最小均方误差估计。则分别对噪音同化法、子波消噪算法、小波单阈值消噪算法、小波频带阈值消噪算法、使用心理声学准则的残余噪声抑制法进行了论述。在上述

方法中，谱减法是语音增强领域中用得最广泛的方法之一，但它也有明显的缺点，即信号在去噪处理后将带有明显的音乐噪声。利用心理声学原理给出了适用于各种语音增强方法后处理的残余噪声抑制法。微软公司曾将干净语音的数据加上各种噪声后做语音增强，然后再进行特征参数提取、训练模型参数，而在识别时，先进行语音增强处理，然后再进行识别。这种方法的特别之处在于：噪音是人为地加入到训练用的干净语音中的。因此，我们可以将这种方法视为一种“反语音增强”的去噪识别方法。按微软公司的报告，这种方法对噪音有很好的鲁棒性。针对汽车噪音，我们的实验表明，小波频带阈值消噪算法的去噪效果在听觉和端点信息保留方面具有一定的优势，其效果要明显好于前面提到的噪音同化法、均值滤波法、谱减法等各种方法。小波频带阈值消噪算法的具体步骤如下：

（1）对原始语音数据做N－1 次小波变换，得到N 个频带的小波系数。

（2）认为原始语音的前0.1 秒是纯噪音，并根据这些噪音数据在各频带上的小波系数，给出频带各自的噪音最大值的估计M(i),i=0,…,N-1。其中，i 是频带标号。

（3）设定相对阈值K,令每个频带的阈值D(i)=K*M(i),i=0,…,N-1。

（4）对各频带小波系数x(j)进行软滤波：

x(j)=sgn(x(j))*Max{abs(x(j))-D(i),0}。其中j 是小波系数的下标。

（5）对新小波系数进行N－1 次相应的反小波变换，得到语音增强信号。

特征参数级抗噪处理目前绝大多数识别系统使用倒频谱类特征参数，例如

LPC-CEP,MEL-CEP,FFT-CEP 等，大量的实验表明，这些特征参数对环境噪音的鲁棒性并不好。可以将特征参数级抗噪处理方法分为三类: 第一类在特征参数的计算过程中去除噪音的影响；第二类是特征参数变换法；第三类是提取新的抗噪特征参数。文提出了特征参数标准化方法,文又对之加以改进,这种方法属于第二类。具体的一种实现方法为：记第i 帧的特征参数为v(i),变换后第i 帧的特征参数为O(i),处理过程如下：

（1）以当前帧为中心，计算2N+1 帧特征参数的均值、标准差：m(i)={v(i-N)+ v(i-N+1)+ …+v(i+N-1)+ v(i+N)}/(2*N+1)，sum(i)= ｛v(i-N)2+ v(i-N+1)2+ …+v(i+N-1)2+ v(i+N)2｝/(2*N+1)-m(i)2/(2*N+1),d(i)=sum(i)1/2

(2) 将当前帧的特征参数减去均值后除以标准差:O(i)={v(i)-m(i)}/d(i)上述

方法部分消除了训练集与识别集因背景噪音不同造成的模型不匹配现象，我们的实验表明这种处理方法的识别性能很好。需要说明的是，(I) 在计算均值和标准差时，可以使用一些变形方法。例如，可以用全部语音帧或当前帧前的N 帧的特征参数来计算计算均值和标准差。在语音前、后端处也需要做一些特殊处理。针对加性噪音，我们曾经在特征参数LPC-CEP 的计算过程中进行了去噪处理，即在计算自相关函数时消除噪音的影响，从而达到消除噪音对LPC-CEP 的影响的目的；也对Mel-CEP进行过类似的实验，即在计算频带能量的时候，消除噪音的影响。然而，这些实验的结果都不是很理想。经过仔细观察和分析，发现噪音的自相关函数和频带能量有很高的时变性，简单地用语音开始前若干帧自相关函数、频带能量的均值做为当前帧相应量的估计是不可行的。总的看来，特征参数变换法尚有一定的研究空间，但难度很大，其关键在于要选出一种好的变换方法。1.3 模型级抗噪处理模型级抗噪处理方法主要有两类，一类是用与测试集有相同环境的少数数据对模型进行快速适应，这是一种对噪音模型的自适应方法，相关的文章很多，在此不一一详述。另一类是直接在识别模型中增加对环境噪音的处理。文中介绍的HMM 框架下的噪音适应法属于第一类。M.J.Gales 在1992 年提