语音信号处理语音识别.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.2.2 语音识别 语音识别是语音识别系统的核心部分。除包括语音的声学模 型以及相应的语言模型的建立、参数匹配方法、搜索算法、 话者自适应算法,还包括增添新词的功能、数据库管理和友 好的人机交互界面等等。 语音模型:语音模型一般指的是用于参数匹配的声学模型。 语音声学模型的好坏对语音识别的性能影响很大,现在公认 的较好的概率统计模型是HMM模型。因为HMM可以吸收环境和 话者引起的特征参数的变动,实现非特定人的语音识别。 识别模型的基元单位的选择对于识别性能也有很大的影 响。对于日语和英语,以半音节、环境依存音素为模型的研 究例子较多。对于汉语,则可用“声母---韵母”,也可用 音节字、词等识别基元。
语音参数分析:经过预处理后的语音信号,就要对其进行特 征参数分析,其目的是抽取语音特征,以使在语音识别时类 内距离尽量小,类间距离尽量大。识别参数可以选择下面的 某一种或几种的组合:平均能量、过零数或平均过零数、频 谱、共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关 系数)、声道形状的尺寸函数,以及音长、音高、声调等超 声短信息函数。 现在,经过FFT变换或者LPC得到功率谱以后再经过对数变换 和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。
ຫໍສະໝຸດ Baidu
抗噪声:环境噪声不可能完全消除。对于手自由的语音识别 (Hand-Free),话筒与嘴有一定距离的时候,以及在汽车 里或户外等周围环境噪声大的时候必须对输入信号进行降噪 处理。对于平稳噪声,传统的谱相减(SS)降噪声技术是有 效的,对于非平稳噪声也有通过两个话筒分别输入语音和噪 声相互抵消加以消除的方法。 语音区间的端点检测:端点检测的目的是从包含语音的一段 信号中确定出语音的起点以及终点。有效的端点检测不仅能 使处理时间减到最小,而且能排除无声段的噪声干扰,从而 使识别系统具有良好的识别性能。传统的端点检测方法是将 语音信号的短时能量与过零率相结合加以判断的。但这种端 点检测算法如果运用不好,将会发生漏检或虚检的情况。为 了克服传统端点检测算法的缺点,已有很多改进方法被提出 来。例如,可以考虑采用基于相关性的语音端点检测算法。
实用语音识别研究中存在的几个主要问题和困难如下: (1)语音识别的一种重要应用是自然语言的识别和理解。 (2)语音信息的变化很大。 (3)语音的模糊性。 (4)单个字母及单个词语发音时语音特性受上下文环境的 影响,使相同字母有不同的语音特性。 (5)环境的噪声和干扰对语音识别有严重影响。
计算量和存储量的削减:对于在有限的硬件和软件资源下动 作的语音识别系统,降低识别处理的计算量和存储量非常重 要。当用HMM作为识别模型时,特征矢量的输出概率计算以 及输入语音和语音模型的匹配搜索将占用很大的时间和空间。 为了减少计算量和存储量,可以进行语音或者标准模式的矢 量量化和聚类运算分析,利用代表语音特征的中心值进行匹 配。在HMM语音识别系统中,识别运算时输出概率计算所消 耗的计算量较大,所以可以在输出概率计算上采用快速算法。 另外为了提高搜索效率,可以采用线搜索方法以及向前向后 的组合搜索法等。
9.1 概述
语音识别(Speech Recognition)主要指让机器听懂人说的 话,即在各种情况下,准确地识别出语音的内容,从而根据 其信息,执行人的各种意图。它是一门涉及面很广的交叉学 科,与计算机、通信、语音语言学、数理统计、信号处理、 神经生理学、神经心理学和人工智能等学科都有着密切的关 系。
连续语音的自动分段:连续语音的自动分段,是指从语音信 号流中自动地分割出识别基元的问题。把连续的语音信号分 成对应于各音的区间叫做分割(Segmentation),分割的结 果产生的区间叫做分割区间(Segment),给分割区间付与 表示音种的符号叫做符号化。汉语自动分段是指根据汉语特 点及其参数的统计规律,设置某些参数的阈值,用计算机程 序自动的进行分段。通常可用的参数有:帧平均能量、帧平 均过零数、线性预测的第一个反射系数或其残差序列、音调 值等。从简单、快速的要求而言,最好采用前两种时域参数 即帧平均能量FN和帧平均过零数ZN。
一般语音识别系统框图
9.2.1预处理和参数分析 语音信号预处理部分包括:语音信号的电压放大、反混叠滤 波、自动增益控制、模/数变换、去除声门激励及口唇辐射 的影响等。这里仅对个别需要注意的地方做一些介绍。 话筒自适应和输入电平的设定:输入语音信号的品质对语音 识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。 选择好的麦克风,不仅能提高输入语音质量,而且,还有助 于提高整个系统的鲁棒性。为了保持高精度的语音分析, A/D变换的电平必需正确的设定。同时还要通过AGC来自动的 调整输入电平放大的倍数或者通过对于输入数据进行规整处 理来控制语音数据幅度的变化。
语音识别方法:当今语音识别技术的主流算法,主要有基于 参数模型的隐马尔可夫模型(HMM)的方法和基于非参数模 型的矢量量化(VQ)的方法。另外,基于人工神经网络(ANN) 的语音识别方法,也得到了很好的应用。 传统的基于动态时间伸缩的算法(DTW),在连续语音 识别中仍然是主流方法。同时,在小词汇量、孤立字(词) 识别系统中,也已有许多改进的DTW算法被提出。 用于语音识别的距离测度有多种,如欧氏距离及其变形 的欧氏距离测度、似然比测度、加权的识别测度等。选择什 么样的距离测度与识别系统采用什么语音特征参数和什么样 的识别模型有关,
9.2 语音识别原理和识别系统的组成
语音识别系统是建立在一定的硬件平台和操作系统之上的一 套应用软件系统。 语音识别一般分两个步骤。第一步是系统“学习”或“训练” 阶段。第二步是“识别”或“测试”阶段。 语音识别技术加上各种外围技术的组合,才能构成一个完整 的实际应用的语音识别系统。从语音识别系统的各个功能划 分的角度出发,语音识别系统可分为语音信号的预处理部分、 语音识别系统的核心算法部分以及语音识别系统的基本数据 库等几部分。
一般语音识别系统按不同的角度有下面几种分类方法。 孤立词、连接词、连续语音识别系统以及语音理解和会话系 统。 大词汇、中词汇和小词汇量语音识别系统。 特定人和非特定人语音识别系统。 语音识别所采用的方法也可以作为语音识别系统分类的依据, 因此,也有从识别方法上来对语音识别系统进行分类的。语 音识别方法一般有模板匹配法、随机模型法和概率语法分析 法三种。