语言信号处理与识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实用化产品。IBM公司率先推出的汉语ViaVoice语音识别系统,带有 一个32,000词的基本词汇表,可以扩展到65,000词,平均识别率可 以达到95%,可以识别上海话、广东话和四川话等地方口音,是目前 具有代表性的汉语连续语音识别系统。
21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产 品方面,各大公司纷纷推出自己产品。目前世界上最先进的语音识别 软件,既不是微软生产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking 己经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示 出说话的内容,很容易识别和纠正错误.久而久之,该软件就会适应用 户的说话风格。
语音信号产生的时域模型
语音信号分析基础
语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、 语谱分析等。 语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的 运动密切相关,这种物理运动比起声音振动速度来讲要缓慢得多,因 此语音信号可假定为短时平稳的,其频谱特性和某些物理参数在1030ms时间段内是近似不变的,对语音信号进行处理都是基于这个假设 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过 零率等,这些参数主要用在语音端点检测中。频域分析参数主要有基 音频率、滤波器组参数、线性预测系数(LPC)、线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient, LPCC)、线谱对参数(Linear Spectrum Pair, LSP),MEL频率倒谱系数(Mel-Frequency Cepstrum Coefficient, MFCC)等.
端点检测效果图
语音信号的特征参数提取
提取特征参数满足的要求: 1、能有效地代表语音特征,具有很好的区分性 2、参数间有良好的独立性 3、特征参数要计算方便,要考虑到语音识别的实时实现
(4) 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特性将语音时域 采样信号分为若干段,计算出每一段的特征矢量序列作为识别参数。 但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚至 有些不同词语的混叠程度会超过同一词语的不同次发音,从而降低 识别率。
二、语音识别系统基本原理
(3)神经网络的方法 基于ANN的语音识别系统通常由神经元、训练算法及网络结构 等三大要素构成。由于基于神经网络的训练识别算法由于实现起来 较复杂,目前仍只是处于实验室研究阶段。 目前语音识别的研究主流是大词汇量的非特定人的连续语音系 统,但是事实上,对于许多应用来说,一个语音识别系统只要一组 词汇或命令,它就可能为用户提供一个有效的工具,简单有效的孤 立词特定人语音识别系统就能满足要求。正是孤立词特定人语音识 别系统广阔的应用前景以及优越性促使我们继续对它进行研究 目前市场上出现的语音识别器大多数是特定人孤立单词语音识 别系统。
语音信号产生模型
语音是由空气流激励声道产生的。对于浊音、清音和爆破音三 种不同类型的音来说,激励源是不同的。浊音激励源是位于声门处 的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气 湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点处 建立起来的气压及其突然释放。
语音生成系统分为三个部分,在声门(声带)以下,称为声门子 系统,它产生激励振动,是激励系统:从声门到嘴唇的呼气通道是声 道系统:语音从嘴唇辐射出源自文库,所以嘴唇以外是辐射系统。因此,完 整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和 辐射模型的串联表示。
在实践上,小词汇量孤立词的识别方面取得了实质性的进展 ,实现 了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。这一 时期的语音识别方法基本上是采用传统的模式识别策略。 80年代语音识别研究进一步走向深入,其显著特征是HMM模 型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型 的广泛应用应归功于AT&T Bell实验室的Rabiner等科学家的努力, 他们把HMM纯数学模型工程化,从而为更多研究者了解和认识。 研究的重点逐渐转向大词汇量、非特定人连续语音识别。 90年代,随着多媒体时代的来临,在语音识别技术的应用及产 品化方面出现了很大的进展。许多发达国家如美国、日本、韩国以 及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化 开发投以巨资。语音识别技术实用化进程大大加速,并出现了许多
语音识别系统基本构成
预处理 预处理部分包括语音信号的采样、反 混叠滤波、语音增强,去除声门激励和 口唇辐射的影响以及噪声影响等,预处 理最重要的步骤是端点检测。
特征提取 特征提取部分的作用是从语音信号波 形中提取一组或几组能够描述语音信号 特征的参数,如平均能量、过零数、共 振峰、倒谱、线性预测系数等,以便训 练和识别。参数的选择直接关系着语音 识别系统识别率的高低。
2、预加重 为了消除声门激励和口鼻辐射的影响,需要对语音信号作预加 重理。它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将 对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变 的平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频 谱, 以便于频谱分析。
H ( z) 1 z ,其中u的 预加重数字滤波器一般是一阶的数字滤彼器: 取值一般介于0.93和0.98之间。
发展和现状:
20世纪50年代,AT&T Bell(贝尔)研究所成功研制了世界上 第一个能识别10个英文数字的语音识别系统一Audry系统,这标 志着语音识别研究的开始。
60年代计算机的应用推动了语音识别的发展。这一时期的 重要成果是动态规划(Dynamic Programming, DP)和线性预测分 析(Linear Predictive)技术。其中后者较好的解决了语音信号产 生的模型问题,对语音识别产生了深远的影响。 70年代语音识别领域取得了突破。在理论上,LP 技术得到进一 步发展,动态时间规整技术(DTW)的基本成熟,特别是提出了 矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
语音识别的基本方法:
一般来说,语音识别的方法有三种:基于声道模型和语音知识 的方法、模板匹配的方法以及利用人工神经网络的方法。 (1)语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面 的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用 的阶段.
(2)模板匹配的方法 模板匹配的方法发展比较成熟,目前己达到了实用阶段。常用 的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量 量化(VQ)技术。
3、端点检测 端点检测的目的就是从连续的声音中间检测出每一段语音的起 始点和终止点,从而达到节省系统资源,方便实时分析的效果。此 外,端点检测的好坏还将直接影响孤立词识别率的高低。 双门限前端检测算法是经典的起止点检测算法,这种端点检测 技术主要利用短时过零率特征和每帧的平均幅值特征来判断语音信 号的起止点,采用矩形窗进行分帧。
我国语音识别研究工作起步于五十年代,但近年来发展很快, 研究水平也从实验室逐步走向实用。从1987年开始执行国家863计 划后,国家863智能计算机专家组为语音识别技术研究专门立项, 每两年滚动一次。我国语音识别技术的研究水平己经基本上与国外 同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际 先进水平。其中,具有代表性的研究单位是清华大学电子工程系与 中科院自动化研究所模式识别国家重点实验室。 由清华大学电子工程系语音技术与专用芯片设计课题组研发的 非特定人汉语数码串连续语音识别系统,识别精度达到了 94.8%(不定长数字串)和96.8%(定长数字串).
训练 训练是建立模式库的必备过程,词 表中每个词对应一个参考模式,它由 这个词重复发音多遍,再经特征提取 和某种训练中得到。 模式匹配 模式匹配部分是整个系统的核心, 其作用是按照一定的准则求取待测语 音特征参数和语音信息与模式库中相 应模板之间的失真测度,最匹配的就 是识别结果。
三、预处理及特征参数提取
语音信号处理与识别
一、语音识别概述 二、语音识别系统基本原理
三、预处理及特征参数提取
四、模板匹配技术
一、语言识别概述
人类利用语言相互交流信息,包括语音和文字两种表达方 式。通过语音相互传递信息,这是人类最重要的基本功能之一。 随着信息社会的发展,人与人之间,自不必说,即使在人与机 器之间也每时每刻都需要进行大量的信息交换。 语音识别技术以语音信号为研究对象,是语音信号处理的 一个重要研究方向 。其最终目标是实现人与机器进行自然语言 通信。
从说话的方式分:
(1)孤立词语音识别系统:其输入系统要求输入每个词后要停顿; (2)连接词语音识别系统:其输入系统要求对每个词都清楚发音, 开始出现一些连音现象; (3) 连续语音识别系统:连续语音输入自然流利的语音,会出现 大量的连音和变音。 另外从识别系统的词汇量大小分:小词汇量语音识别系统(几 十个词);中等词汇量语音识别系统(几百到上千个词);大词汇 量语音识别系统(几千到几万个词)。
语音识别系统分类:
从说话者与识别系统的相关性分: (1)特定人语音识别系统:仅考虑对于专人的话音进行 识别,与说话的语种没有关系; (2)非特定人语音识别系统:识别的语音与人无关,通 常要用大量不同人的语音数据库对识别系统进行学习,识 别的语言取决于采用的训练语音库; (3)多人的识别系统:通常能识别一组人的语音该系统 通常要求对该组人的语音进行学习,通常可以识别三到五 个人的语音。
1
3、语音分帧 语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内, 其频谱特性和某些物理特征参量可近似地看作是不变的。这样就可
以采用平稳过程的分析处理方法来处理了。这种处理的基本方法是将 语音信号分隔为一些短段即分帧再加以处理。分帧可以采用连续分段 的方法,也可采用交叠分段的方法。一般采用交叠分段的方法,即帧 与帧之间有交叠,交叠的目的是使帧与帧之间平滑过渡,保持其连续 性。语音信号处理的帧长一般取20ms。为了减小语音帧的截断效应, 需要加窗处理。
孤立词语音识别系统中的难点问题: (1) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的 差异,即使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致 语音识别系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。在 安静环境下有声段和无声段时能量存在很大差异,由此判断语音的起 点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测 的误差从而导致识别结果错误。
语音信号的时域分析
1、短时平均能量 短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律。可 以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时 短时平均能量的值大很多。 2、短时过零率 短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连 续信号,过零率意味着时域波形通过时间轴;在离散时间信号情况下, 当相邻的两次抽样具有不同的代数符号时就称为发生了过零.应用短时 平均过零率可以得到谱特性的粗略估计。 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时 能量集中于较高频率段内,具有较高的过零率。
语音信号的数字化和预处理
1、语音信号数字化 要了分析说话人的语音,就要将话筒中传来的语音信号转换成 计算机所能处理的数字信号。通过对语音信号特性的分析表明,浊 音语音的频谱一般在4KHz以上便迅速下降。而清音语音信号的频谱 在4KHz以上频段反而呈上升趋势,甚至超过了8KHz以后仍没有明显 下降的苗头。实验表明语音清晰度和可懂度有明显影响的成分最高 频率约为5.7KHz。而语音信号本身的冗余度又比较大,少数辅音清 晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样 频率为10KHz或16KHz。