基于神经网络语音识别技术的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于神经网络的语音识别技术研究 郑林 制作
1 语音识别基础
目前主流的语音识别技术是基于统计模式识别的基 本理论。一个完整的语音识别系统可大致分为三部
分: (a)语音特征提取:目的是从语音波形中提取随时
间 变化的语音特征序列。 (b)声学模型与模式匹配(识别算法):声学模型是 识别系统的底层模型,并且是语音识别系统中最关 键的一部分。声学模型通常由获取的语音特征通过 训练产生,目的是为每个发音建立发音模板。在识 别时将未知的语音特征同声学模型(模式)进行匹配 与比较,计算未知语音的特征矢量序列和每个发音
1.2 本文的主要工作
本文的主要工作是对现有的语音识别算法进行改 进和验证,在前人研究的基础上,研究了语音信
号参数的提取方法和常用识别算法,重点研究了
HMM在语音识别中的应用,包括模型的原理, 模型的建立、训练和识别等过程,对HMM模型
的原理和核心算法和实际应用中的问题进行了深
入的研究,提出了基于HMM/NPN的语音识别 模型和算法,并验证。第1章绪论介绍了语音识
2.2 特征参数提取
经过前而对语音信号的分析可以导出许多语音特 征参数,这些语音特征参数是分帧提取的,每帧 特征参数构成一个矢量,因此,语音特征是一个 矢量序列。语音信号中提取出来的特征参数经过 数据压缩后便可作为语音的模板。因此,特征参 数的选择对识别性能至关重要,选择的标准要尽 量满足:
别的历史和现状,所面临的问题,识别的基础和
本文所做的工作及内容安排;第2章语音识别的系
统描述和特征参数提取,重点在语音的预处理和
LPCC和MFCC参数提取过程。第3章常用的训练 和识别方法,重点介绍VQ、HMM、NN模型及 一些算法。
2 系统描述和特征参数提取
2.1预处理 (1)语音采样 语音信号是随时间而变的一维信号,它所占据
(a)能有效的表征语音特性;
(b)各阶参数间有很好的独立性;
(c)特征参数的计算方便简单,最有高效的算法, 以保证识别的实时性要求。
Mel频标倒谱系数MFCC
Mel频标倒谱系数 (MelFrequeneyCepstrumCoeffieientMFCC)不LPCC 等通过对人的发声机理的研究而得到的声学特征, MFCC是受人的听觉系统研究成果推动而导出的声 学特征。该特征是在Mel标度频率域中提取出来的 倒谱参数MFCC的提出基于下列两点研究成果:首 先,人类对单个音调的感知强度近似与该音调频 率的对数成正比。Mel频率表达了这种语音频率与 “感知频率”的对应关系。在Mel频率域内,人对 音调的感知度为线性关系,举例来说,如果两段 语音的Mel频率相差两倍,则人耳听起来两者的音 调也相差两倍。
在开始进行端点检测之前,首先为短时能量和过 零率分别确定两个门限。一个是比较低的门限, 其数值比较小,对信号的变化比较敏感,很容易 就会被超过。另一个是比较高的门限,数值比较 大,信号必须达到一定的强度,该门限才可能被 超过。低门限被超过未必就是语音的开始,有可 能是时间很短的噪声引起的,高门限被超过则可 以基本确信是由于语音信号引起的。整个语音信 号的端点检测可以分为四段:静音、过渡音、语音 段、结束。在静音段,如果能量或过零率超越了 低门限,就应该开始标记起点,进入过渡段。在 过渡段中,由于参数的数值比较小,不能确信是 否处于真正的语音段,因此只要两个参数的数值 都回落到低门限以下,就将当前状态恢复到静音 状态。
Mel频率与线性频率的转换公式为:
fmel 2595log10 (1 f / 700)
其次,当同时发出两个频率相近的音调时,人只能 听到一个音调。只有当两个频率分量相差一定带宽 时,人类才能将其区分。这个带宽被称为临界带宽 (CritiealBandwidth),其计算公式如下.
BWc 25 75[11.4( fc /100)2 ]0.69
这样,我们可以构造临界频带滤波器组 (CritiaclBnadFilterBnak)模仿人耳的感知特性。 这组滤波器的中心频率在Mel频率域内呈线性 分布,其带宽在临界带宽之内。
MFCC参数是先将原始频域信号通过一组临界 频带滤波器组,变换到Mel频率域,然后通过 离散余弦变换转换到倒谱域求得,
(5)短时平均过零率
过零分析是语音时域分析中简单的一种,顾名思义, 过零就是信号通过零值。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。而对于离散时 间信号,如果相邻的取样值改变符号则称为过零。 由此可以计算过零数,过零数就是样本改变符号的 次数。单位时间内的过零数称为平均过零数。语音 信号S(n)的短时平均过零率定义为:
(2)预加重
由于语音信号S(n)的平均功率谱受声门激励和 口鼻辐射的影响,高频端大约在800Hz以上按 6dB/倍频程跌落,所以求语音信号频谱时,频 率越高相应的成分越小,高频部分的频谱比低频 部分的难求,为此要在对语音信号S(n)进行分 析之前对其高频部分加以提升。使信号的频谱变 得平坦,保持在低频到高频的整个频带中,能用 同样的信噪求频谱,以便于频谱分析或声道参数 分析。通常的措施是用一阶数字滤波器实现预加 重,其公式表示为:
的频率范围可达10kHz以上,那么根据取样 定理则其采样频率至少为20kHZ,但是对语 音清晰度可懂度有明显影响的成分最高频率约 为5.7kHZ,CCTT(国际电报电话咨询委员会) 推出的数字电话G.7建议采样率为skHZ,只 利用了3.4kHZ以内的信号分量,虽然这样的 采样频率对语音清晰度是有损害的,但受损害 的只有少数辅音,而语音信号本身冗余度是比 较大的,少数辅音清晰度下降并不明显影响语 句的可懂度。
H(z)=1- @ z1
(2-1)
0.9<<1.0式中@为预加重系数,群值接近于1, 典型值为0.94。
这样,预加 重网络的输出和输入的z1 语音信号 s(n)的关系可用一差分方程表示:
s(n)=s(n)-s(n-1)
(3)加窗
语音信号是一种典型的非平稳信号,其特性是随时间变化 的,但是语音的形成过程是与发音器官的运动密切相关的, 这种物理运动比起声音振动速度来讲要缓慢得多,因此语 音信号常常可假定为短时平稳的,即在10-20ms的时间段 内,其频谱特性和物理特征参量可近似地看作是不变的。 这样,就可以采用平稳过程的分析处理方法来处理了。由 这个假定导出了各种“短时”处理方法,以后讨论的各种 语音信号都是分隔为许多短段(帧)语音再加以处理。这些 短段语音就好像是来自一个具有固定特性的持续语音片断 一样。对每一短段语音进行处理就等效于对固定特性的持 续语音进行处理。短段语音之间彼此经常有一些重叠,对 每一帧的处理结果可用一个数或是一个组数来表示。因此 语音信号经过处理后将产生一个新的依赖于时间的数据系 列,这些数据用于描述语音信号
(a)区分清音段和浊音段,语音为浊音时的短时能量值 比清音时大得多,根据语音信号短时能量值的变化,可 大致判定浊音变为清音和清音变为浊音的时刻。
(b)在高信噪比的语音信号中,可以用来区分有无 语音,此时,无语音信号的噪声能量很小,而有 语音信号时短时能量值显著地增大到某一数值, 由此可以区分语音信号的开始点和终止点。但是, 瓦值对于高电平信号非常敏感(因为计算时用的是 信号的平方),因此在实际使用时需加以处理,例 如取对数等,以便将数值限制在一定的范围内。
m
n [sgn(s(m))-sgn(s(m-1))]w(n m m
(6)语音信号的端点检测
端点检测是指从背景噪声中找出语音的开始和终止点, 是语音处理领域的基本问题,特别是在孤立词语音识别 中,找出每个单字的语音信号范围是很重要的,确定语 音信号的开始和终止可以减少系统的大量计算,使系统 运行效率得到很大的提高。在比较安静的环境下,仅依 靠短时能量与平均过零率这两个特征参数就可以较好地 完成语音信号的起点判决。但需要指出的是,这两个特 征比较容易受外界噪声的干扰,鲁棒性(orbus)t较差, 当语音信号的信噪比较低时,信号的短时能量和平均过 零率将受到很大的影响。端点检测的两级判断方法:基 于能量的过零率的端点检测一般使用两级判决法,
的特征。设原始语音信号采样系列为S(n),将其 分成一些短段,等效于乘以幅度为1的窗函数。当 窗函数幅度不是1而是按一定函数取值时,所分成 的短段语音的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对 各个短段进行某种变换或施以某种运算,其一般 式为:
n
Qn T [S (m)]w(nm) n
而如果在过渡段中两个参数中的任一个超 过了高门限,就可以确信进入语音段了, 并标记起始点。如果当前状态之前处于语 音段,而此时两个参数的数值降低到底门 限以下,并且持续时间大于设定的最长时 间门限,那么就认为语音结束了,返回到 参数数值降低到底门限以下的时刻,标记 结束点。一些突发性的噪声也可以引起短 时能量或过零率的数值很高,但是往往不 能维持足够长的时间,如门窗的开关,物 体的碰撞等引起的噪声,这些都可以通过 设定最短时间门限来判别。
式中窗函数w(n)为上面讨论的任意一种,这里窗长N的 选择对于反映语音信号的幅度变化起着决定的作用。如 果N很大,它等效于很窄的低通滤波器,此时瓦随时间 的变化很小,不能反映语音信号的幅度变化,信号的变 化细节就看不出来;反之,N太小时,滤波器的通带变宽, En随时间有急剧的变化,不能得到平滑的能量函数。因 此,窗口长度的选择应合适。短时平均能量的主要用途 有:
通过对人的听觉机理的研究发现,当两个频率相近的音调同时发 出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主 观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时, 人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这 一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频谱 的频率轴变换为Mel刻度,再变换到倒谱域得到的倒谱系数。其计 算过程如下: (1)将信号进行短时傅里叶变换得到其频谱。 (2)求频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域 对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻 度均匀排列的(间隔150Mel,带宽30OMel),每个三角形滤波器的 两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个 相邻的滤波器的过渡带互相搭接,且频率响应之和为l。滤波器的 个数通常与临界带数相近,设滤波器数为M,滤波后得到的输出 为:X(k),k=l,2,…,Mo
模板之间的距离。
ቤተ መጻሕፍቲ ባይዱ
声学模型的设计和语言发音特点密切相 关。声学模型单元大小(字发音模型、半 音节模型或音素模型)对语音训练数据量 大小、系统识别率,以及灵活性有较大
影响。
(c)语义理解:计算机对识别结果进行语 法、语义分析。明白语言的意义以便做 出相应的反应,通常是通过语言模型来
实现。
1.1 语音识别面临的问题 。
(4)短时能量 短时能量序列反映了语音振幅或能量随着时间缓慢变
化的规律。从原始语音信号图中可以看到语音信号幅 度随时间有相当的变化,特别是清音段的幅度一般比 浊音段的幅度小很多,语音信号的短时能量给出了反 映这些幅度变化的一个合适的描述方法。 语音信号s(n)的短时能量的定义为:
En [s(m)w(n m)]2
高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音 处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变 得越来越重要。特别是线性预测作为语音处理技术中最有效的手段, 恰恰是最容易受噪声影响的。 3.语音识别基元的选择问题。即如何根据存储空间和搜索速度的要 求,选择合适的识别单元,如词、音节、音素。一般来讲,识别的 词汇量越大,所选基元应越小。 4.端点检测。语音信号的端点检测是进行语音识别的第一步。研究 表明,即使在安静的环境下,语音识别系统一半以上的识别错误来 自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。 5.还有大词汇连续语音识别的训练工作量和识别速度问题、局势问 题以及关键词检测技术,以及对用户的错误操作不正确响应问题等。 6.另外,对于人类由中枢神经控制的记忆机理、听觉理解机理、联 想判断机理等,人们目前仍知之甚少。
1 语音识别基础
目前主流的语音识别技术是基于统计模式识别的基 本理论。一个完整的语音识别系统可大致分为三部
分: (a)语音特征提取:目的是从语音波形中提取随时
间 变化的语音特征序列。 (b)声学模型与模式匹配(识别算法):声学模型是 识别系统的底层模型,并且是语音识别系统中最关 键的一部分。声学模型通常由获取的语音特征通过 训练产生,目的是为每个发音建立发音模板。在识 别时将未知的语音特征同声学模型(模式)进行匹配 与比较,计算未知语音的特征矢量序列和每个发音
1.2 本文的主要工作
本文的主要工作是对现有的语音识别算法进行改 进和验证,在前人研究的基础上,研究了语音信
号参数的提取方法和常用识别算法,重点研究了
HMM在语音识别中的应用,包括模型的原理, 模型的建立、训练和识别等过程,对HMM模型
的原理和核心算法和实际应用中的问题进行了深
入的研究,提出了基于HMM/NPN的语音识别 模型和算法,并验证。第1章绪论介绍了语音识
2.2 特征参数提取
经过前而对语音信号的分析可以导出许多语音特 征参数,这些语音特征参数是分帧提取的,每帧 特征参数构成一个矢量,因此,语音特征是一个 矢量序列。语音信号中提取出来的特征参数经过 数据压缩后便可作为语音的模板。因此,特征参 数的选择对识别性能至关重要,选择的标准要尽 量满足:
别的历史和现状,所面临的问题,识别的基础和
本文所做的工作及内容安排;第2章语音识别的系
统描述和特征参数提取,重点在语音的预处理和
LPCC和MFCC参数提取过程。第3章常用的训练 和识别方法,重点介绍VQ、HMM、NN模型及 一些算法。
2 系统描述和特征参数提取
2.1预处理 (1)语音采样 语音信号是随时间而变的一维信号,它所占据
(a)能有效的表征语音特性;
(b)各阶参数间有很好的独立性;
(c)特征参数的计算方便简单,最有高效的算法, 以保证识别的实时性要求。
Mel频标倒谱系数MFCC
Mel频标倒谱系数 (MelFrequeneyCepstrumCoeffieientMFCC)不LPCC 等通过对人的发声机理的研究而得到的声学特征, MFCC是受人的听觉系统研究成果推动而导出的声 学特征。该特征是在Mel标度频率域中提取出来的 倒谱参数MFCC的提出基于下列两点研究成果:首 先,人类对单个音调的感知强度近似与该音调频 率的对数成正比。Mel频率表达了这种语音频率与 “感知频率”的对应关系。在Mel频率域内,人对 音调的感知度为线性关系,举例来说,如果两段 语音的Mel频率相差两倍,则人耳听起来两者的音 调也相差两倍。
在开始进行端点检测之前,首先为短时能量和过 零率分别确定两个门限。一个是比较低的门限, 其数值比较小,对信号的变化比较敏感,很容易 就会被超过。另一个是比较高的门限,数值比较 大,信号必须达到一定的强度,该门限才可能被 超过。低门限被超过未必就是语音的开始,有可 能是时间很短的噪声引起的,高门限被超过则可 以基本确信是由于语音信号引起的。整个语音信 号的端点检测可以分为四段:静音、过渡音、语音 段、结束。在静音段,如果能量或过零率超越了 低门限,就应该开始标记起点,进入过渡段。在 过渡段中,由于参数的数值比较小,不能确信是 否处于真正的语音段,因此只要两个参数的数值 都回落到低门限以下,就将当前状态恢复到静音 状态。
Mel频率与线性频率的转换公式为:
fmel 2595log10 (1 f / 700)
其次,当同时发出两个频率相近的音调时,人只能 听到一个音调。只有当两个频率分量相差一定带宽 时,人类才能将其区分。这个带宽被称为临界带宽 (CritiealBandwidth),其计算公式如下.
BWc 25 75[11.4( fc /100)2 ]0.69
这样,我们可以构造临界频带滤波器组 (CritiaclBnadFilterBnak)模仿人耳的感知特性。 这组滤波器的中心频率在Mel频率域内呈线性 分布,其带宽在临界带宽之内。
MFCC参数是先将原始频域信号通过一组临界 频带滤波器组,变换到Mel频率域,然后通过 离散余弦变换转换到倒谱域求得,
(5)短时平均过零率
过零分析是语音时域分析中简单的一种,顾名思义, 过零就是信号通过零值。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。而对于离散时 间信号,如果相邻的取样值改变符号则称为过零。 由此可以计算过零数,过零数就是样本改变符号的 次数。单位时间内的过零数称为平均过零数。语音 信号S(n)的短时平均过零率定义为:
(2)预加重
由于语音信号S(n)的平均功率谱受声门激励和 口鼻辐射的影响,高频端大约在800Hz以上按 6dB/倍频程跌落,所以求语音信号频谱时,频 率越高相应的成分越小,高频部分的频谱比低频 部分的难求,为此要在对语音信号S(n)进行分 析之前对其高频部分加以提升。使信号的频谱变 得平坦,保持在低频到高频的整个频带中,能用 同样的信噪求频谱,以便于频谱分析或声道参数 分析。通常的措施是用一阶数字滤波器实现预加 重,其公式表示为:
的频率范围可达10kHz以上,那么根据取样 定理则其采样频率至少为20kHZ,但是对语 音清晰度可懂度有明显影响的成分最高频率约 为5.7kHZ,CCTT(国际电报电话咨询委员会) 推出的数字电话G.7建议采样率为skHZ,只 利用了3.4kHZ以内的信号分量,虽然这样的 采样频率对语音清晰度是有损害的,但受损害 的只有少数辅音,而语音信号本身冗余度是比 较大的,少数辅音清晰度下降并不明显影响语 句的可懂度。
H(z)=1- @ z1
(2-1)
0.9<<1.0式中@为预加重系数,群值接近于1, 典型值为0.94。
这样,预加 重网络的输出和输入的z1 语音信号 s(n)的关系可用一差分方程表示:
s(n)=s(n)-s(n-1)
(3)加窗
语音信号是一种典型的非平稳信号,其特性是随时间变化 的,但是语音的形成过程是与发音器官的运动密切相关的, 这种物理运动比起声音振动速度来讲要缓慢得多,因此语 音信号常常可假定为短时平稳的,即在10-20ms的时间段 内,其频谱特性和物理特征参量可近似地看作是不变的。 这样,就可以采用平稳过程的分析处理方法来处理了。由 这个假定导出了各种“短时”处理方法,以后讨论的各种 语音信号都是分隔为许多短段(帧)语音再加以处理。这些 短段语音就好像是来自一个具有固定特性的持续语音片断 一样。对每一短段语音进行处理就等效于对固定特性的持 续语音进行处理。短段语音之间彼此经常有一些重叠,对 每一帧的处理结果可用一个数或是一个组数来表示。因此 语音信号经过处理后将产生一个新的依赖于时间的数据系 列,这些数据用于描述语音信号
(a)区分清音段和浊音段,语音为浊音时的短时能量值 比清音时大得多,根据语音信号短时能量值的变化,可 大致判定浊音变为清音和清音变为浊音的时刻。
(b)在高信噪比的语音信号中,可以用来区分有无 语音,此时,无语音信号的噪声能量很小,而有 语音信号时短时能量值显著地增大到某一数值, 由此可以区分语音信号的开始点和终止点。但是, 瓦值对于高电平信号非常敏感(因为计算时用的是 信号的平方),因此在实际使用时需加以处理,例 如取对数等,以便将数值限制在一定的范围内。
m
n [sgn(s(m))-sgn(s(m-1))]w(n m m
(6)语音信号的端点检测
端点检测是指从背景噪声中找出语音的开始和终止点, 是语音处理领域的基本问题,特别是在孤立词语音识别 中,找出每个单字的语音信号范围是很重要的,确定语 音信号的开始和终止可以减少系统的大量计算,使系统 运行效率得到很大的提高。在比较安静的环境下,仅依 靠短时能量与平均过零率这两个特征参数就可以较好地 完成语音信号的起点判决。但需要指出的是,这两个特 征比较容易受外界噪声的干扰,鲁棒性(orbus)t较差, 当语音信号的信噪比较低时,信号的短时能量和平均过 零率将受到很大的影响。端点检测的两级判断方法:基 于能量的过零率的端点检测一般使用两级判决法,
的特征。设原始语音信号采样系列为S(n),将其 分成一些短段,等效于乘以幅度为1的窗函数。当 窗函数幅度不是1而是按一定函数取值时,所分成 的短段语音的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对 各个短段进行某种变换或施以某种运算,其一般 式为:
n
Qn T [S (m)]w(nm) n
而如果在过渡段中两个参数中的任一个超 过了高门限,就可以确信进入语音段了, 并标记起始点。如果当前状态之前处于语 音段,而此时两个参数的数值降低到底门 限以下,并且持续时间大于设定的最长时 间门限,那么就认为语音结束了,返回到 参数数值降低到底门限以下的时刻,标记 结束点。一些突发性的噪声也可以引起短 时能量或过零率的数值很高,但是往往不 能维持足够长的时间,如门窗的开关,物 体的碰撞等引起的噪声,这些都可以通过 设定最短时间门限来判别。
式中窗函数w(n)为上面讨论的任意一种,这里窗长N的 选择对于反映语音信号的幅度变化起着决定的作用。如 果N很大,它等效于很窄的低通滤波器,此时瓦随时间 的变化很小,不能反映语音信号的幅度变化,信号的变 化细节就看不出来;反之,N太小时,滤波器的通带变宽, En随时间有急剧的变化,不能得到平滑的能量函数。因 此,窗口长度的选择应合适。短时平均能量的主要用途 有:
通过对人的听觉机理的研究发现,当两个频率相近的音调同时发 出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主 观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时, 人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这 一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频谱 的频率轴变换为Mel刻度,再变换到倒谱域得到的倒谱系数。其计 算过程如下: (1)将信号进行短时傅里叶变换得到其频谱。 (2)求频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域 对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻 度均匀排列的(间隔150Mel,带宽30OMel),每个三角形滤波器的 两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个 相邻的滤波器的过渡带互相搭接,且频率响应之和为l。滤波器的 个数通常与临界带数相近,设滤波器数为M,滤波后得到的输出 为:X(k),k=l,2,…,Mo
模板之间的距离。
ቤተ መጻሕፍቲ ባይዱ
声学模型的设计和语言发音特点密切相 关。声学模型单元大小(字发音模型、半 音节模型或音素模型)对语音训练数据量 大小、系统识别率,以及灵活性有较大
影响。
(c)语义理解:计算机对识别结果进行语 法、语义分析。明白语言的意义以便做 出相应的反应,通常是通过语言模型来
实现。
1.1 语音识别面临的问题 。
(4)短时能量 短时能量序列反映了语音振幅或能量随着时间缓慢变
化的规律。从原始语音信号图中可以看到语音信号幅 度随时间有相当的变化,特别是清音段的幅度一般比 浊音段的幅度小很多,语音信号的短时能量给出了反 映这些幅度变化的一个合适的描述方法。 语音信号s(n)的短时能量的定义为:
En [s(m)w(n m)]2
高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音 处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变 得越来越重要。特别是线性预测作为语音处理技术中最有效的手段, 恰恰是最容易受噪声影响的。 3.语音识别基元的选择问题。即如何根据存储空间和搜索速度的要 求,选择合适的识别单元,如词、音节、音素。一般来讲,识别的 词汇量越大,所选基元应越小。 4.端点检测。语音信号的端点检测是进行语音识别的第一步。研究 表明,即使在安静的环境下,语音识别系统一半以上的识别错误来 自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。 5.还有大词汇连续语音识别的训练工作量和识别速度问题、局势问 题以及关键词检测技术,以及对用户的错误操作不正确响应问题等。 6.另外,对于人类由中枢神经控制的记忆机理、听觉理解机理、联 想判断机理等,人们目前仍知之甚少。