语音识别技术-预处理模块
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别的发展历程
语音识别的分类和过程
语音识别系统可以分为:特定人与非特定人的识别、独 立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的 识别。 过程主要包括语音信号的预处理、特征提取、模式匹配几 个部分。
语音识别复杂的框图
2014-12-14
1.预处理模块
预处理包括预滤波、预加重、加窗、端 点检测等过程。
1.3端点检测原理
• 语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段,
平均能量最低; 浊音段为声带振动发出对应的语音信号段, 平均能量最 高; 清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段, 平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同, 无声段信号变化较为缓慢, 而清音段信号在幅度上变化剧烈, 穿越零电 平次数也多。经验表明, 通常清音段过零率最大。端点检测就是首先判 断/ 有声0还是/ 无声0, 如果有声,则还要判断是/ 清音0还是/ 浊音0。为 正确地实现端点检测, 一般综合利用短时能量和过零率两个特征,采用/ 双门限检测法0。
模式匹配与模型库
• 模型库获得的方法:
(1)偶然性训练法:每个单词的每一遍读音形成一个模版,在识别时, 待矢量序列用特定的匹配算法分别求得与每个模板的累计,判别它属于 哪一类。 (2)鲁棒性训练方法:将每一个次重复说多遍,直到得到一个一致性较 好的序列,最终得到的模板是在一致性较好的特征矢量序列。
2.特征提取
特征参数提取就是从原始语音信号中抽取出能反映语音本质 的特征参数,形成特征矢量序列。可选择的语音特征参数如下: ①时域参数:包括短时平均能量、短时平均过零率、基音周 期等。短时平均过零率和短时平均能量常用于检测语音端点,基 音周期则用于清浊音类和汉字的声调区别。 ②频域参数:包括短时频谱(有 10~30 个通道滤波器组的平 均谱、DFT 频谱)、前三个共振峰(有幅度、频率、带宽)、倒谱( 基于线性预测编码的倒谱即 LPCC,基于 Mel 频率弯折的倒谱即 MFCC)等。 由于 MFCC 参数是将人耳的听觉感知特性和语音的产生机制 相结合,而 LPCC系数基于合成的参量中没有利用人耳的听觉特 性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不 同频率信号的灵敏度是不同的,基本上是对数关系。
(3)聚类训练法:对于非特定的人语音识别,要想获得较高的识别率, 就训练数据进行聚类,以获得可靠的模板参数
2014-12-14
模式匹பைடு நூலகம்:
• 模式匹配就是按照一定的相似度量法则,使未知模
型与模型库中的某一模型获得最佳的匹配
2014-12-14
后处理:
• 语言的后处理就是进行语法、语义分析。 • 在后处理过程中会对语音识别后得到的文本进行处理,
语音识别技术
组员:尚青、王芳 傅卉林、张一
目录:
• 语音识别的定义和发展历程 • 语音识别的整体框架 • 语音识别的预处理 • 语音识别的特征提取 • 语音识别的模式匹配与模型库 • 语音识别的后处理
2014-12-14
语音识别技术
语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR), 其目标是将人类的语音中的词汇内容转换 为计算机可读的输入,例如按键、二进制 编码或者字符序列。与说话人识别及说话 人确认不同,后者尝试识别或确认发出语 音的说话人而非其中所包含的词汇内容。
预处理包括语音信号的采样,反混叠带 通滤波去除个体发音差异和设备、环境 引起的噪声影响等,并涉及到语音识别 的基元选取和端点检测,端点检测是指 从语音信号中确定出语音的起点和终点, 是预处理中的一个重要环节。
1.1预滤波与预加重
预滤波又称之为反混叠滤波,是指滤除高于 1/2 采样频率的信号成分或噪 声,使信号带宽限制在某个范围内;否则,如果采样率不满足采样定理,则会 产生频谱混叠,此时信号中的高频成分将产生失真;而工频干扰指 50Hz 的电 源干扰。因此,预滤波是一个带通滤波器,其下截止频率应大于等于 50Hz,上 截止频率根据采用频率来设定。 预加重:由于语音信号的功率受口鼻的影响,800Hz 以上的频段有 6dB 的衰减,即求频谱时,频率越高则信号幅度越小。这常常使得频谱分析时,从 低频到高频的整个频带内不能使用相同的信噪比。为此,一般要使语音信号通 过一个预加重滤波器来提升高频。通常使用一阶 FIR 滤波器来实现:
2014-12-14
1.3端点检测原理:
• 即短时能量 • 第n帧语音信号 x短时能量 n • 的表示
过零率公式:
En xn (m)
2 m 0
N 1
1 Z n sgn xn (m) sgn xn (m 1) 2 m 0
N 1
• N为信号帧长度
2014-12-14
端点检测的两级判断方法:基于能量——过零率的端点检测, 一般使用两级判决法,在开始进行端点检测之前,首先为短时能量 和过零率分别确定两个门限。一个是比较低的门限,其数值比较 小,对信号的变化比较敏感,很容易就会被超过。另一个是比较高 的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超 过。
发现和纠正原来结果中的各种错误,使输出结果更加 准确。
2014-12-14
谢谢!
得最多的三种窗函数是矩形窗、汉明窗(Hmamnigl和汉宁窗(Hnnaing),其定义分别为 :
1.3端点检测
端点检测是指从背景噪声中找出语音的开始和终止点,是语 音处理领域的基本问题,特别是在孤立词语音识别中,找出每个单 字的语音信号范围是很重要的,确定语音信号的开始和终止可以 减少系统的大量计算。
1.2加窗
设原始语音信号采样系列为(sn),将其分成一些短段,等效于乘 以幅度为1的窗函数w(n-m)。当窗函数幅度不是l而是按一定 函数取值时,所分成的短段语音的各个取样值将受到一定程度的 加权。
对语音信号的各个短段进行处理,实际上就是对各个短段进 行某种变换或施以某种运算,其一般式为:
1.2加窗
y ( n)= x(n)−ax(n−1), 0 .9≤ a ≤0.97
1.2加窗
语音信号是一种典型的非平稳信号。
(图2.1.1)为汉语数字“3”发音的部分波 形),其特性随时间变化的,但是语音 的形成过程是与发音器官的运动密切 相关的,这种物理运动比起声音振动 速度来讲要缓慢得多,因此语音信号 常常可假定为短时平稳的,即在10一 20ms的时间段内,其频谱特性和物理 特征参量可近似地看作是不变的。这 样,就可以采用平稳过程的分析处理 方法来处理了。