语音识别与语义识别精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.特征提取
基于现代处理技术的小波变换系数分析法是将语音信号与一个在时域和 频域均具有良好局部化性质的小波函数族进行积分(小波变换),从而把信号 分解成一组位于不同频率和时段内的分量,即选择小波函数为某类平滑函 数的一阶导数,则经小波变换后的局部最大值反映信号的尖锐变化(即声门 闭着点),而局部最小值则反映信号的缓慢变化,从而获得反映基音周期的 小波语音特征参数。
语音识别与语义识别
1 语音识别 2 语义识别
PART 1
语音识别
定义
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的 文本或命令的技术。 本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式 逐一进行比较,最佳匹配的参考模式被作为识别结果。
基本原理
系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分。
模板匹配法,以动态时间规整(DynamiC Time Warping,DTw)为代表; 随机模型法,以隐马尔可夫模型(Hidden Markov Model,HMM)为代表; 基于人工神经网络(ArtifiCial Neural NetworkS,ANN)的识别方法
模式识别-动态时间规整(DTW)技术
2.特征提取
MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依 照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的 向量进行离散余弦变换DCT,取前N个系数。
基于LPC的倒谱参数(LPCC)分析法的典型代表是,以基于Durbin或 Levinson迭代算法求解“维纳——霍夫方程”获得的LPC预测系数为基础, 进而得到的LPC的倒谱参数(LPCC)。
DTW是采用一种最优化的算法——动态规整法,算法的思想就是把未知 量均匀的拉长或缩短,直到与参考模式的长度一致。这一过程中,未知量 (待识别语音信号)的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征 对齐(即时间规整),并在两者之间不断的进行两个矢量距离最小的匹配路径 计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时 间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别特征 与模板特征之间最大的声学相似特性和最小的时差失真,是成功解决模式 匹配问题最早和最常用的方法。
DTW法的不足之处是运算量大、对语音信号的端点检测数过大和未能充 分利用语音信号的时序动态信息等等。因此,主要用于孤立词、小词汇等 相对简单的汉语语音识别系统。
模式识别-隐马尔可夫模型(Hidden Markov Model, HMM)技术
HMM法与DTW法不同,首先,其模式库不是预先存储好的模式样本,而是通过 反复的训练过程,用迭代算法(如Baum.Welch算法等)形成一套与训练输出信号 吻合概率最大的最佳HMM模型参数:A=(z,A,B),其中,石为初始状态概率分 布;A为状态转移概率分布;B为某状态下系统输出的概率分布。这些参数均为反 映训I练中语音的随机过程的统计特性下的数字参数,而不是模式特征参数本身。 其次,在识别过程中,采用基于一种在最佳状态序列基础上的整体约束最佳准则 算法——Ⅵterbi算法,计算待识别语音序列与HMM模型参数之间的似然概率达到 最大值,所对应的最佳状态序列作为识别输出。这个过程也是一个反映待识别序 列与HMM模型参数状态序列最大关联的随机过程的统计过程,因此,HMM方法 可以看成一个数字上的双重随机过程,这种机制合理地模仿了人类语言活动的随 机性,是一种更为理想的语音识别模型。研究结果表明,HMM方法虽然在训练过 程中的处理比DTW方法要复杂,但识别过程则远比DTW方法简单,在孤立词和小 词汇的汉语识别中,识别率要高于DTW方法,而且解决了DTW无法实现的连续语 音识别的应用问题。因此,在汉语语音识别中,HMM方法不仅可用于孤立词识别 系统中,而且在连续语音识别、说话人识别等方面也得到广泛的应用,是目前汉 语语音识别技术的主流。
3.模式识别
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应 于语音到音节概率的计算和音节到字概率的计算。在进行语音识别的时候, 将输入的待识别语音信号与模式进行匹配,便可得到识别结果。
模式识别
语音识别过程依据模式匹配原则,传统的语音识别系统是一个按一定测度 算法实现被识别特征参数与模式库中的模板进行最优模式匹配的过程。 目前语音识别比较常用的识别方法主要有:
2.特征提取
特征提取就是从语音信号中提取出语音的特征序列,提取的语音特征应该 能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语 音特征的信息,减少语音识别时所要处理的数据量。
基于声道模型和听觉机理的线性预测倒谱系数LPCC(Linear Predietive Cepstral CoefieientS)和美尔频率倒谱系数MFCC(Mel Frequeney Cepstral cocfioionts)参数
模式识别-矢量量化(VQ)技术
矢量量化技术,是一种用一个K维矢量来表示一个原来用K个标量表征的语音信号的波型 帧或参数帧,然后对矢量进行整体量化的方法。在语音识别前,先在多次反复的训练中采 用LBG算法(由Linde,Buzo和Gray三人在1980年首次提出)对大量的K维矢量进行以最佳 邻近准则和最小失真准则的统计划分,使其从无限的矢量空间聚类划分为M个有限的区域 边界,而每个区域有一个中心矢量值,即码字,故共有M个码字,各码字的下标或序号的 集合则构成了一本反映训练时K维矢量的码书,也称训练矢量集码书。在语音识别时,实 质上是一个将K维待处理矢量与已有的码书中的M个区域边界进行比较,找出与该待测输 入矢量距离最小的码字序号来代替其识别结果的过程。由于码字的序号是矢量量化技术中 存贮和传输的主要参数,因此Fra Baidu bibliotek具有高效的数据压缩性能和信息保密性能,不足之处是训 练过程中的计算方法复杂且计算量过大。因此,真正应用于语音识别的是改进后的有限状 态矢量量化(FSVQ)技术和带学习功能的矢量量化(LVQ2)技术,其中,FSVQ的计算量小, 而且利用了状态转移函数,根据上一次的状态和量化结果来确定一下个量化状态,适用于 与上下文有关的语音识别;LVQ2利用其自适应性的学习功能进行码书优化,即在一定条 件下,将错误的参考矢量移到远离输入矢量的地方,而将正确的参考矢量移到离输入矢量 更近的地方,从而提高识别率。FSVQ和LVQ2技术在孤立词和连续语音的汉语语音识别中 也得到应用,但没有DTW技术和HMM技术普遍。
1.预处理模块
对输入的原始语音信号进行处理 (1)模/数转换 (2)滤除掉其中的不重要的信息以及背景噪声 (3)进行语音信号的端点检测(找出语音信号 的始末,双门限比较法 就是根据语音信号的 特征参数(能量和过零率)进行清音、噪音判 别,从而完成端点检测的) (4)语音分帧(近似认为在10-30ms内是语音 信号是短时平稳的,将语音信号分割为一段 一段进行分析,加窗函数) (5)预加重(提升高频部分使语音信号的频谱 变得比较平坦,便于进行频谱分析或者声 道参数分析)