语音信号的提取与识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

说话人识别是语音识别的一种特殊方式。

本论文中,将主要介绍说话人识别系统。

通过采用VQ(Vector Quantization,矢量量化)算法,对说话人的识别进行了初步探讨和研究,实现了在MATLAB软件环境下说话人的语音识别,并针对VQ的主要特点及不足做出了总结,并提出了改进。

VQ算法基于LBG算法的思想,首先解决了矢量量化码书生成的问题,设计一个好的码本;其次是解决了未知矢量量化的问题。

最后是判决逻辑,识别结果输出。

关键词:语音识别,说话人识别,VQ,MATLAB,LBG算法
Speech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. speaker recognition is a kind of special way of V oice-identifications .The paper is going to introduce speaker recognition..In this paper,VQ arithmetic is adapted to study and research the implement.the identification of speaker,and Speech recognition for speaker is realized by using MATLAB.In the end,this paper gets a conclusion on the feature and the shortage of VQ and put forward the improvement.VQ arithmetic based on the method of LBG has solved the problems that set up good codebook of vector Quantization and quantization unknown vector.After compared ,the output of recognition is putout.
Key words:V oice-Identification ,Speaker-recognition,VQ,MATLAB,LBG- arithmetic
目录
1 引言 (1)
2 语音识别技术的基础 (2)
2.1 语音识别技术的发展历史 (2)
2.2 语音识别技术的应用 (3)
2.3 语音识别的概述 (5)
2.4 语音识别的原理 (5)
2.5 语音识别系统分类 (10)
3 说话人语音识别技术的基本方法 (11)
3.1 说话人语音识别的一般方法 (11)
3.2 模板匹配法 (13)
4 基于VQ的远程说话人识别系统 (15)
4.1识别系统总体框图 (15)
4.2 组成部分模块介绍 (15)
4.3 systerview实现介质中传输模块的仿真 (15)
5 MATLAB软件简介 (18)
6 系统中VQ算法实现 (19)
6.1 VQ算法原理 (19)
6.2 VQ算法实现 (23)
6.2.1 VQ算法简介 (23)
6.2.2 程序运行流程 (25)
6.2.3 运行结果 (26)
7 VQ算法的不足和改进措施 (28)
总结 (29)
附录A:源主程序 (30)
附录B:对信号s1和s2经过各种变换后的图形 (31)
致谢 (35)
参考文献 (36)
1.引言
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。

20世纪80年代末,随着实验室语音识别研究的巨大突破,计算机技术,软件技术和存储技术突飞猛进的发展;语音技术的商业应用开始掀起浪潮。

为企业,银行,电信,航空及其它领域带来更好,更新的业务和服务方式。

很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一[1]。

语言是人类特有的功能,声音是人类最常用的工具。

通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式。

语音识别是一门交叉学科,关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术[2]。

正因为语音如此重要,那对语音的识别也就迫不及待了。

前人已经对语音识别做了大量的研究,得到了许多理论和实践知识。

本次毕业设计的题目是语音信号的提取与识别,为了完成好任务,我们是这样考虑的:我们是这样分工的,我的主要工作是大范围的语音识别,即说话人识别;我的同组人薛宏伟的主要任务是小范围的语音识别,即说话内容的识别。

在我的这篇论文中,将针对说话人识别,采用VQ算法,讲述了VQ算法的基本原理和算法实现。

主要选用LBG算法来讨论如何实现对的说话人进行识别的问题。

同时借助MATLAB软件,对其进行了编程和调试,并达到了预期的结果。

考虑到说话人识别的通信传输问题,本论文中用一少部分内容讲述数字信号的传输理论,并用Systemview软件实现了简单数字信号相位调制和解调的仿真实验。

最后,针对VQ算法的不足,提出了改进方法。

2.语音识别技术的基础
2.1语音识别技术的发展历史及现状
语音识别研究开始于五十年代初。

当时电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。

其中有代表性的是1952年美国Bell Laboratories研制的Audry系统和1956年RCA Laboratories的单音节词识别系统。

六十年代,数字计算机的迅速发展使人们对语音信号的研究由对模拟信号的分析转向数字技术。

在这一时期Fant和Flanagan对语音产生的研究使人们对语音产生的机理有了一个较系统的了解。

人们还对人类听觉的生理和心理进行了研究,发现了人耳声音中的不同频率成分有不同的分辨力的反应力,提出了临界频带理论。

这一时期,在语音识别的算法方面尚未找到合适计算机分析的模型和算法。

但人们研究了分段、分类和模式匹配等问题。

与此同时,自然语言领域的一些基础性研究也在进行。

六十年代多方面的基础性研究为七十年代语音识别的迅速发展打下了基础。

七十年代,语音识别无论在理论上,还是在系统实现上,都有了迅速的发展。

1975年Itacura发现基于线性预测编码(LPC, Linear Predictive Coding)的谱系数是识别性很好的特征,不但识别效果大有提高,计算复杂度也比较小。

同一时期,六十年代Vintsyuk 所提出的动态时间规整(DTW, Dynamic TimeWarping)算法也成功的应用于语音识别中。

从此基于LPC 分析和DTW 算法的识别系统纷纷建立起来。

七十年代另一个重大的里程碑,就是CMU的Baker和IBM 的Jelinek意识到可以将马尔可夫模型(HMM, Hidden Markov Model)用于语音识别。

七十年代出现了许多成功的孤立词识别系统,如:CMU 的Hearsay-II、IBM 的大词汇量自动语音听写系统、Bell Labs 用于通迅的与话者无关的语音识别系统。

到了八十年代,语音识别技术有了新的综合性的发展。

矢量量化(VQ, VectorQuantization)和隐马尔可夫模型(HMM, Hidden Markov Models)在语音识别中获得了广泛的应用,从而产生了象CMU 的SPHINX这样的成功的非特定人连续语音识别系统。

另外,八十年代人工神经网络的研究热潮也波及语音领域,出现了基于人工神经网络(ANN, Artificial Neural Networks)或者人工神经网络和隐马尔可夫模型的混合模型的识别系统。

进入九十年代,随着信号处理、声学模型、语言模型、解码搜索算法等理论
日益成熟,计算机软硬件系统性能不断提高,出现了一些大词汇量连续语音识别系统,如IBM 的ViaVoice,Microsoft 的Whisper,CMU的SPHINX-II等等。

这些系统大体上采用了相似的技术,不仅有基于隐马尔可夫模型的声学模型,而且包含了较复杂的语言模型以及先进的解码算法。

有的系统还加入了自然语言理解部分,使系统性能进一步提高。

目前已有不少语音识别系统进入实用化阶段,走上了市场,这里列出最近《个人电脑》杂志报道的世界主要语音识别软件的评比结果。

这个评比结果表明现在实用的语音识别系统已经发展到了非特定人、超大规模词汇量和连续语音识别阶段,并具有大约93%的初始识别正确率[1]。

2.2语音识别技术的应用
语音识别技术是信息领域的标志性技术,随着计算机技术的飞速发展,其技术越来越成熟,目前正处于向产品化迈进的转折阶段,它作为人机对话的手段,在计算机日益普及的今天,愈发显现出它在IT产业中的重要地位。

语音识别技术的应用可分为两个方面:一方面是无限词汇语音识别的应用,例如人机对话\智能翻译机的研制。

但由于技术上的原因,这方面的应用离商业化还有一段距离。

另一方面就是有限词汇语音识别的应用。

从技术的角度看,有限词汇的语音识别,其技术难度远低于”无限命令集”。

就目前的研究水平看,研制一些有限词汇听写用系统是尽快将语音技术扩大应用范围,推向市场的快捷途径。

电话是电子技术在20世纪应用最广泛的形式之一,而”语音拨号”是世界上每个电话用户最希望配备的首选功能,使用”语音拨号”,人们只需要一次性的输入人名和电话号码,在以后的使用中便可以直接对着电话说出要通话人的姓名,经过语音识别后,查出该姓名所对应的号码,然后自动拨号。

要实现语音拨打电话这一功能,只需在电话机上安装一块微小的芯片即可,这就是未来的语音电话,有了语音电话,人们再也不会为记不住电话号码而烦恼了。

语音查询是语音识别又一应用领域,可以应用于旅游业和服务业的各种查询系统。

如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称,系统便会显示最佳路线,乘车方案,费用及其他相关信息,如果旅客还需要了解更为详细的资料,则可以和系统进行交互式对话,系统将对用户的问题一一给予回答。

日本丰桥大学研制的“富士山旅游咨询系统”就是一个较为使用的语音查询系统,该系统可用日语,英语等进行查询。

又如语音自动定票系统,定票者只
需要对系统说出搭乘时间和目的地,系统就会显示符合定票者要求的各班次票价几售票情况。

拥护根据情况,通过系统作出适当的选择。

美国的卡内基---梅隆大学计算机系于1996年研制出语音航空定票系统,在次方面做出了有意的尝试。

语音识别还可以用在工业控制方面,在一些工作环境恶劣,对人身有伤害的地方或手工难以操作的地方,均可以通过语音发出响应的控制命令,让设备完成各种工作。

比如地下采掘作业,工人不必在置身于随时面临危险,污染严重的环境下工作,他们可以在地面上的监控室,通过语音控制系统,轻松的口述各项指令,指挥操作多种采掘设备,实时处理现场出现的各种情况。

语音识别技术在助伤残人的各种设备中将发挥其难以代替的作用,对于一个肢体伤残者或盲人,能够准确的使用各种现代设备是较为困难的,但是若全部用声音控制,则给伤残者和盲人提供了极大的生活便利。

一些办公设备加上语音功能后,即使伤残者也可以足不出户的在家工作,语音产品为他们开辟了新的生活空间。

语音技术的应用还将推动其他产业的发展,汽车工业在各国经济中起着举足轻重的作用,电子领域的新技术无不及时的应用于汽车产品中,使其不断增加新功能。

国外的一些著名汽车公司已经看到语音技术在汽车领域中的光明前景,他们希望研制出“数字式的,能听会说的并具有一双慧眼的后座驾驶式汽车”从而告别汽车驾驶依靠人们的双手的阶段,那时的汽车,只要车主告诉它行车路线和地点,便可直达目的地,目前,这种新式汽车已经进入研制阶段,而不再是幻想。

在计算机辅助教育方面。

语音识别技术也有着广阔的应用空间,一些多媒体语音双向教学软件一上市便受到用户的欢迎,如清华大学光盘中心推出的”大嘴学英语”软件等。

它通过语音识别技术,帮助学生进行语言学习,当学生跟着计算机发音学习外语时,计算机会自动判断学习者的发音是否准确,并及时给予纠正.此时的计算机就成了专业的家庭辅导教师。

在一些对幼儿进行启蒙教育的玩具中,语音玩具给小朋友带来了无限的新奇感,可以自动说话的娃娃,听从指挥的小汽车等在儿童幼小的心灵中播下了科学的种子。

据国外报刊报道,声控娃娃的销售额大大超出了预计水平。

语音识别还可以用于军事和刑侦方面。

每个人的声音就象是指纹一样彼此相异,我们可以根据这个特性,利用人的声音特性的不同,对特定人进行判断,这
是语音识别的又一重要领域。

例如,对于高精密度的核启动系统,除了传统的总统的制约外,特定指挥对象的语音将作为核系统的最后一道安全密匙加以控制,只有系统最后确认是总统本人在即时发布命令时,核系统才会启动倒计时装置。

又如,在刑侦破案方面,嫌疑犯的语音数据将被作为破案的重要依据。

并可以次为线索追踪嫌疑犯,同时,语音数据也将像DNA一样作为证据,并得到法律上的认可。

利用语音技术破案在国外已经开展了一段时间,我国近年来也已经对次进行初步尝试。

可以预见,在新的一个世纪,语音识别将不再是单纯的技术名词,这项技术的发展将超出我们想象力的极限,它将创造出一个新的产业,并迅速走向大众的生活,21世纪将是数字化生存的时代,语音识别技术将是数字化生存的重要标志之一,它将改变人们的学习,生活和娱乐方式,象葛洛庞所说的:“在广大浩瀚的宇宙中,数字化生存能使每个人变得更容易接近,让寂寞者能够发出他们的心声”[2]。

2.3 语音识别的概述
语音识别:语音识别(Speech Recognition)是指让机器听懂谁在说话或者是说话人的说话内容,即在各种情况下,准确的识别说话人的语音特性或语音的内容,从而根据其信息,执行人的各种意图或执行特定的任务。

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信[2]。

2.4语音识别的原理
语音识别的步骤分为两步。

第一步是根据识别系统的类型选择能满足要求的一种识别方法,采用语音分析技术预先分析出这种识别方法所要求的语音特征参数,这些语音参数作为标准模式由计算机储存起来,形成标推模式库,或称为模板。

这一步的过程称为“学习”或“训练”,第二步过程即为“识别”。

就是对测试语音进行特征提取,与模式库中的码本进行一一匹配,根据某种准则,得出识别结果。

其总体框图如下(如图2.1):
识别结果
图2.1 语音识别流程图
2.4.1 语音信息的预处理
语音信息的预处理主要包括对语音信号的放大、滤波、A/D 变换、端点检测和预加重处理,以及分帧处理和窗化处理。

1)语音端点检测与声韵分割
从背景噪声中找出语音的开始和终止(如图2.2),这在语音处理中是最基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量。

大多数语音处理系统采用过零率和能量两参数作端点检测。

但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好。

声韵分割即找出单音节中声母和韵母的分界点,这在实时系统中是一个十分困难的工作,在系统对声韵分界点要求不高时,可采用短时能量相邻帧间距离来进行声韵分割,求出的分界点虽不十分精确,但相对稳定。

图2.2 语音端点分割
我们采用先进行语音信号短时能量En 的粗判,再采用过零率细判的方式。

为了排除En 对语音序列幅值的敏感性,语音信号X(n)短时能量用En 平均幅度函数表示,即:
)(|)(|m n W m X E m n -⋅∑=+∞-∞=
式中,W(n)是宽度为N 的矩形窗函数。

定义过零率Zn 如下:
)()]1([)]([m n W m x Sgn m x Sgn Z m n -⋅--=
∑∞-∞=
其中: 1)]([=n x Sgn N o i s e M a n x >)( 为噪声上限)NoiseMax (
1)]([-=n x Sgn N o i s e M i n x <)( 为噪声下限)NoiseMin (
0)]([=n x Sgn o t h e r w i s N n W 21
)(= 10-≤≤N n )(为一阵声音的长
度N 0)(=n W o t h e r w i s
过零率的大小用来判断是否有声音信号进入,若ratio Zn >(ratio 为预设的过零率值),则表示有声音信号进入,就找到了音头。

在找到音头的情况下,若ratio Zn <,则表示声音结束,也就找到了音尾。

在环境噪声较大且比声音指令小的多的情况下可以对这个门限加一修正。

音头和音尾之间的部分就是我们用以作为识别用的声音指令信号了[2]。

2)语音信号的预加重
它是对信号进行平滑,即高频提升。

因为从唇端辐射产生的声音随着频率的增加会有一个幅度衰减,所以在提取特征前必须对语音信号作高频提升,这样不仅通过线性预测所得到的声道面积更接近人发声的声道结构,还使语音全通带输出占有相同的电平范围。

从而使得求出的LPC 系数收敛的更快,同时又减轻了有限字长造成的不稳定影响[3]。

我们所采用的预加重的方法是较为常用的网络:
传递函数为:194.01)(--=z z H
得到的信号为:)1(94.0)()(~--=n S n S n S
3)分帧和加窗
语音信号是瞬时变化的,但在10~20ms 内是相对稳定的,即具有短时稳定性。

而我们设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以300点为一帧进行处理,帧移为100个采样点。

同时,因为在语音识别中包含了LPC 的处理过程,而LPC 分析使用了自相关预测系数,自相关法的前提是假设信号在处理区间外为0,这使得语音间隔的始点和末点处预测误差较大,因此我们采用语音段逐渐弱化的窗函数进行加权,以消除语音帧在两端预测时的边缘效应,减少帧端预测误差,选用的窗函数为汉明窗[2][4]。

各函数为:
分帧:),(~)(n Ml s n x l += ,1,,1,0-⋅⋅⋅⋅⋅⋅=N n .1,,1,0-⋅⋅⋅⋅⋅⋅=L l (N=300)
窗化:),()()(~n w n x n x l l = .10-≤≤N n
其中:
),12cos(46.054.0)(--=N n n w π .10-≤≤N n 2.4.2 语音数据的特征提取:
我们的特征提取包括三个部分:自相关分析、计算LPC 系数、计算倒谱系数。

1)自相关分析
语音信号经过预处理,它的每个样值均可由过去若干个样值的线性组合来逼近,同时可以采用使实际语音抽样与线性预测抽样之间的均方差最小的方式,来解出一组预测的系数a ,这就是LPC 所提取出来的信号的初始特征。

预测值时域表达式为: ∑=-=p i i i n S a n S 1)
()(~
其中,i a 为加权系数,即LPC 系数。

预测的误差为:
∑=--=-=p i i i n S a n S n S n S n e 1)
()()(~)()(
使)(n e 在均方误差最小的条件下,可求得唯一的i a ,由上面的式子有:
)()(1=--∑=p i i i j R a j R
Ep
i R a R p i i =-∑=1)()0(
其中,)(j R 为待分析与引信号的自相关序列:
∑-=-=1)()()(N j n j n S n S j R
2) 计算LPC 系数
我们采用的是Levinson-Durbin 算法:
1.初始化: )0(R E =,)0(/)1(R R k =,k a =)1(1
2.第一循环:以 i=2,…,p ,按以下各式计算:
E *k)*k -(1E =
∑-=----=11)()1(/)]()([i j j i i j E j i R a i R k k a i i =)(
3.第二循环:以 j=1,2 ,…, i-1,按下式循环运算:
)1()1(
)(
---*-=i j i i j i j a k a a
4.最后,令
)(
p j j a a = p j ≤≤1
j a 即为待求的各LPC 系数[3]。

3) 计算倒谱系数
倒谱系数)(k C 的计算,其迭代算法如下:
1.初始化: 1)0(=C ,1)1(a C =
2.迭代计算:
⎢⎢⎢⎢⎣⎡--+=--+=∑∑=-=p n n k k n n k n k C a n k a k C n k C a n k a k C 111)()1()()()1()(或 q k p p k ≤<≤≤2
在多次试验比较下,我们选取 p= 10,q=12,在收敛速度和运算速度
上都得到了满意的结果[4][5][6]。

2.4.3语音模型库的训练
语音模型库的训练是语音识别的训练阶段的主要任务。

在特征参数提取的基础上,根据特征参数的性质训练出模式,为每个语音训练一个对应的模式。

为下一步的模式匹配做准备[2]。

训练过程:
(1)从训练语音中提取特征矢量,得到特征矢量集;
(2)通过某种算法生成码本;
(3)重复训练修正优化码本;
(4)存储码本。

2.4.4模式匹配过程
模式匹配过程即语音识别过程,可分为下面三步:
(1)从识别语音中提取特征矢量序列;
(2)由每个模板依次对特征矢量序列进行矢量量化,按一定的失真测度,计算各自的平均量化误差;
(3)选择平均量化误差最小的码本所对应的说话人作为系统的识别结果[4]。

2.5语音识别系统分类
语音识别系统按照不同的角度,不同的应用范围,不同的性能要求会有不同的系统设计和实现,有以下几种类型:
1)孤立词,连接词,连续语音识别系统以及语音理解和会话系统。

2)大词汇,中词汇和小词汇量语音识别系统。

3)特定人和非特定人语音识别系统。

在本论文中由于要实现的是对说话人声音的识别,所以可以将其归结为第3类,即特定人和非特定人的语音识别系统。

3.说话人识别技术的基本方法
3.1 说话人识别的一般方法
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨别或者确认的目的。

说话人
识别不同于一般的语音(说话内容)的识别,前者利用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人的个性;而后者的目的是识别出语音信号中的语义内容,并不考虑说话人的个性,强调的是语音的共性。

下图(如图3.1)是说话人识别的结构框图,它由处理,特征提取、模式匹配和判决等几部分组成。

除此之外,完整的说话人识别系统应包括模式训练和判决阀值选择等部分。

图3.1 说话人识别系统框图
建立和应用一个说话人识别系统可分为两个阶段,即训练(注册)阶段和识别阶段。

在训练阶段,系统的每一个使用者说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使用者的模板或模型参数参考集。

而在识别阶段,把从待识别说话人说出的语音信号中提取的特征参数,与训练过程中得到的参考参量及模板模型加以比较,并且根据一定的相似性准则进行判定;对于说话人辨认来说,所提取的参数要与训练过程的每一人的参考模型加以比较,并把与距离最近的那个参考模型所对应的使用者便认为是发出输入语音的说话者。

对于说话辨认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较。

如果两者的距离小于规定的阀值,则予以确认,否或则予以拒绝[7]。

说话人识别特征的选取:
在说话人识别系统中特征提取是很重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征,虽然哪些参数能较好地反映说话人个人特征,现在还没有完全搞清楚但一般都包含两个方面,即生成语音的发音器的差异和发音器官发音时动作的差异,前者主要表现语音的频率结构上,主要包含了反映声道共振与反共振特性的频谱包络特征信息和反映声带震动等音源特性的频谱细节构造特征信息,代表性的特征参数有倒谱和基音参数,后者的发
音习惯差异主要表现在语音的频谱结构是时间变化上,主要包含了特征参数的动态特性,代表性的特性参数是倒谱和基音的线形回归系数,即差值倒谱和差值基音参数。

在说话人识别中,频谱包络特性特别是倒谱用的比较多,这是因为一些实验已经证明,用倒谱特征可以得到比较好的识别性能,而且稳定的倒谱比较容易提取。

和倒谱相比,基音特征只存在于浊音部分,而且准确稳定的基音特征比较难提取。

一般来说,人能从声音的音色、频高、能量的大小等各种信息中知觉说话人的个性特征。

所以可以想象,如果利用复数特征的有效组合,可以得到比较稳定的识别性能[2][8]。

根据以上的分析,概括起来就是,在理想的情况下,选取的特征应满足下述准则:
(1)能够有效的区分不同的说话人,但又能在同一说话人的语音发生变化时
相对保持稳定;
(2)易于从语音信号中提取;
(3)不易被模仿;
(4)尽量不随时间和空间变化。

一般来说,同时满足上述全部要求的特征通常是不可能找到的,只能使用折中方案。

多年来,各国的研究者对于各种特征参数在说话人识别中的有效性进行了大量的研究,并且得到了许多有意义的结论,如果把说话人识别中常用的参数加以简要归纳,则大致可以分为以下几类:
1.线形预测参数及其派生参数
通过对线形预测参数进行正交变换得到的参量,其中阶数较高的几个方差小,这说明它们实质上与语句的内容相关性小,从而反映了说话人的信息。

另外,由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与文本无关的说话人识别。

由于它推导出多种参数,例如部分相关系数、声道面积比函数、线形对系数以及LPC倒谱系数,都是可以应用的,目前,LPC 倒谱系数和差值倒谱系数是最常用的短时谱参数,并获得了较好的识别效果。

2.语音频谱直接导出的参数
语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差。

相关文档
最新文档