语音分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号分析与应用
(郑州中原工学院电子信息学院)
摘要:文章简要介绍了“语音信号处理”这一分支学科形成和发展的历史过程,指出了它在现代信息科学技术中的地位和作用。
为了区分该语音的清音段与浊音段,提出一种短时幅度和短时过零率相结合的方法。
分析比较了短时幅度和短时过零率分别出现的不同结果。
短时幅度值Mn 大的对应于浊音段,而Mn 值小的对应于清音段。
高平均过零率对应于清音,低平均过零率对应于浊音,分析结果表明将短时幅度和短时过零率结合起来的方法可以大体上区分清音段和浊音段。
语音信号频谱分析包含极其丰富的内容。
短时谱、LPC谱、倒谱、LPC 倒谱等多种常用频谱的概念,分析比较了上述频谱各自的特性及相互关系, 并用软件编程实现计算机仿真,讨论各种频谱的实际应用。
关键词:语音频谱短时谱 LPC谱倒谱语音短时幅度短时过零率
1、简要历史回顾
声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。
它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等。
当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础语言声学的发展和电子学、计算机科学有着非常密切的关系。
在它发展的过程中,有过几次飞跃第一次飞跃是1907 年电子管的发明和1920年无线电广播的出现。
因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。
从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门%第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机。
这样就可以用数字计算方法,对语音信号进行处理和加工。
例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现。
在这个基础上,逐渐形成了一门新学科———语音信号处理。
它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。
在信息科学中占有很重要的地位。
2、语音信号处理在信息科学中的地位和作用
语音是语言的声学表现,是人类交流信息的最自然、最有效、最方便的手段。
语音信号处理是一门以语言学和数字信号处理为基础的综合性学科,包括了语音识别、语音合成、语音编码和说话人识别等四大分支。
众所周知,语音在人类社会中起了非常重要的作用。
在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。
近年来,普通电话、移动电话和互联网已经普及到家庭。
在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。
再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到
日程上的研究工作了。
人们早就希望用语音指挥机器,机器的执行情况也能用语音回答。
这在某些领域已经部分地实现了。
目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛地应用于在社会生产和生活的各个方面。
然而计算机接收信息的外围设备和主机相比,要逊色得多。
能说能听的计算机还不能普遍使用。
也就是说:语音识别、语音理解和语音合成等课题,还有很多理论问题和技术问题没有解决,需要继续深入研究。
科学家们深入研究后认为,要解决人机语音对话这样的难题,做出真正实用的语音机器,必须开展跨学科的研究,如声学、语言学、语音学、生理学、数字信号处理、人工智能和计算机科学等。
要真正赋予微电脑以语言功能,必须彻底了解语言是如何产生、感知,以及人类的语言通信是如何进行的。
3、四种常用的语音分析方法比较
3.1语音信号的时域分析
目前常用于语音检测的方法有短时能量法、短时平均幅度(Average Magnitude,AM)法、短时过零率法、相关性检测法、短时平均幅度差(Average Magnitude Difference Function,AMDF)法等。
3.1 .1用短时平均幅度Mn 进行清浊音判断
1 短时平均幅度定义
语音信号x(n)的短时平均幅度的定义为
这里用计算加权了的信号绝对值之和代替平方和。
这种短时处理的方法比较简单,因为它不必作平方运算。
Mn 也是一帧语音信号能量大小的表征,与En 的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。
2 窗口的形状和长度的选择
本算法中窗口选择海明窗,其定义为:
其中,N 为窗口的长度。
选择海明窗的理由是窗函数的选取原则为窗函数截取后的x(n)尽量是中
间大两头小的光滑函数,冲激响应对应的滤波器具有低通特性。
海明窗虽然主瓣最高(带宽大),但旁瓣最低(通带外的衰减大),可以有效地克服泄露现象,具有低通特性。
故选择海明窗更能反映出语音信号的幅度变化。
选择海明窗后,就应选择窗口的长度N 了。
如果N 很大,它等效于带宽很窄的低通滤波器,此时Mn 随时间的变化很小,不能反映语音信号的幅度变化,波形的变化细节就看不出来;反之,N 太小时,滤波器的通带变宽,短时幅度随时间有急剧的变化,不能得到平滑的能量函数,。
不论什么样的窗口,窗长对于能否反映语音信号的幅度变化,起决定作用。
窗长太大或太小都不行,故窗长选择应合适。
本方法中选择的窗长为240,窗移为80,共有60 帧。
3.1.2 用短时平均过零率对清浊音频谱的进行粗略估计
1 短时平均过零率定义
短时平均过零率是语音信号时域分析中最简单的一种特征。
顾名思义,它是指每帧内信号通过零值的次数。
对于连续语音信号,短时平均过零率可以考察其时域波形通过时间轴的情况。
对于离散信号,短时平均过零率实际上就是信号采样点符号变化的次数。
短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。
语音信号x(n)的短时平均过零率的定义为
式中,sgn[·]是符号函数,即
2 窗口的形状和长度的选择
窗函数w(n)为矩形窗,即
,本方法中选择的窗长为240,窗移为80,共有60 帧。
根据前面语音信号x(n)的短时平均过零率的定义式Zn,可得实现过零的框图,如图2 所示。
由图可见,首先对语音信号序列x(n)进
行成对地查对采样以确定是否发生过零,若发生符号文化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行滤波。
图2 语音信号短时平均幅度的实现
3.1.3 短时幅度和短时过零率的应用
1 短时平均幅度主要用途
Mn 也是一帧语音信号能量大小的表征,由于平均幅度函数没有平方运算,因此其动态范围(最大值和最小值之比)要比短时能量小,接近于标准能量计算的动态范围的平方要,窗长N 对平均幅度函数的影响与短时能量的分析结论是完全一致的,且浊音时Mn 值比清音时大得多。
所以,短时平均幅度也可以用来区分清音段和浊音段。
如在图四中,短时幅度Mn 值大的对应于浊音段,而Mn 值小的对应于清音段。
由图上的Mn 值的变化,可大致判定浊音变为清音或清音变为浊音的时刻。
语音dgql.wav 显示的部分短时平均幅度的连续图(取该语音的前5000 个样本)如图4 所示。
图3 短时平均过零率的实现
图4 短时幅度
2 短时平均过零率主要用途
短时平均过零率可应用于语音信号分析中。
由于它粗略地描述了
信号的频谱特性,因而可以区分清浊音。
发浊音时,其语音能量约集中
于3kHz 以下。
而发清音时,其多数能量出现在较高频率上。
既然高频
意味着高的平均过零率,低频率意味着平均过零率,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零率。
但这种高低仅是相对而言,没有精确的数值关系。
3.2语音信号的短时傅里叶变换
严格的讲语音信号是非平稳信号, 傅立叶变换只适用于平稳信号, 但在短时间内可认为语音是平稳的, 对语音信号进行短时傅立叶变换分析, 可获得语音信号的短时谱。
语音信号x( m)的短时谱为:
( 1)
式( 1)是位于n处的窗选语音段x(m)w( n - m)的傅立叶变换( DFT), 它反映了语音信号的频谱随时间变化的特性。
具体实现时可以直接对窗选语音段x(m)w ( n- m )做标准的Fourier变换得到频谱, 也可以从线性滤波的角度来实现, 可以将式( 1)看成是窗序列w(n)和一段语音做了负指数加权得到的序列x( n)e-jXn 的卷积, 或者说短时谱Xn(ejX)是序列x( n)e-jXn通过冲激响应为w( n)的线性滤波后得到的输出。
3 .3倒谱
语音分析的目的之一是将激励源与线性时不变系统的冲激响应分离开, 并分别进行研究。
倒谱分析(同态处理)是把激励源和声道的冲激响应分离的有力工具。
语音倒谱c( n)是语音信号x( n)的傅立叶变换的模的对数的逆傅立叶变换, 由式( 3)给出:
c( n) = DFT- 1 { In |DFT[ x ( n) ] | }
3.4 LPC 谱
在估计语音的基本参数方面, LPC 是一种主要的分析技术。
线性预测分析( LPC)的基本原理: 利用语音信号的相关性, 用过去的取样值来预测现在或将来的取样值, 在预测均方误差最小的准则下, 使实际的取样值与预测值之间的差别达到最小, 来确定唯一的一组预测系数。
线性预测对语音信号处理有两个作用: 一是预测, 二是建模。
对一帧语音求出一组预测系数ai 后, 这一组预测系数ai 恰好就是语音的模型参数( AR 模型) , LPC谱由下式给出:
(2)
由式( 2)可知, 只要知道预测系数ai, 就可得到LPC 谱。
2 各种频谱之间的关系
上述各种语音频谱各有其特征。
它们的频谱由软件编程实现仿真, 频谱及其相互关系如图1所示。
图1 语音的各种频谱比较
图1所示是一女声语音(实验环境: 采样频率8kH z, 8bit量化, PCM 编码)的一个典型的语音帧的各种频谱的比较。
语音的短时谱有两种信息: 频谱的细节信息(快变)和频谱的包络信息(慢变), 细节信息是由周期性激励引起的, 反映基音频率的各次谐波; 包络信息是由声道的共振特性引起的, 反映各共振峰的频率和带宽。
LPC谱和短时谱的包络贴近, 在信号能量较大的区域(峰值处)与短时谱的谱包络匹配得很好; 而在信号能量较低的区域即接近谱的谷底处, 则相差较大。
倒谱的变化关系和LPC 谱的变化一致, 但前者比后者平滑。
由LPCC谱得出的频谱包络得到的声道共振峰的峰值更明显, 且它利用了线性预测中声道系统函数H ( z)的最小相位特性, 避免了相位卷绕问题, 使LPCC谱的运算量小。
3 各种频谱的应用
从语音的短时谱的快变、慢变两种信息可以判断, 如果语音帧是浊音帧, 由细节信息(快变)可以得出这一帧的基音频率, 如果是清音帧, 则不具有这样的特性; 由包络信息(慢变) 可以得出声道各共振峰的频率和带宽。
这两种参数是语音处理最基本最重要的参数, 应用在语音处理的各个方面。
一帧语音的短时谱(线性幅度谱和对数幅度谱)如图2所示, 一帧语音的时间波形240个样本, 大约包含5个基音周期, 采样频谱8000H z, 推算基频约为167H z。
在线性谱中的0 ~ 1500Hz 之间有9 个峰点, 基频约为166H z, 这两个结果是相当一致的。
图2的线性幅度谱或对数幅度谱中包络的峰值点所对应的频率是共振峰的频率, 浊音帧的频谱具有明显的共振峰特性,而清音没有这个特性。
图2 一帧语音的时域波形及短时频谱图
图2 一帧语音的时域波形及短时频谱图语音的LPC 分析的结果是对于每一帧的语音得到一组LPC 系数。
这组系数是语音信号的产生模型中全极点线性滤波器的参数, 由于语音产生模型中的全极点线性滤波器是声门、声道和嘴唇辐射的综合模拟, 所以其频率特性主要反映声道的共振特性。
当根据一帧语音的取样值
求得一组LPC 系数后, 就意味着求得了这帧语音信号的产生模型中全极点滤波器的频率特性, 它可以准确有效地表示语音信号的特征[ 2] 。
LPC 谱如图3所示, 它与短时谱的峰值匹配得很好, 与短时谱的谷底匹配较差。
一般将LPC 谱认为是短时谱的包络, 所以从LPC 谱获取频谱的包络信息比短时谱更容易。
LPC 谱广泛应用于语音编码[ 8-10 ] 、语音合成[ 11] 和语音识别[ 12-15] 等各个方面。
图3 LPC谱与短时谱的比较
由LPC 谱变换得到的LPCC 谱, 因计算量小, 在实时语音识别中经常作为特征参数使用。
图4 语音的倒谱和复倒谱
在图4中, 图( a)是一帧语音的时域波形; 图( b)是这帧语音的复倒谱图; 图( c)是倒谱图; 图( d)和图( e)是由倒谱得到的声道冲激响应和声门激励信号;图( f)是由倒谱得到的语音的对数幅度谱。
由语音信号的二元激励模型可知, 人们听到的语音是声门激励信号与声道冲激响应卷积的结果, 语音分析的目的之一是将声门激励信号与声道的冲激响应分离, 这是语音的解卷。
倒谱主要应用在获取声门激励信号以及声道的冲激响应, 从而得到基音周期和声道共振特征两个参数, 完成语音的进一步处理。
4 结束语
在语音信号领域,有一些基础的理论问题和技术问题还在继续研究和发展中( 在信息科学的应用领域,例如语音的低速率编码,语音的规则合成和文--- 语转换系统,语音识别和人---机语音对话等,仍然是当前研究的热点(有的已经解决了,有的只是部分解决了,还有很多难题等待我们去研究探索。
这些难题是:(1)听觉器官的物理模型和数学表示,目前还没有一套权威的理论和成熟算法。
虽然有多种设计,但实验结果都不够充分。
特别是从听觉前端处理器所得到的波
形特征,经过更高一级的处理,最后的信息速率只有50bit/s.(2 )这是人们理解
和感知语音信号的最低限度。
而这一过程在人脑中是怎样完成的,目前还不太清楚。
它是一个非常复杂的问题,需要进一步研究探索。
(3)语音识别的子课题很多,其中最难的是非特定人、大词汇量、连续语音识别。
近年来这个课题已经取得很大的进展! 世界上有很多权威实验室推出了可供表演的识别系统,有些公司还推出了商品!但是由于不同人的发音差别很大,再加上环境噪声等影响,系统的正确识别率和顽健性离实际使用还有很大距离。
目前,人们所期望的口呼打字机或听写机还没有得到推广。
(3)语音的规则合成和文, 语转换系统,已经取得了一批可以实用的成果。
然而要使它能和优秀的播音员一样,具有不同风格、情感、很高的自然度,仍然是非常困难的问题!。
关键技术是如何根据一段文章的语境和语义,自动生成计算机可以识别的韵律符号。
这涉及到机器对自然语音的理解,目前还在研究中。
(4)语音增强包括从强噪声中提取语音信号,或者从几个人同时说话的混合波形中,分离出各自的语音信号,这类研究虽然理论上有一些算法,但效果均不理想,还没有达到可以实用的水平(5)最后谈一下大家感兴趣的课题———语音翻译机。
如果前面所说的非特定人、大词汇量、连续语音识别、机器对自然语音的理解和处理、语音的规则合成和文, 语转换系统等课题,都满意地解决了,则输入为英语、输出为汉语的语音翻译机(或者相反、或为其他语种)也就应运而生了。
这将会对旅游、商务和文化交流带来深远的影响。
参考文献:
[ 1] 赵晓群. 数字语音编码[M ] . 北京: 机械工业出版社,
2007: 71-140.
[ 2] 赵力. 语音信号处理[M ]. 北京: 机械工业出版社, 2003.
[ 3] 姚天任. 数字语音处理[M ]. 武汉: 华中理工大学出版
社, 1992.
[ 4] M arkel J D, Gray A H. L inear Prediction of Speech [M ].
New York: Spr inge r-Ver lag, 1976.
[ 5] M akhoul J. L inear pred iction: A tuto rial rev iew [ C] / /Proc. o f the IEEE, 1975, 63( 4) : 561-580.
[ 6] M akhoul J. Spectra l linear pred ic tion: Properties and appl-i cations[ J] . IEEE Trans. on A coustics, Speech, and Signa l
Processing, 1975, 23( 3): 283-296.
[7] 刘运通,石建军,熊辉.交通系统仿真技术[M].北京:人民交通出版社,2002.
[8] 翟文国,佟俐鹃.一种矢量图形编辑工具的设计与实现[J].计算机工程,200127(12):14-17.
[9] Chand M,韩江.GDI+图形程序设计[M].北京:电子工业出版社,2005.
[10] Hoffman K,Kruoger L.C#.NET 技术内幕[M].董梁,高猛,译.北京:清华大学出版社,2006.
[11]Thomas F Quatieri Discrete-time speech signal processing 2001
[12]李昌立;吴善培数字语音-语音编码实用教程 2004.
[13]Kondoz A M Digital speech coding for low bit rate communication system, University of Surrey 1994.
[14]陈永彬;王仁华语音信号处理 1990.
[15]胡航,哈尔滨工业出版社.。