语音信号的特征量分析和消噪处理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

当获得所有帧的 K 系数后 , 发觉在浊音/ 非浊音的分割区间该参数会有一个很高峰值 , 定义阈值 (阈
值是通过求所有帧的平均 K 系数的倍数来确定) 保留大于阈值的所有峰值作为参考点 , 显然 , 这里
有很多虚假端点 , 见表 1.
表 1 端点 K 值和能量 Tab. 1 The K parameter and energy of end point
王永琦1 , 王立功2 , 许焱平2 , 杨洋1
(1. 苏州大学电子与通信工程系 , 江苏苏州 215000 ; 2. 焦作工学院计算机科学与技术系 , 河南焦作 454000)
摘要 : 介绍了用 VC 开发的关于语音信号特征量分析及增强的软件包. 软件包不仅实现了对语音信号的时域和频域的特征参数快捷提取和实时显示 , 还可以实现清浊语音段的分离 , 最重要的是可以实现语音的增强和背景噪声的降低处理.
自适应滤波的算法公式为
M
∑ S k =
ai Xk- 1
=
A
T k
X
k
,
i =0
A k - 1 = A k + 2μ[ ( x k - A k) X k -
Rnn ] .
为了得到噪声的先验知识 R nn , 就要进行语音间隙的检测 , 利用间隙期采样值进行噪声统计求
的 Rnn .
焦作工学院学报 (自然科学版) , 第 22 卷 , 第 1 期 , 2003 年 1 月 Journal of Jiaozuo Institute of Technology (Natural Science) , Vol. 22 , No. 1 , Jan. 2003
语音信号的特征量分析和消噪处理
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
5 8 焦作工学院学报 (自然科学版) 2003 年第 22 卷参考文献 : [ 1 ] 易克初 , 田斌 , 付强. 语音信号处理 [ M ] . 北京 : 国防工业出版社. [ 2 ] 周光霞 , 戴忠健. 汉语语音基音周期检测和声调判决的一种方法 [J ] . 现代电子工程 , 1998 (4) : 51 - 55. [ 3 ] 刘晓晖 , 周纬 , 郑明 , 等. 语音增强系统中的宽带噪声的滤除 [J ] . 西安交通大学学报. 1998 , 12 - 15. [ 4 ] 张金槐. 关于自适应滤波技术的一些思考 [J ] . 国防科技大学学报 , 1994 , 68 - 78.
关键词 : 特征参数 ; 清/ 浊语音分离 ; 语音增强 ; 减谱法 ; 自适应滤波中图分类号 : TP 18 文献标识码 : A 文章编号 : 1007O7332 (2003) 01O0055O04
0 引言
语音处理技术在 20 世纪 60 年代取得突破性进展后 , 现已成为开发人工智能、实现人机对话的重要手段. 人机对话不可避免地要涉及到语音的识别和合成 , 而这些研究都与语音的基础研究和基本语音参数的提取分不开. 在语音研究工作中 , 研究人员为了获得这些基本的参数数据 , 要做大量重复性的工作. 由于语音信号具有一定的随机性 , 当语音信号淹没在随机噪声中时 , 两者很难区分 , 给语音信号的处理带来不便. 为了提高研究人员的工作效率 , 把他们从这种重复性、常规性的工作中解脱出来. 我们设计了一个在 Windows 环境下的关于语音分析和增强的软件 , 使得人们很方便地得到语音信号的特征参数以及过滤掉语音信号中的噪声.
端点值能量值
54 1. 28
56 1. 96
57 1. 65
74 37. 4
97 10. 0
100 1. 22
102 0. 94
103 32. 0
34 1. 26
141 1. 17
143 1. 16
147 1. 07
149 1. 06
我们可以根据各端点内的信号帧的短时能量 M 来判别属于清音还是浊音帧 , 同一属性的相邻区间合并 , 并重新调整端点 , 最终确定出清/ 浊音的分割端点. 本软件采用的算法中阈值的设定是依据所有系数的平均值的倍数决定 , 避免了单纯经验值可能带来的误差. 求出整个语音信号的平均能量为 11. 759 , 可认为高于平均能量的信号区间为浊音段 , 低于的为清音段. 经过多次合并可以得到确切的端点值为 74 、97 、103 、134 、149 (见图 3 中黑点标注的端点) .
2. 2 消除语音中的背景噪声由于语音信号受到噪声的污染 , 语音信号的质量下降 , 降低了语音的可懂度 , 并给其他的语音信
号处理带来了困难. 因此 , 在语音处理时要对含噪语音信号进行预处理 , 达到获得纯净语音的目的. 本软件为研究者提供了这种功能 , 以使研究者在进行其他处理时比较方便的获得较为纯净的语音信
5 6 焦作工学院学报 (自然科学版) 2003 年第 22 卷
清/ 浊端点的切分的算法和实现消除语音中的背景噪声的算法.
2. 1 连续语音清/ 浊端点的切分在语音分离过程中 , 常常要判断清音段和浊音段. 针对清/ 浊音的判断 , 大多是采用短时过零率
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 1 期王永琦等 : 语音信号的特征量分析和消噪处理
57
号. 通常采用的方法减普法、自适应滤波法、小波变换法等. 这里提供了减谱法[3 ] SEMSS ( Met hod of Spect ral Subst raction) 和自适应滤波[4 ]MSAF (Met hod of Self Adapt Filter) 2 种去噪方法. 2. 2. 1 谱相减法的基本原理
这两种去噪方法对含噪语音的去噪处理效果都很显著. 图 4 中的含噪信号经处理后在图 5 和图 6
中明显看出噪声信号大幅降低.
3 结论
随着无线个人通信的发展以及计算机功能的增强 , 人机对话将更符合人类需要的通信应用 , 音频处理技术的发展将发挥更大的作用. 本套语音信号分析和增强的软件包为提高语音研究人员的工作效率、促进语音研究的发展提供了有效的实验工具. 对语音的识别及合成提供了一些有价值的结果和数据. 实践证明 , 该软件包的设计合理有效 , 具有通用性.
求取每一帧 M Z 的系数与其相邻的前一帧、后一帧的 M Z 系数的比值 , 将两个比值中较大的一
个值进行保留 , 这一值 ( K) 将作为清/ 浊音端点的判别依据.
K = max
M Z ( i + 1) M Z( i)
,
M Z ( i - 1) M Z( i)
;
(2) 滤除虚假端点.
图 1 和图 2 分别是语音 “苏州”的原始信号波形和 K 系数波形. 图 2 用黑点标出了候选端点.
wenku.baidu.com
和短时能量等参数来实现. 在对语音进行分帧处理时 , 对每一帧求取短时能量、过零率 , 通过经验值设定门限 , 来决定有声语音的起止点. 这种方法有两点限制 , 语音端点只能准确到以帧长为单位 , 其次 , 判断起止点时依靠经验值获取. 为了准确地分离清、浊音 , 本软件采用以下的解决方案 :
1 软件功能
本软件采用 VC 语言编写 , 尽量做到短小、紧凑和高处理效率. 由于语音信号的时变性 , 因此数据的分析是采取短时帧的分析. 在处理文件时 , 只要在内存中开辟一段数据区 , 每分析完一段语音信号 , 再从文件中取出一段进行分析.
软件实现的功能有 : (1) 获得语音频谱 , 包括短时快速傅立叶变换 FF T ( Fast Fourier Transform) 和线性预测编码谱 L PC (Linear Predictive Coding) [1 ] , 以及两者的对比图. (2) 能量和过零率检测. 短时能量 ( Speech Energy) 和过零率 ( Zero Crossing Rates) [1 ] . (3) 基音检测 ( Pitch Detection) , 基音估值[2 ] . 在语音分析、语音合成、语音识别等方面 , 基音监测和估值有着非常重要的作用. 如果提取每一帧的基音周期轨迹法 , 就可以从基音图中明显地看出语音音调的变化的情况. (4) 连续语音清/ 浊端点的切分. (5) 消除语音中的背景噪声. 另外软件还有一些其他辅助的功能. 如 : 根据使用者的需要来设置不同的采样率、录音、播放、暂停、前进、后退、选择任意的部分播放等等 , 软件的功能较为完善.
(1) 求出每帧能量、过零率、K 系数和 K 系数波形图.
N
∑ 求取每帧的能量 : M ( i) =
Si ( j) ,
j =1
N
∑ 过零率 : Z ( j) =
sgn[ S i ( j) ] - sgn[ S i ( j - 1) ] ,
j =1
短时能量和过零率的乘积 : M Z ( i) = M ( i) × Z ( i) ;
2 算法介绍
软件的功能中前 3 项的算法是比较简单的 , 而且比较容易实现. 这里主要介绍一下实现连续语音
收稿日期 : 2002O07O17 ; 修回日期 : 2002O09O21 作者简介 : 王永琦 (1974O) , 男 , 河南焦作人 , 在读研究生 , 从事语音信号的研究.
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
对 yw ( n) 、x w ( n) 、sw ( n) 作傅立叶变换 , 可得到 Y w ( w ) 2 = X w ( w ) 2 + S w ( w ) 2 + X w ( w ) ·S′w ( w ) + S w ( w ) ·X′w ( w ) ; 式中 , S′w ( w ) 、X′w ( w ) 分别代表 S w ( w ) 、X w ( w ) 的复共扼. 由 S w ( w ) 2 、X w ( w ) ·S′w ( w ) 、 S w ( w ) ·X′w ( w ) 无法精确得到 , 因而分别用三者的能量来代替他们. 又由于 sw ( n) 是与 x w ( n) 不相关 , 所以 S w ( w ) 、X w ( w ) 也不相关. 因此 X w ( w ) ·S′w ( w ) 、S w ( w ) ·X′w ( w ) 的平均能量为零. 经过上述分析 , 我们能够得到 X w ( w ) 2 的估计值 X w^( w ) 2 , 形式如下 : X w^( w ) 2 = Y w ( w ) 2 - E ( S w ( w ) 2) .
由于在减谱法处理过程中 , 是以无声期间统计平均的噪声方差代替当前分析帧的各频率点的噪声频率分量 , 因而在本软件中 , 可以很方便而且有效的从语音图上确定出噪声段.
我们可以手工操作 , 在波形图上选出一段纯噪声信号 (在选取后 , 可以利用软件中一些编辑器件 , 听一下是否是纯噪音信号) 计算出 X w^( w ) 2 , 从而获得能量谱的幅度 , 再利用人耳对语音相位的不敏感 , 以原始的含噪语音的相位代替估计语音的相位就可以得到去噪后比较纯净的语音信号. 2. 2. 2 自适应滤波的基本原理
设 x w ( n) 是加窗后的语音信号 , 由于语音信号是短时平稳的 , 所以在短时谱幅度估计中认为它是平稳随机的信号 , sw ( n) 是与 x w ( n) 不相关的加性噪声 , 而 yw ( n) 是语音信号 x w ( n) 和噪声信号 sw ( n) 叠加的含噪语音信号. 即 yw ( n) = x w ( n) + sw ( n) .