_语音去噪算法的研究.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小波变换法:小波变换是对信号的时间尺度和时间频率进行分析的一种方法,即在时域上对信号离散变换,在频域上进行谱分析的方法。具有非常高的高分辨率,而且在时、频两域上都具有对信号局部特征进行表征的能力 。
图1.1.语音增强处理改善语音质量
1.3
第一章为绪论,对课题背景即语音去噪的重要性与应用的普遍性进行了介绍。同时,还介绍了去噪算法研究的发展历史。最后,对去噪算法的分类进行了介绍,确立了本论文的研究方法——谱减法。
随机过程的统计特性可用定量值——平均值 和标准偏差 表示。期望值 是X的平均值,表示测量一次可期望的值,并用大量测量的平均值表示,即:
(2-7)
标准偏差 是X的分散程度或变化部分的表示,即:
(2-8)
在一般交变量中,平均值 为零,则标准偏差就是有效值, 称为均方差。
2.2.4
带噪语音模型如图2.1所示。
人类社会已经离不开通信,语音是我们信息交流中最平常、最快速和最方便的方式之一。但目前语音识别系统很难在噪声环境中工作,其受到的影响很大。因此,语音增强技术对于我们的日常生活有着极其重要的价值。
1.2
语音增强方法在20世纪70年代中期就对其进行研究。当时取得了一些基础性成果。随着近代科学的发展,数字信号处理理论逐渐成熟,语音增强也取得了快速的发展,如今语音增强成为语音处理领域的一个重要分支。1978年Lim和Oppenheim提出了语音增强的维纳滤波方法,1979年Boll提出了谱相减方法来抑制噪声,1980年Maulay和Malpass提出了软判决噪声抑制方法,1984年Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法,1987年Paliwal把卡尔曼滤波引入到语音增强领域 。语音增强技术在这近30年的发展中,各种方法被不断的提出,从而奠定了语音增强理论基础,并使之逐渐走向成熟 。
解决噪声污染的一种有效途径是语音增强,他的主要功能是在混有噪声的语音信号中处理原始语音信号,随着通信技术的发展,语音增强技术也有了很大程度的发展。它主要用于降低噪声、语音识别系统和预处理。
语音增强涉及的内容很广,它还涉及到听觉感知和语音学。噪声有许多来源,随着外部环境的变化,噪声特性也不相同。我们必须针对不同的噪声,采取不同的语音增强方法 :
KeywordsRemoving the noise,Spectral subtraction, Gaussian white noise,Randomnoise
1绪论
1.1
语音是信息传播和情感表达的重要媒介,在日常生活中起着非常重要的作用。二十一世纪是信息科学世纪,人机交互式语音处理系统如电话通信,导航系统,远程控制等在人们日常生活中的应用越来越多。因此,对人类交流中最常用的语音其进行处理,在现代信息处理中占有极其重要的地位。
同声道语音干扰噪声:是指当单信道中有多个语音信号叠加传输时,对称信号因相互抵消而消失。此外,发音也会受到背景噪声的影响,噪声信号对原有语音信号的声学特征和参数造成了破坏,从而无法分清不同语音的差别,话音质量有所下降。因此,噪声会对语音信号产生严重的影响 。
背景噪声:背景噪声信号不仅对原有的声学特征进行破坏,而且还破坏原有信号的模型参数,使不同语音间的差别减弱,语音质量下降。较强的背景噪声会改变讲话人的发音方式,对于相同的语音,其语音的特征参数也会与安静环境下不同 。
(3-1)
经过加窗处理后的信号分别表示为 , , ,则有
(3-2)
对上式两端分别做傅立叶变换,得
(3-3)
对功率谱有
(3-4)
可以根据观测数据估计 ,其余各项必须近似为统计均值。由于 和 独立,则互相的统计均值为0,所以原始语音的估值为:
(3-5)
上式为功率谱减法的表达式。整个系统原理图如图所示:
图3.2传统谱减法原理框图
2.2
2.2.1
噪声来源由外界的应用环境决定,噪声一般可分为加性噪声与非加性噪声。在非加性噪声中,一些噪声可以转化为加性的。我们一般研究的加性噪声分为:周期性噪声、脉冲噪声、宽带噪声和同声道语音干扰等。
周期性噪声:离散的窄谱峰是周期性噪声的特点,其主要来源于周期性运转的机器,周期性噪声引发的问题最少,可以通过滤波技术将噪声去掉。但是,其中交流噪声的抑制很困难,因为其频率成分不是基音,而是谐波成分。
3.2
图3.3谱减法实现流程图
3.3
在本次语音信号的去噪研究中,使用的纯净语音文件是利用一段wav格式的语音文件。Wav语音文件室多媒体使用的声波文件格式之一。程序实现中我们用wavread函数读取wav语音文件,返回抽样数据、抽样速率、每一抽的比特数。
(2-9)
其中, 、 、 分别为带噪语音、纯净语音和干扰噪声。
其带噪语音模型可以用下图表示:
图2.1带噪语音模型
3
3
谱减法是语音去噪技术中较传统有效的方法,谱减法认为加性噪声与短时平稳语音是相互独立的,从而可以利用混合语音的功率减去噪声功率得到去噪后的语音信号。
图3.1谱减法原理框图
我们假设 、 和 分别代表语音、噪声和带噪语音, 、 和 分别表示其短时谱。由上面假设可以得到信号的加性模型:
关键词语音去噪,谱减法,高斯白噪声,随性噪声
ABSTRACT
Speech denoising is dealingwith the noise in our voice calls suffering from different kinds of external voice especially noiseandprovidesus a clear voice signal.In thepaper,Spectral subtractionwhich is one ofcommon Speech denoisingmethodsis studied.Spectrum subtraction iseasy to be carried out and it can improve the quality of the outputvoice,the noise in the voice can be high effectively removed. In the paper, two types of noise: Gaussian noise and random noise were added in voice signal. Thesimulation resultsshou that spectrum subtractionhas a better effect on Gaussian noise while theintensityof added noise is less than 2 and it has a better effect on random noise while theintensityof added noise is higher than 2.
语音去噪算法的研究
专业:通信工程姓名
摘 要语音去噪处理是对我们语音通话过程中受到的各种外界声音特别是噪声进行处理,从而得到纯净的语音信号。本文利用一种常用的语音去噪算法——谱减法来进行语音去噪的研究。谱减法使用简单且可执行,其输出语音质量很高,能有效的除去语音中的噪声。本文通过添加不同的噪声:高斯白噪声和随性噪声,通过谱减法对高斯白噪声与随性噪声分别进行了去噪处理,并对去噪能力进行比较,通过仿真结果可以看出当加入噪声强度低于2时,谱减法对白噪声的去噪效果较好,当加入噪声强度高于2时,谱减法对随性噪声的去噪效果较好。
2
2.1
语音是由清音和浊音组成。其中浊音在时域上是具有周期性的;在频域上有共振峰结构,在低频段内聚集着大部分能量。而清音段无时域和频域特性,与白噪声相似。在我们进行语音增强时,可以对浊音的周期特征进行有效地使用,我们一般采用梳状滤波器,通过该滤波器对语音分量进行提取,也可以有效地抑制非语音信号 。
语音信号一般利用统计分析来表示。因为语音是一种随机过程,他是非平稳,非遍历的。所以对语音信号进行长时间的时域统计特性是徒劳的,长时间的时域统计在语音增强中意义不大 。因为语音的谱幅度在短时是时变的,所以我们要将帧长趋于无穷大,这样才能近似认为该短时语音信号具有高斯分布的特性。我们在这对短时语音信号做了一种近似的描述。我们一般在研究宽带噪声的语音增强方法时,认为这种假设是前提 。
声功率 (dB)或SWL的定义为:
(2-3)
其中 = 为基准功率。
声压级与声强级的关系如下式表示:
(2-4)
其中C为声速(m/s)。
2.2.
噪声是一个随时间变化的过程。一般的时域周期信号可用振幅、频率、相位来表征。但是噪声的时域特性不是很明显,噪声的时域波形称为噪声信号,将其进行频域变换,得到噪声信号的频域特性——频谱。
脉冲噪声:一般是在时域波形中突发的窄脉冲,一般是由于放电产生的。脉冲噪声的消除方法一般在时域内进行,通过混合信号幅度的平均值来确定阈值。当混合信号幅度大于这一阈值时,该信号被认为是冲激噪声,然后在对该信号进行衰减,从而去除该脉冲噪声。
宽带噪声:一般可以设定为高斯噪声和白噪声,他有很多来源,包括一般随机噪声源,量化噪声可以认为是宽带噪声,因为混合信号中宽带噪声与语音信号在时域和频域上重叠,所以滤波方法是无效的,因而消除它最困难。宽带噪声只会单独存在于语音间歇时期,平稳的宽带噪声认为是高斯白噪声 。
单频噪声:它主要源于无线电干扰。它的特点是一种连续干扰,并且其频率是可以通过实测来确定的,因此在采取适当的措施后就有可能防止。
2.2.2.
声音是由声压、声强、声功率度量的。
声压级 (dB)或SPL的定义为:
(2-1)
其中 =20 , 为基准声压(空气中)。
声强级 (dB)或SIL定义为
(2-2)
其中 为基准声强。
第二章介绍了去噪过程中必备的两个要素语音信号特性和噪声信号特性,噪声的质量和分类,以及噪声的表示和模型。
第三章介绍了谱减法的基本概念,实现的流程图,以及通过谱减法进行语音去噪的步骤:输入语音信号,添加不同的噪声信号,分帧加窗,傅里叶变换以及逆傅里叶变换与去除窗增益。通过仿真图形对谱减法的去噪效果以及谱减法对哪种噪声的去噪效果更好进行了论述。
谱减法的建立的假设: 噪声与语音信号是没有联系的,在频域上是加性的关系 。 外界背景噪声看做是近似稳态的。 如果背景噪声发生变化,形成其他的稳态,则必须有足够的时间(约300ms)来便估计新的背景噪声谱幅度值 。 对于非平稳缓慢变化的环境噪声,谱减法算法会激活话音检测环节,用以适时的判断并进行调整。 假设主要噪声影响的消除的方法是通过在带噪语音谱幅度中减去噪声而实现 。
噪声的频率特性一般由功率谱密度描述。设频率在 间的噪声功率为 ,则功率谱密度 定义为单位频率间隔内所含的噪声功率,即有:
(2-5)
(2-6)
噪声还具有统计特性。看起来噪声的时域波形像是无规则的的,但是任何噪声都都是有一定规律的,它们具有一定的统计规律。对于一个系统的噪声来说,测量值是不确定的,即有一定的随机性ቤተ መጻሕፍቲ ባይዱ但是当我们对该系统噪声进行N次测量之后,我们可以看出该系统噪声分布是有一定的规律。测量噪声的概率是确定的,因此可用概率来描述噪声的统计规律。
当我们在日常生活中进行语音通信时,会遇到噪声干扰的问题。如:我们在马路旁使用公用电话进行通信,路人的嘈杂声、汽车的鸣笛声等噪声都会干扰我们语音通讯的话音质量。对于接收语音方来说,受干扰的语音可能会使接收方产生听觉疲劳,还有可能无法听清对方声音。
在我们进行语音通信的过程中,语音质量的好坏是很重要的。如果音质很差,接收方无法听清对方的话音,可能会工作造成无法估量的损失。
频谱相减法:单声道语音增强,是目前常用的一类基于短时谱幅度估计的语音增强方法,该方法对语音信号的感知没有必要精确计算。所以,基于STSA估计的方法通常接采用带噪语音的相位作为增强语音信号的相位。基于语音增强STSA估计方法,包括谱减法和各种变形,最低均方误差估计法等。
自适应噪声对消法:自适应噪声对消是由自适应滤波器来完成的,它的基本原理是根据Widrow方法,利用自适应滤波器,从带噪语音中减去噪声的最佳估计值,得到纯净的语音。这种方法中,一个关键的问题是如何得到噪声的最佳值,自适应滤波器的目的是使设计出的噪声与实际噪声接近,因而根据LMS准则来调整滤波器系数。
图1.1.语音增强处理改善语音质量
1.3
第一章为绪论,对课题背景即语音去噪的重要性与应用的普遍性进行了介绍。同时,还介绍了去噪算法研究的发展历史。最后,对去噪算法的分类进行了介绍,确立了本论文的研究方法——谱减法。
随机过程的统计特性可用定量值——平均值 和标准偏差 表示。期望值 是X的平均值,表示测量一次可期望的值,并用大量测量的平均值表示,即:
(2-7)
标准偏差 是X的分散程度或变化部分的表示,即:
(2-8)
在一般交变量中,平均值 为零,则标准偏差就是有效值, 称为均方差。
2.2.4
带噪语音模型如图2.1所示。
人类社会已经离不开通信,语音是我们信息交流中最平常、最快速和最方便的方式之一。但目前语音识别系统很难在噪声环境中工作,其受到的影响很大。因此,语音增强技术对于我们的日常生活有着极其重要的价值。
1.2
语音增强方法在20世纪70年代中期就对其进行研究。当时取得了一些基础性成果。随着近代科学的发展,数字信号处理理论逐渐成熟,语音增强也取得了快速的发展,如今语音增强成为语音处理领域的一个重要分支。1978年Lim和Oppenheim提出了语音增强的维纳滤波方法,1979年Boll提出了谱相减方法来抑制噪声,1980年Maulay和Malpass提出了软判决噪声抑制方法,1984年Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法,1987年Paliwal把卡尔曼滤波引入到语音增强领域 。语音增强技术在这近30年的发展中,各种方法被不断的提出,从而奠定了语音增强理论基础,并使之逐渐走向成熟 。
解决噪声污染的一种有效途径是语音增强,他的主要功能是在混有噪声的语音信号中处理原始语音信号,随着通信技术的发展,语音增强技术也有了很大程度的发展。它主要用于降低噪声、语音识别系统和预处理。
语音增强涉及的内容很广,它还涉及到听觉感知和语音学。噪声有许多来源,随着外部环境的变化,噪声特性也不相同。我们必须针对不同的噪声,采取不同的语音增强方法 :
KeywordsRemoving the noise,Spectral subtraction, Gaussian white noise,Randomnoise
1绪论
1.1
语音是信息传播和情感表达的重要媒介,在日常生活中起着非常重要的作用。二十一世纪是信息科学世纪,人机交互式语音处理系统如电话通信,导航系统,远程控制等在人们日常生活中的应用越来越多。因此,对人类交流中最常用的语音其进行处理,在现代信息处理中占有极其重要的地位。
同声道语音干扰噪声:是指当单信道中有多个语音信号叠加传输时,对称信号因相互抵消而消失。此外,发音也会受到背景噪声的影响,噪声信号对原有语音信号的声学特征和参数造成了破坏,从而无法分清不同语音的差别,话音质量有所下降。因此,噪声会对语音信号产生严重的影响 。
背景噪声:背景噪声信号不仅对原有的声学特征进行破坏,而且还破坏原有信号的模型参数,使不同语音间的差别减弱,语音质量下降。较强的背景噪声会改变讲话人的发音方式,对于相同的语音,其语音的特征参数也会与安静环境下不同 。
(3-1)
经过加窗处理后的信号分别表示为 , , ,则有
(3-2)
对上式两端分别做傅立叶变换,得
(3-3)
对功率谱有
(3-4)
可以根据观测数据估计 ,其余各项必须近似为统计均值。由于 和 独立,则互相的统计均值为0,所以原始语音的估值为:
(3-5)
上式为功率谱减法的表达式。整个系统原理图如图所示:
图3.2传统谱减法原理框图
2.2
2.2.1
噪声来源由外界的应用环境决定,噪声一般可分为加性噪声与非加性噪声。在非加性噪声中,一些噪声可以转化为加性的。我们一般研究的加性噪声分为:周期性噪声、脉冲噪声、宽带噪声和同声道语音干扰等。
周期性噪声:离散的窄谱峰是周期性噪声的特点,其主要来源于周期性运转的机器,周期性噪声引发的问题最少,可以通过滤波技术将噪声去掉。但是,其中交流噪声的抑制很困难,因为其频率成分不是基音,而是谐波成分。
3.2
图3.3谱减法实现流程图
3.3
在本次语音信号的去噪研究中,使用的纯净语音文件是利用一段wav格式的语音文件。Wav语音文件室多媒体使用的声波文件格式之一。程序实现中我们用wavread函数读取wav语音文件,返回抽样数据、抽样速率、每一抽的比特数。
(2-9)
其中, 、 、 分别为带噪语音、纯净语音和干扰噪声。
其带噪语音模型可以用下图表示:
图2.1带噪语音模型
3
3
谱减法是语音去噪技术中较传统有效的方法,谱减法认为加性噪声与短时平稳语音是相互独立的,从而可以利用混合语音的功率减去噪声功率得到去噪后的语音信号。
图3.1谱减法原理框图
我们假设 、 和 分别代表语音、噪声和带噪语音, 、 和 分别表示其短时谱。由上面假设可以得到信号的加性模型:
关键词语音去噪,谱减法,高斯白噪声,随性噪声
ABSTRACT
Speech denoising is dealingwith the noise in our voice calls suffering from different kinds of external voice especially noiseandprovidesus a clear voice signal.In thepaper,Spectral subtractionwhich is one ofcommon Speech denoisingmethodsis studied.Spectrum subtraction iseasy to be carried out and it can improve the quality of the outputvoice,the noise in the voice can be high effectively removed. In the paper, two types of noise: Gaussian noise and random noise were added in voice signal. Thesimulation resultsshou that spectrum subtractionhas a better effect on Gaussian noise while theintensityof added noise is less than 2 and it has a better effect on random noise while theintensityof added noise is higher than 2.
语音去噪算法的研究
专业:通信工程姓名
摘 要语音去噪处理是对我们语音通话过程中受到的各种外界声音特别是噪声进行处理,从而得到纯净的语音信号。本文利用一种常用的语音去噪算法——谱减法来进行语音去噪的研究。谱减法使用简单且可执行,其输出语音质量很高,能有效的除去语音中的噪声。本文通过添加不同的噪声:高斯白噪声和随性噪声,通过谱减法对高斯白噪声与随性噪声分别进行了去噪处理,并对去噪能力进行比较,通过仿真结果可以看出当加入噪声强度低于2时,谱减法对白噪声的去噪效果较好,当加入噪声强度高于2时,谱减法对随性噪声的去噪效果较好。
2
2.1
语音是由清音和浊音组成。其中浊音在时域上是具有周期性的;在频域上有共振峰结构,在低频段内聚集着大部分能量。而清音段无时域和频域特性,与白噪声相似。在我们进行语音增强时,可以对浊音的周期特征进行有效地使用,我们一般采用梳状滤波器,通过该滤波器对语音分量进行提取,也可以有效地抑制非语音信号 。
语音信号一般利用统计分析来表示。因为语音是一种随机过程,他是非平稳,非遍历的。所以对语音信号进行长时间的时域统计特性是徒劳的,长时间的时域统计在语音增强中意义不大 。因为语音的谱幅度在短时是时变的,所以我们要将帧长趋于无穷大,这样才能近似认为该短时语音信号具有高斯分布的特性。我们在这对短时语音信号做了一种近似的描述。我们一般在研究宽带噪声的语音增强方法时,认为这种假设是前提 。
声功率 (dB)或SWL的定义为:
(2-3)
其中 = 为基准功率。
声压级与声强级的关系如下式表示:
(2-4)
其中C为声速(m/s)。
2.2.
噪声是一个随时间变化的过程。一般的时域周期信号可用振幅、频率、相位来表征。但是噪声的时域特性不是很明显,噪声的时域波形称为噪声信号,将其进行频域变换,得到噪声信号的频域特性——频谱。
脉冲噪声:一般是在时域波形中突发的窄脉冲,一般是由于放电产生的。脉冲噪声的消除方法一般在时域内进行,通过混合信号幅度的平均值来确定阈值。当混合信号幅度大于这一阈值时,该信号被认为是冲激噪声,然后在对该信号进行衰减,从而去除该脉冲噪声。
宽带噪声:一般可以设定为高斯噪声和白噪声,他有很多来源,包括一般随机噪声源,量化噪声可以认为是宽带噪声,因为混合信号中宽带噪声与语音信号在时域和频域上重叠,所以滤波方法是无效的,因而消除它最困难。宽带噪声只会单独存在于语音间歇时期,平稳的宽带噪声认为是高斯白噪声 。
单频噪声:它主要源于无线电干扰。它的特点是一种连续干扰,并且其频率是可以通过实测来确定的,因此在采取适当的措施后就有可能防止。
2.2.2.
声音是由声压、声强、声功率度量的。
声压级 (dB)或SPL的定义为:
(2-1)
其中 =20 , 为基准声压(空气中)。
声强级 (dB)或SIL定义为
(2-2)
其中 为基准声强。
第二章介绍了去噪过程中必备的两个要素语音信号特性和噪声信号特性,噪声的质量和分类,以及噪声的表示和模型。
第三章介绍了谱减法的基本概念,实现的流程图,以及通过谱减法进行语音去噪的步骤:输入语音信号,添加不同的噪声信号,分帧加窗,傅里叶变换以及逆傅里叶变换与去除窗增益。通过仿真图形对谱减法的去噪效果以及谱减法对哪种噪声的去噪效果更好进行了论述。
谱减法的建立的假设: 噪声与语音信号是没有联系的,在频域上是加性的关系 。 外界背景噪声看做是近似稳态的。 如果背景噪声发生变化,形成其他的稳态,则必须有足够的时间(约300ms)来便估计新的背景噪声谱幅度值 。 对于非平稳缓慢变化的环境噪声,谱减法算法会激活话音检测环节,用以适时的判断并进行调整。 假设主要噪声影响的消除的方法是通过在带噪语音谱幅度中减去噪声而实现 。
噪声的频率特性一般由功率谱密度描述。设频率在 间的噪声功率为 ,则功率谱密度 定义为单位频率间隔内所含的噪声功率,即有:
(2-5)
(2-6)
噪声还具有统计特性。看起来噪声的时域波形像是无规则的的,但是任何噪声都都是有一定规律的,它们具有一定的统计规律。对于一个系统的噪声来说,测量值是不确定的,即有一定的随机性ቤተ መጻሕፍቲ ባይዱ但是当我们对该系统噪声进行N次测量之后,我们可以看出该系统噪声分布是有一定的规律。测量噪声的概率是确定的,因此可用概率来描述噪声的统计规律。
当我们在日常生活中进行语音通信时,会遇到噪声干扰的问题。如:我们在马路旁使用公用电话进行通信,路人的嘈杂声、汽车的鸣笛声等噪声都会干扰我们语音通讯的话音质量。对于接收语音方来说,受干扰的语音可能会使接收方产生听觉疲劳,还有可能无法听清对方声音。
在我们进行语音通信的过程中,语音质量的好坏是很重要的。如果音质很差,接收方无法听清对方的话音,可能会工作造成无法估量的损失。
频谱相减法:单声道语音增强,是目前常用的一类基于短时谱幅度估计的语音增强方法,该方法对语音信号的感知没有必要精确计算。所以,基于STSA估计的方法通常接采用带噪语音的相位作为增强语音信号的相位。基于语音增强STSA估计方法,包括谱减法和各种变形,最低均方误差估计法等。
自适应噪声对消法:自适应噪声对消是由自适应滤波器来完成的,它的基本原理是根据Widrow方法,利用自适应滤波器,从带噪语音中减去噪声的最佳估计值,得到纯净的语音。这种方法中,一个关键的问题是如何得到噪声的最佳值,自适应滤波器的目的是使设计出的噪声与实际噪声接近,因而根据LMS准则来调整滤波器系数。