语音降噪技术简介

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

适用范围广：平稳或非平稳, 时变或非时变系统。
谱减法的基本原理
将含噪语音信号和有声/无声判别得到的纯噪声信号进行FFT变化，从含噪语音幅度谱的平方中减去纯噪声的幅度谱的平方，然后开方，得原始语音谱幅度的估值，再借用含噪语音的相位，进行IFFT变化，得到增强的语音。
谱减法流程图
x ( n)
平稳噪声：是指分布参数或者分布律随时间不发生变化的噪声。
语音噪声特性
一般，语音增强处理的噪声指环境中的噪声，而这些噪声主要是高斯白噪声，这种噪声一般符合如下的假设： (1)噪声是加性的。 (2)噪声是局部平稳的。局部平稳是指一段加噪语音中的噪声，具有和语音段开始前那段噪声相同的统计特性，且在整个语音段中保持不变。也就是说，可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。 (3)噪声与语音统计独立或不相关。
到底什么是傅立叶变换？
有时信号在时域特征不明显，我们通常的将它变换到频域，这时会用到傅里叶变换，那么傅里叶变换到底是什么呢？傅里叶变换是将时域信号分解为不同频率的正弦信号或余弦函数叠加之和。连续情况下要求原始信号在一个周期内满足绝对可积条件。离散情况下，傅里叶变换一定存在。
到底什么是傅立叶变换？
由于对噪声的统计参数的未知，所以在实际应用中，通常使用非语音段噪声谱的均值来作为对噪声谱N(k)的估计，
谱减法
则对纯净语音幅度谱的估量表示为
谱减法实现步骤
根据已知的平台噪声进行FFT，计算噪声功率谱谱平均值N(k)；对含噪语音进行FFT计算得到其功率谱X(k)，保留含噪语音相位；用含噪语音功率谱X(k)减去噪声功率谱N(k)，得到原始语音的功率谱估计值S(k)；利用S(k)以及含噪语音相位进行IFFT，这样就得到原始语音的估计值。
到底什么是傅立叶变换？
在频域中，频率越大说明原始信号变化速度越快；频率越小说明原始信号越平缓。当频率为0时，表示直流信号，没有变化。因此，频率的大小反应了信号的变化快慢。高频分量解释信号的突变部分，而低频分量决定信号的整体形象。
语音增强常用方法
根据语音和噪声的特点，出现了很多种语音增强算法。语音增强方法有噪声对消法、谱相减法、维纳滤波法、卡尔曼滤波法，FIR自适应滤波等。其中谱相减法、wiener滤波，卡尔曼滤波是常用增强方法，下面简单介绍下其原理。
两者往往不能兼得，所以实际应用中总是视具体情况而有所侧重的！
语音噪声类型
带噪语音的噪声类型按与信号关系可以分为加性噪声和非加性噪声。加性噪声有宽带的，窄带的，平稳的，非平稳的，白噪声，有色噪声，等；非加性噪声如乘性噪声，卷积噪声等。
语音噪声类型
加性噪声：一般指热噪声、散弹噪声等，它们与信号的关系是相加，不管有没有信号，噪声都存在，信号与噪声是相互独立的！加性噪声来源一殷可以分为三方面： (1)人为噪声； (2)自然噪声； (3)内部噪声。
))
原始语音的频谱的估值
IDFT
s(n)
谱减法假设
噪声叠加；噪声与语音不相关；对纯净语音无先验知识；对统计噪声有先验知识。带噪语音模型：
y(n)=s(n)+v(n)
式中，y(n)是带噪语音，s(n)是纯净语音，v(n) 是噪声。
谱减法
对语音模型公式两边进行傅立叶变换，得 Y(k)=X(k)+N(k)
一个恰当的比喻是将傅里叶变换比作一个玻璃棱镜。棱镜是可以将光分解为不同颜色的物理仪器，每个成分的颜色由波长（或频率）来决定。傅里叶变换可以看作是数学上的棱镜，将函数基于频率分解为不同的成分。当我们考虑光时,讨论它的光谱或频率谱。同样, 傅立叶变换使我们能通过频率成分来分析一个函数。
l
DFT
X (e )
j
X (e )
j
2
＋
2
－
D(e )
2
j
2
D(e )
j
DFT
d ( n)
含噪语音插入相位
j arg( X ( e j ))
纯噪声
X (e j ) D(e j )
e
X (e ) D(e ) S (e j )
ห้องสมุดไป่ตู้j
2
j
2
原始语音谱幅度的估值
j
S (e j ) e j arg( X ( e
语音增强原理及应用的讨论
内容
语音增强相关概念语音增强基本原理及应用
语音增强的定义
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。
语音增强的目标
改进语音质量，消除背景噪音；提高语音可懂度！
维纳滤波
维纳滤波
卡尔曼滤波
卡尔曼滤波的基本思想：采用信号与噪声的状态空间模型，利用前一时刻的估计值和当前时刻的观察值来更新对状态变量的估计, 以求现时刻的估计值。其特点：
(1) 无需采用全部过去的观察值进行估计, 适合于实时处理。 (2) 用状态方程和量测方程表示信号和噪声, 采用递推法进行计算, 适合于计算机求解。
谱减法缺点
由于噪声的随机分布的范围广，因此相减时，若该帧某频率点上的噪声幅度谱分量大时，就会有很大一部分残留，在频谱上呈现随机起伏的尖峰。在听觉上形成类似音乐的残留噪声，又称为背景音乐噪声。背景音乐噪声损伤了语音的质量，降低了可懂度和清晰度，是该类方法最大的缺点。
标准纯噪声帧
含噪语音帧
语音噪声类型
乘性噪声：一般由信道不理想引起，它们与信号的关系是相乘，信号在它在，信号不在他也就不在。
一般通信中把加性随机性看成是系统的背景噪声；而乘性随机性看成系统的时变性（如衰落或者多普勒）或者非线性所造成的。
其他常见噪声名词
白噪声：表示在全频域内单位频域下都分布有相同的能量密度，在线性空间内它具有平坦的频谱。换句话说，一定频域内的白噪声在其中任意给定的带宽内都具有相等的功率。随机噪声：噪声波形是随机的，不可预测的。
幅度谱的平方纯语音的幅度谱的平方幅度谱相减
残留的音乐噪声幅度谱的平方