语音信号处理第5章语音增强

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音增强不仅涉及信号检测，波形估计等传统信号处理理论，而且与语音特性，人耳感知特性密切相关。而且，实际应用中噪声的来源及种类各不相同，从而造成处理方法的根据实际情况选用合适的语音增强方法。

难点： – 某些噪声很像语音； – 有些语音也算噪声； – 降噪效率方法： – 对语音和噪声分别建模 – 噪音快速建模算法水平： – 达到军工要求
3）主观测试的原则第一，要保证足够的说话者，要求其声音特征非常丰富，能够代表实际用户中的绝大部分；第二，要求有足够多的数据。理论上，人数和数据越多越好，可以用方差作为判断样本数的尺度；第三，对于大部分编码器来说，清晰度和品质测试应该都做。
5.2.2 语音特性
语音信号是一种非平稳的随机信号，但在10ms～30ms的时间段内语音的某些物理特性和频谱特性可以近似看作是不变的，可以在语音增强中利用短时频谱时的平稳特性。语音的短时谱的统计特性服从高斯分布。浊音（包括元音）具有明显的准周期性和较强的振幅，它们的周期所对应的频率就是基音频率；清辅音的波形类似于白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声，而清辅音和宽带噪声就很难区分。
Impulsive noise
white noise
pink noise
brown noise
5.2.4 语音质量评价标准 *主观评价
主观评价是以人为主体来评价语音的质量。语音主观评价方法种类很多，主要指标包括清晰度或可懂度和音质两类。清晰度一般是针对音节以下（如音素，声母、韵母）语音测试单元，可懂度则是针对音节以上（如词，句）语音测试单元的；音质则是指语音听起来的自然度。
5.2.3 噪声特性
噪声可以是加性的，也可以是非加性的（可通过某种变换（如同态滤波）转为加性噪声）。
（1）冲激噪声：放电，打火，爆炸都会引起冲激噪声，它的时域波形是类似于冲激函数的窄脉冲。（2）周期噪声：最常见的有电动机，风扇之类周期运转的机械所发出的周期噪声，50Hz交流电源也是周期噪声。（3）宽带噪声：说话时同时伴随着呼吸引起的噪声、随机噪声源产生的噪声、以及量化噪声等都可以视为宽带噪声，近似为高斯噪声或白噪声。（4）语音干扰：干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为语音干扰。（5）传输噪声：传输系统的电路噪声，与背景噪声不同，它在时间域里是语音和噪声的卷积。
5.2
5.2.1 人耳感知特性
基础知识
1）人耳感知语音主要是通过语音信号的频谱分量的幅度，而对相位不敏感，且语音响度与频谱幅度对数成正比； 2）人耳对100Hz以下的低频声音不敏感，对高频声尤其是 2000~5000Hz的声音敏感，对3000Hz的声音最敏感；
3）人耳对于频率的分辨能力受声强的影响，过强或者太弱的声音都会导致对频率的分辨力降低； 4）人耳具有掩蔽效应，声强较低的频率成分会受到声强较高的频率成分的影响，不易被人耳感知到。 5）人类听觉具有选择性注意特性，指在嘈杂的环境下，能将注意力集中在感兴趣的声音上而忽略掉背景声的能力。
1）可懂度评价（DRT）
DRT是衡量通信系统可懂度的ANSI标准之一，它主要用于低速率语音编码的质量测试。这种测试方法使用若干对（通常96对）同韵母单字或单音节词进行测试，例如中文的“为”和“费”，英文的“veal”和“feel”等。测试中，评听人每次听一对韵字中的某个音，然后判断所听到的音是哪个字，全体评听人判断正确的百分比就是 DRT得分。通常认为DRT为95%以上时清晰度为优，85%-94%为良， 75%-84%为中，65%-75%为差，而65%以下为不可接受。 DRT也有局限性，因为其只测试第一辅音，并且每次的选择只有两个。在这种情况下，Dynastant公司提出了更为复杂的改进型韵字测试MRT（Modified Rhyme Test）。
2 1
差（poor）劣（bad）
明显察觉且可厌但可忍受非常可厌，不可忍受
2）音质评价——判断满意度测量（DAM）
DAM方法是由Dynastant公司推出的一种评价语音通信系统和通信连接的主观语音质量和满意度的评测方法，其将直接途径与间接途径结合在一起进行主观质量评价。评听人既有机会表达个人主观喜好，又能依标准对每项指标进行评测。另外，DAM方法要求评听人分别对语音样本本身、背景和其它因素进行评价。一个评听人可将评价过程划分为21个等级，其中10个等级是信号的感觉质量，8个等级是背景情况，另外3级是可懂度、清晰度和总体满意度。
无论哪种主观测试都是建立在人的感觉基础上的，为了消除个体的差异性，测试环境应尽可能相同，测试语音的样本也要尽量丰富。在选择测试者时，不仅应该包括女声，男声，同时还应根据年龄（包括老人，青年和儿童）选择不同语音。主观评价的优点是直接易于理解，能真实反映人对语音质量的实际感觉，缺点是需要大量的测试者，实施起来比较麻烦，耗时耗力，灵活性差。
2）音质评价——平均意见得分（MOS）
MOS得分法是从绝对等级评价法发展而来的，用于对语音整体满意度或语音通信系统质量进行评价。MOS得分法一般采用5级评分标准，包括优、良、中、差和劣。
得分 5 4 3 质量级别优（excellent）良（good）中（fair）失真级别不察觉刚有察觉，但不可厌有察觉且稍觉可厌
第5章语音增强
概述基础知识谱减法维纳滤波自适应滤波器法听觉掩蔽法
5.1
概述
现实生活中的语音不可避免的要受到周围环境的影响，很强的背景噪声例如机械噪声、其它说话者的话音等均会严重的影响语音信号的质量；此外传输系统本身也会产生各种噪声，因此接收端的信号为带噪语音信号。语音增强的目的包括：1）改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；2）提高语音可懂度，这是一种客观度量。但是两者往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。

语音信号处理第5章 语音增强

语音信号处理第5章语音增强