语音信号处理第5章 语音增强
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.2
5.2.1 人耳感知特性
基础知识
1)人耳感知语音主要是通过语音信号的频谱分量的幅度, 而对相位不敏感,且语音响度与频谱幅度对数成正比; 2)人耳对100Hz以下的低频声音不敏感,对高频声尤其是 2000~5000Hz的声音敏感,对3000Hz的声音最敏感;
3)人耳对于频率的分辨能力受声强的影响,过强或者太 弱的声音都会导致对频率的分辨力降低; 4)人耳具有掩蔽效应,声强较低的频率成分会受到声强 较高的频率成分的影响,不易被人耳感知到。 5)人类听觉具有选择性注意特性,指在嘈杂的环境下, 能将注意力集中在感兴趣的声音上而忽略掉背景声的能力。
Impulsive noise
white noise
pink noise
brown noise
5.2.4 语音质量评价标准 *主观评价
主观评价是以人为主体来评价语音的质量。语音主观评价 方法种类很多,主要指标包括清晰度或可懂度和音质两类。 清晰度一般是针对音节以下(如音素,声母、韵母)语音 测试单元,可懂度则是针对音节以上(如词,句)语音测 试单元的;音质则是指语音听起来的自然度。
语音增强不仅涉及信号检测,波形估计等传统信号处理理 论,而且与语音特性,人耳感知特性密切相关。而且,实 际应用中噪声的来源及种类各不相同,从而造成处理方法 的多样性。因此,要结合语音特性、人耳感知特性及噪声 特性,根据实际情况选用合适的语音增强方法。
难点: – 某些噪声很像语音; – 有些语音也算噪声; – 降噪效率 方法: – 对语音和噪声分别建模 – 噪音快速建模算法 水平: – 达到军工要求
无论哪种主观测试都是建立在人的感觉基础上的,为了消 除个体的差异性,测试环境应尽可能相同,测试语音的样 本也要尽量丰富。在选择测试者时,不仅应该包括女声, 男声,同时还应根据年龄(包括老人,青年和儿童)选择 不同语音。 主观评价的优点是直接易于理解,能真实反映人对语音质 量的实际感觉,缺点是需要大量的测试者,实施起来比较 麻烦,耗时耗力,灵活性差。
3)主观测试的原则 第一,要保证足够的说话者,要求其声音特征非 常丰富,能够代表实际用户中的绝大部分; 第二,要求有足够多的数据。理论上,人数和数 据越多越好,可以用方差作为判断样本数的尺度; 第三,对于大部分编码器来说,清晰度和品质测 试应该都做。
5.2.3 噪声特性
噪声可以是加性的,也可以是非加性的(可通过某种变换 (如同态滤波)转为加性噪声)。
(1)冲激噪声:放电,打火,爆炸都会引起冲激噪声,它 的时域波形是类似于冲激函数的窄脉冲。 (2)周期噪声:最常见的有电动机,风扇之类周期运转的 机械所发出的周期噪声,50Hz交流电源也是周期噪声。 (3)宽带噪声:说话时同时伴随着呼吸引起的噪声、随机 噪声源产生的噪声、以及量化噪声等都可以视为宽带噪声, 近似为高斯噪声或白噪声。 (4)语音干扰:干扰语音信号和待传语音信号同时在一个 信道中传输所造成的语音干扰称为语音干扰。 (5)传输噪声:传输系统的电路噪声,与背景噪声不同, 它在时间域里是语音和噪声的卷积。
5.2.2 语音特性
语音信号是一种非平稳的随机信号,但在10ms~30ms的时 间段内语音的某些物理特性和频谱特性可以近似看作是不 变的,可以在语音增强中利用短时频谱时的平稳特性。语 音的短时谱的统计特性服从高斯分布。 浊音(包括元音)具有明显的准周期性和较强的振幅,它 们的周期所对应的频率就是基音频率;清辅音的波形类似 于白噪声并具有较弱的振幅。在语音增强中可以利用浊音 具有的明显的准周期性来区别和抑制非语音噪声,而清辅 音和宽带噪声就很难区分。
2 1
差(poor) 劣(bad)
明显察觉且可厌但可忍受 非常可厌,不可忍受
2)音质评价——判断满意度测量(DAM)
DAM方法是由Dynastant公司推出的一种评价语音通信系 统和通信连接的主观语音质量和满意度的评测方法,其将 直接途径与间接途径结合在一起进行主观质量评价。评听 人既有机会表达个人主观喜好,又能依标准对每项指标进 行评测。另外,DAM方法要求评听人分别对语音样本本身、 背景和其它因素进行评价。一个评听人可将评价过程划分 为21个等级,其中10个等级是信号的感觉质量,8个等级是 背景情况,另外3级是可懂度、清晰度和总体满意度。
第5章 语音增强
概述 基础知识 谱减法 维纳滤波 自适应滤波器法 听觉掩蔽法
5.1
概述
现实生活中的语音不可避免的要受到周围环境的影响,很 强的背景噪声例如机械噪声、其它说话者的话音等均会严 重的影响语音信号的质量;此外传输系统本身也会产生各 种噪声,因此接收端的信号为带噪语音信号。 语音增强的目的包括:1)改进语音质量,消除背景噪音, 使听者乐于接受,不感觉疲劳,这是一种主观度量;2)提 高语音可懂度,这是一种客观度量。但是两者往往不能兼 得,所以实际应用中总是视具体情况而有所侧重的。
1)可懂度评价(DRT)
DRT是衡量通信系统可懂度的ANSI标准之一,它主要用于 低速率语音编码的质量测试。这种测试方法使用若干对 (通常96对)同韵母单字或单音节词进行测试,例如中文 的“为”和“费”,英文的“veal”和“feel”等。 测试中,评听人每次听一对韵字中的某个音,然后判断所 听到的音是哪个字,全体评听人判断正确的百分比就是 DRT得分。 通常认为DRT为95%以上时清晰度为优,85%-94%为良, 75%-84%为中,65%-75%为差,而65%以下为不可接受。 DRT也有局限性,因为其只测试第一辅音,并且每次的选 择只有两个。在这种情况下,Dynastant公司提出了更为复 杂的改进型韵字测试MRT(Modified Rhyme Test)。
Leabharlann Baidu
2)音质评价——平均意见得分(MOS)
MOS得分法是从绝对等级评价法发展而来的,用于对语音 整体满意度或语音通信系统质量进行评价。MOS得分法一 般采用5级评分标准,包括优、良、中、差和劣。
得分 5 4 3 质量级别 优(excellent) 良(good) 中(fair) 失真级别 不察觉 刚有察觉,但不可厌 有察觉且稍觉可厌