声音信号质量评测方法及评测软件的实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
声音信号质量评测方法及评测软件的实现
摘要:介绍了声音质量的主观评价方法和客观评价方法,同时基于信噪比的评估参数实现了声音质量的评测软件。
关键词:主观评价方法客观评价方法信噪比
1 引言
声音的质量介于如下两者之间:(1)支持可识别语音通信的最低音质;(2)支持声音保真和美学享受的最高音质。
声音质量评价根据评价主体的不同可分为主观评价和客观评价两种。人作为评价主体,凭着主观感受直接给听到的声音文件进行质量打分,这是主观评价,它真实地反映了声音质量,但是面对工作量巨大的需要评测的大量的声音文件,这种方法费时费力,而且若受到测试人员主观情绪的影响,测量结果的可靠性会受到影响。因此,有必要设计一个质量评估工具来辅助评测声音质量。
研究声音质量客观评价的目的不是用客观评价来完全代替主观评价,因为他不能反映人对声音质量的全部感受,在客观评价辅助测评的同时,主观评价仍起着举足轻重的作用,下面介绍的主观测试和客观测试主要是语音信号的主观测试和客观测试。
2 主观测试和客观测试的介绍
2.1 主观测试
在20世纪90年代,通过主观测试制定了声音信号的质量评估方法,即要求一组测试人员对给定的测试信号的质量打分,这些主观
测试方法详见于itu-t p.800.1标准当中。其中绝对种类定级(absolute category rating,acr)测量是标准中最广泛地被大家知道的的主观类测量方法,它要求所有的测试人员收听相同的语音信号,然后按照从1~5的5级损伤指标对收听到的声音质量打分(见表1)。
acr测量对测量的人数、环境、条件都有所要求,测量的人数至少在16人以上,要求一个安静的环境,可控的条件,这样在所有的测试人员给出得分之后,取它们的一般或平均意见得分 (mean opinion score, mos),最后该mos值就是声音的质量情况,显然mos值越大,声音的质量越好。
itu-t p.800标准中也讨论了其他的主观评价方法,如劣化种类评定值(dcr)和对照种类评定值(ccr),dcr方法是让评定主体先后听到参考语音和失真语音,然后根据感觉对听觉失真评定,评定标准从1分(非常刺耳)到5分(感觉不到失真)。ccr方法是比较听到的参考语音和失真语音,评定失真语音的质量比参考语音好或坏多少,评定标准从-3分(非常差)到3分(非常好)。
主观质量评估有如下几个限制条件:主观评测的人数量应足够多,以便形成有意义的统计;主观评测应具有相同的控制特性;环境条件应该是一致的;测试应该反复进行,这些问题使得主观测试成本太高,费时也太长。人们就寻求一些客观评价方法来判别声音质量。
2.2 客观测试
声音质量客观评价可分为两种:基于输入-输出的评价和基于输出的评价。基于输入-输出的评价是通过系统的输入信号和输出信号之间的差别来度量声音的质量, 即通过提取两端信号的特征参
量来建立评价模型;基于输出的评价是仅根据系统输出的退化后的信号来评价质量。
目前的客观评价方法都是以信号的时域、频域及变换域的的特征参量作为评价依据,语音质量客观评价方法有如下几类:
(1)基于snr评价方法
信噪比,即有用信号与噪声之比,是一种广为应用的简单客观评价方法,一般来说,信噪比越大,混在信号里的噪声越小,声音的质量越高,否则相反。
(2)基于lpc(linear predictive coding)技术评价方法
该技术评价方法是以lpc分析技术为基础的,评价依据的参量是lpc系数及其导出参数. 由 lpc 导出的方法有:线性反射系数、线谱对、lar(log area ratio) 、cd等方法以及它们的一些改进方法。
(3)基于谱距离评价方法
该类评价方法是以语音信号平滑谱之间的比较为基础的,主要方法有:sd(spectral distance),lsd(log sd),fvlisd(frequency variant linear sd),fvlosd(frequency variant log sd),
wsd(weighted slope sd),ilsd(inverse log sd)等。
(4)基于听觉模型评价方法
基于听觉模型评价方法是以人感知语音信号的心理听觉特性为
基础,主要方法有bsd(bark spectraldistortion)、mbsd、psqm、plp(perceptual linearprediction)、msd(mel spectral distortion)等。
(5)基于判断模型的评价方法
该类评价方法是在选择表达语音质量的特征参量基础上,更主重于模拟人对语音质量的判断过程。主要方法有l(ad)/mnb-1以及
l(ad)/mnb-2。
(6)其他评价方法
主要有一致函数chf法、信息指数法、专家模式识别epr法等。
3 软件实现
本文在基于输入-输出的客观评价方式的基础上,以vc++ 6.0为开发工具,着重于从频域方面提取音频特征参数来表征音频质量情况,设计了一款能够显示波形,通过信噪比来辅助测评声音质量的软件。
大量的实验表明,人类感知语音的过程和语音本身的频谱特性非常密切。人类本身的听觉对语音的频谱特性更为敏感,两端在时域上相差很大的语音如果具有类似的频谱特性,人类在感知它们时的感觉也是相似的,因此通过显示文件的频谱波形及对比频谱波形上的差异可以有效地辅助评测声音质量。
为了适应人的耳朵这种奇特的特性,即它对声音的响度的感觉是与输出音频功率的对数成正比的,信噪比的大小可用有用信号功率与噪声功率的比值的对数来表示,公式如下:
由于分段信噪比计算一段时间上的语音信号与噪声的平均功率之比,而语音信号是一种缓变的短时平稳信号,因此采用分段信噪比计算整个时间轴上的信噪比更能表征语音质量。本文的软件设计流程图如图1所示:
信号数据处理部分的流程如图2所示:
3.1 分帧
由于声音信号在短时间段上(通常为10-30ms)才被认为是平稳的。因此,将整个语音信号划分成一帧一帧来分析,帧长一般取为10-30ms。
3.2 加窗
窗函数能把有限长的长序列变成有限长的短序列,然而也会带来原来信号频谱的泄漏,为了减小或抑制泄露,需要选择合适的窗函数。相对其他窗函数,汉明窗能够较好地抑制泄漏,因此本文选用汉明窗对信号进行加窗处理,汉明窗定义为:
w(n)=0.54-0.46cos(),n=0,1,…n-1
3.3 fft
傅立叶变换是数字信号处理中最重要的变换之一,其意义在于将时域中难以看出什么特征的信号变换到频域中,在频域中信号特征