语音质量评估

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通常,人既是语音的发送主体,也是语音的接收主体。语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义。

一般说来,语音质量至少包括三个方面内容:清晰度、可懂度和自然度。清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度;可懂度是指语音中有意义的语言单元(如单词、单句等)内容的可识别程度;自然度则与语音的保真性密切相关。目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则。

语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响.用于评价输出语音质量的方法分为主观评价和客观评价两种

1 主观评价法

主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果,它反映听评者对语音质量好坏的主观印象。不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(Mean Opinion Score,MOS)方法、判断韵字测试(Diagnostic Rhyme Test,DRT)方法、失真平均意见分(Degradation Mean Opinion Score,DMOS)、判断满意度测试(Dignostic Acceptability Measure,DAM)方法和汉语清晰度测试。ITU-T推荐用于传输性能的主观评价有以下几种[14]:

1.绝对等级评价(Absolute Category Rating,ACR)

ACR主要通过平均意见分(MOS)对音质进行主观评价。这种情况下没有参考语音,听音人只听失真语音,然后对该语音作出1-5分的评价。

ACR评价方法不需要参考音,比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性。

2.失真等级评价(Degradation Category Rating,DCR)

DCR主要通过失真平均意见分(DMOS)来实现音质的主观评价。这种评价方法要求听音人在给失真语音打分前,先熟悉原始语音(参考语音),再将失真语音与原始语音的差异按一定标准来描述。

DCR常用于评价诸如汽车噪声、街道噪声或其他说话人干扰等为背景噪声情况下的音质。噪声的类型和数量将直接影响评定的失真等级。

3.相对等级评价(Comparison Category Rating,CCR)

CCR方法主要采用相对平均意见分(CMOS)对音质进行主观评价。CCR类似于DCR,不同的是,在CCR方法中,原始语音和失真语音的播放次序是随机的,听音人不知道哪是原始音、哪是失真音。听音人只是在上一个音的基础上,评定出

当前音相对于上一音的好坏。

CCR方法允许对处理后语音(失真语音)的评价高于原始音的评价,因此,它可以用来评价具有噪声抑制和语音增强功能的编码器,也可以用来比较两种未知编码器的性能优劣。

MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的

MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。

在数字语音通信中,通常认为MOS分为4.04.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。MOS分3.0以下常称为合成语音质量,指一些声码器合成的语音所能达到的质量。它虽然有较高的可懂度,但自然度较差MOS得分法的优点是:

由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;评测者只需实现进行简单训练,就可直接参与评测,因而容易完成.

其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。另外,测试条件的选择及其他一些因素会影响MOS方法的结果

判断韵字测试(DRT)

判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质量测试,因为这时可懂度已成为主要问题。这种测试方法使用若干对(通常是96对)同韵母进行测试,例如中文的“为”和“费”,英文的’fast’

和’vast’等。让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是DRT得分,通常认为DRT为95%

以上时清晰度为优,85%-94%为良,75%-84%为中,65%-75%为差而65%以下为不可接受。在实际通话中,清晰度为50%时,整句的可懂度大约为80%,这是因为整句中具有较高的冗余度,即使个别字听不清楚,人们也能理解整句话的意思。当清

晰度为90%时,整句话的可懂度已接近100%,所以对于低速率语音编码,一般要求其清晰度能达到90%或以上

诊断满意度测量(Diagnostic Acceptability Measure)

DAM是对语音质量的综全评估,它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面,也相当复杂

主观评价的优点在于直接、易于理解,真实反映语音质量的实际情况。然而,主观评价不但对听评条件、听评流程有严格要求,为了避免个别听评者的感知偏差,还需要对大量的听评者的评价结果做统计,因此主观评价费时费力,成本高,灵活性差,重复性不好,难以应用于实时性场合。

2 客观评价法

音质的客观评价是指用机器自动判别语音质量,按是否需要使用输入语音的角度可分为两类:基于输入—输出方式的客观评价和基于输出方式的客观评价。基于输入—输出的客观评价比较输出和输入语音之间的差异(失真)程度,将差异量值作为语音质量的衡量依据;基于输出的客观评价则仅由输出语音就可对语音的质量做出评估。在应用中,输入语音也常称为原始语音或者参考语音,通过系统的输出语音常称为失真语音。以往的音质客观评价研究大多集中于输入—输出方式,随着技术发展、对通信服务质量的关注等,基于输出的音质评价技术正得到越来越多的关注。客观评价不受人为主观因素的影响,成本低廉,灵活性好,效率高,具有可重复性,且可实时使用,例如对VoIP网络中语音传输质量的实时监控和用于指导系统中设备参数调整等。

尽管科学家对人类的感官感知和神经信息处理机制做了大量的研究并取得一定的成果,但人们对人类感知的机理和大脑活动的运作方法仍处在一知半解的初级阶段,因此我们还无法建立一个能完全模仿人类音质感知过程的客观评价系统,只能根据所获得的信息作出尽可能正确的评价,所建立的客观评价系统也与人类所具有的感知评价能力相差甚远。因此,客观评价并不能完全取代主观评价。

在实际应用中,通常将主观评价和客观评价结合使用。客观评价常用于系统的设计、调整以及现场实时监控阶段,主观评价作为实际效果的最终检验,两者

相关文档
最新文档