MOS 语音质量评测指标的介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
- 目录 -
1前言 (3)
2语音质量测量和量化标准的发展史 (3)
3MOS语音质量量化的定义 (4)
4PESQ评估方法的介绍 (4)
4.1PESQ的基本原理 (4)
4.2PESQ的应用 (5)
5MOS的测试方法 (5)
5.1NEMO Outdoor (5)
5.1.1测试系统的要求 (6)
5.1.2测试系统的解决方案 (6)
5.2NetQual (7)
5.2.1测试系统的组成 (8)
5.2.2语音质量的测试 (9)
5.3TEMS INVESTIGATION (10)
6MOS测量的优化建议............................................................................... 错误!未定义书签。
1前言
直到现在,GSM网络的最主要基本业务仍然是语音业务,语音质量的好坏直接影响用户对于运营商的选择;另外,随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。因此,根据电信网络服务质量(QoS) 的要求,建立一套客观评估标准,如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。
语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。在GSM网络中,对无线质量的评价是通过RxQual 来实现的。但是语音在GSM网络中是经过信道及信源编码的,而RxQual 只能描述空中接口的传输质量,并不能给出终端用户对无线网络的实际感受,语音服务质量的测量将更好地反映用户对网络的真实感受情况。本文将就语音QoS的测量方法进行较深入地讨论。
2 语音质量测量和量化标准的发展史
目前语音QOS测试方法主要有主观测试方法和客观测试方法两种,ITU-TP.800定义了MOS的主观测试方法,客观测试方法主要有:PSQM、PSQM+、PESQ等。其中ITU-TP.862(PESQ)是目前ITU推荐用于端对端网络语音质量测试的方法。
早期语音质量的评测主要采用主观评分的方式:调查用户被要求按照1-5分对接收到的电话语音质量进行评分(5表示最好,1表示最差)。这种主观判断评测法由ITU组织在1996年8月制定为标准,其P.800标准详细定义了这种MOS评测法(Mean Opinion Score)。但是,这个主观方法存在的最大问题就是,在现实中,让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的,因此人们在不断的探索能进行客观测量的方法。
MOS方法是一种模糊的评估方法,因此ITU-T在建议P.861中又提出了PSQM (Perceptual Speech Quality Measurement)方法。根据P.861提出的PSQM方法,语音质量的测试开始摆脱原始的人类主观评估,而开始使用计算机产生的波型文件(Wave File),通过比较其通过通信网络传输前后的变化计算出PSQM中相对应的级别及好坏程度。
ITU组织在2001年2月发布了新的语音传输质量测量标准:P.862 — PESQ (Perceptual Evaluation of Speech Quality)。PESQ是评价各类端对端网络条件和语音编码与解码的最新标准。PESQ可以根据一些感知标准来客观地评价语音信号的质量,从而提供可以完全量化的语音质量衡量方法,而这些衡量标准又是与人类对语音质量的感受完全吻合的。PESQ由荷兰的KPN公司和英国电信公司协作开发的,比其前身PSQM (Perceptual Speech Quality Measurement, ITU-T P.861)有了长足的进展。
下面的介绍将主要针对PESQ测量方法进行更多详细的阐述。
3 MOS语音质量量化的定义
发明电话开始,语音质量的测量方式是凭主观的,人们摘起一个电话,然后由人耳来感知语音的好坏,这个方法是被广泛认同的。基于该主观评测,人类接听和感知语音质量的行为被调研和量化,接听何种级别质量的语音,得到多少平均主观值MOS,人类将起主要的反映作用。采用MOS(平均主观评分)方法评价语音质量,评测方法在ITU-TP.800中定义。MOS值的定义如下表所示:
级别MOS值MOS值用户满意度
优 4.0~5.0 很好,听得清楚,延迟很小,交流流畅。
良 3.5~4.0 稍差,听得清楚,延迟小,交流欠缺顺畅,有点杂音。
中 3.0~3.5 还可以,听不太清,有一定延迟,可以交流。
差 1.5~3.0 勉强,听不太清,延迟较大,交流重复多次。劣0~1.5
劣0~1.5 极差,听不懂,延迟大,交流不通畅。
一个平均主观值MOS是4或更高,被认为是比较好的语音质量,而若平均主观值MOS低于3.6,则大部分接听者不能满意这个语音质量。
平均主观值MOS是广泛认同的语音质量量化标准;因此,无论采用何种方法所有测量方法都必须将它们的结果最终对应到平均主观值MOS,如实际中采用到的PESQ(语音质量的知觉评估)客观测试方法。
4 PESQ评估方法的介绍
PSEQ工具是用来计算语音样本的MOS-LQO (Mean Opinion Score – Listening Quality Objective)值,PESQ把在信号传输通过设备时提取的输出信号与参照信号进行比较计算出差异值。一般情况下,输出信号和参照信号的差异性越大,计算出的MOS参数值就越低。实验证明其计算结果和主观评分结果是基本一致的。
4.1 PESQ的基本原理
下图是PESQ模型的结构图:
如图所示,开始时两个信号都通过电平调整,再用输入滤波器模拟标准电话听筒进行滤波(FFT)。然后对这两个信号进行时间上的校准,并通过听觉变换,这个变换包括对系统中线性滤波和增益变化的补偿和均衡。为了获得主观和客观之间的较高关联性,再输入到认知模型,最后得到质量评分。
电平调整:各个待测系统的增益一般差别比较大,而且对参考信号没有确定的校准电平,所以有必要将二者调整到统一、恒定的电平上来。
输入滤波:感知模型必须考虑人听到的实际声音,在PESQ中使用了滤波器,起到一个模拟电话手柄的作用。
时间调整和校准:假设系统的时延是分段恒定的,在静默期间和说话期间时延可以改变,对每一段话语都给出延时估计,然后得出听觉变换要用的一帧一帧的延时。
PESQ中的听觉变换是一个生理声学模型,它对信号进行时间-频率映射,以及频率和强度偏差处理,变化成时-频可感知的响度表达。
扰动处理:计算参考信号与失真信号间的绝对差值。
计算PESQ的得分:处理的结果经认知模型,最终给出了客观语音质量的评估得分。PESQ的值一般落在1.0和4.5之间,在失真情况严重时,得分可能会低于1.0,但这种情况很少见。
4.2 PESQ的应用
PSQM只用在窄带编解码测量中,并且对某些类型的编解码、背景噪声和端到端的影响,比如滤波和时延变化不能给出精确的预测值。而PESQ关注到端对端的行为影响,并包括滤波和变化时延造成的影响。PESQ能提供比PSQM与主观意见更好的相关性,它能在很广范的条件下对主观质量给出了很精确的预测,包括背景噪声、模拟滤波、和时延变化等。
ITU-T相关的资料已证明PESQ是能够给出精确的预测值的。PESQ适用于目前所知的所有移动通信技术,如GSM、CDMA、3G等,以及编码器语音质量的测量,如AMR。
5 MOS的测试方法
现阶段,许多主流测试仪器厂商先后推出了支持PESQ测量算法的测试系统,下面将主要介绍几个厂家的MOS测量相关解决方案。
5.1 NEMO Outdoor
NEMO Outdoor测试系统通过增加简单的语音模块,可以支持最新的PESQ语音质量测量。NEMO的语音模块实现发送和接收测试样本,并完成测试终端间相互同步的需求。