高清晰度电视图像质量的主观评价方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高清晰度电视图像质量的主观评价方法
李若霜
本文作者李若霜女士,国家广播电影电视总局广播科学研究院高级工程师。
一前言
近年来,随着微电子、大规模集成电路技术的迅速发展和图像压缩技术的不断进步,在电视广播领域正在发生由模拟向数字、由标准清晰度电视(SDTV)向高清晰度电视(HDTV)过渡的一场变革。由于数字传输高新技术的应用,不仅使以往只能传送一套模拟电视节目的常规电视通道可以传送多套SDTV或一套HDTV节目,使有限的频高清晰度电视图像质量的主观评价方法节目质量也有很大改善,同时也为提供多种节目形式创造了有利条件。因此,数字电视广播具有很好的发展前景。
HDTV由于具有清晰度高、画面尺寸大、幅形宽、色彩鲜艳和临场感强等特点,其图像质量可与35mm电影相媲美,因此它是当前数字电视最高级的业务形式。预计HDTV广播将成为下世纪的主要传媒。
为实现在一个常规电视通道带宽内传送信息量相当于4~5倍SDTV信息量的HDTV节目,数字HDTV系统主要环节采用了与常规模拟电视系统完全不同的电路技术,即图像压缩的信源编码技术和纠错保护的信道编码及高数码率的调制技术等。由此可能引入的失真机理和表现,与常规电视也有很大差别。所以,传统模拟电视的评价测量方法及测试图像和信号,已经不能完全或正确反映观众对数字电视特有失真的主观感觉。迄今为止,由于有效的测试信号和测量方法尚在研究和发展中,而系统性能的优劣最终要靠图像的主观质量来判定,因此,主观评价是当前数字电视最有效的检测方法。
二主观评价的一般要求
主观评价是直接利用观察者对被测系统图像的主观反应来确定系统性能的一种测试。主观评价通常包括两种类型:一种是在最佳(即理想收看)条件下确定系统的性能,一般称质量评价;另一种是在非最佳条件下,即结合发送和传输条件确定系统保持质量性能的评价,一般称损伤评价。
主观评价的关键在于所使用的方法能否产生稳定、有效的结果。因此,采用合适的评价方法和测试图像对系统进行有效的评价,非常重要。
由于主观评价结果不仅与被测系统的性能有关,而且与评价观看条件、信号源、测试图像、观看员、评分方法和评分标度、数据统计方法和结果表达方式等因素有关。为使评价结果的可变因素仅限于被测系统的性能,在主观评价中必须对上述因素作严格的规定。
1. 观看条件
由于图像的主观质量与图像大小、亮度、对比度和观看距离等有关,因此,主观评价的观看条件中规定了评价用显示器的显示尺寸、峰值亮度、对比度和环境照明,以及观看距离和观看位置等。
根据HDTV的特点,主观评价应该在表1给出的观看条件下进行。
2. 评价实验系统
主观评价系统原理方框图如图1所示。
评价观看员从评价监视器上看到的是经过定时开关给出的图像。到定时开关的图像信号或直接来自信号源的输出,或是经过被测系统的输出,也可以是来自灰场信号发生器。
3. 信号源
信号源一方面直接提供评价的基准图像信号,另一方面作为被测系统的输入。对于所使用的电视标准,信号源(包括评价用监视器)应该具有最佳的质量,因为基准图像无缺陷是获得稳定结果的关键。
4. 测试图像
测试图像是主观评价的基础,它对评价结果有重大影响,因此,选择合适的
测试图像素材是至关重要的。为了全面评价数字HDTV系统的性能,需要建立一套HDTV主观评价标准测试图像。一套测试图像通常包含一定数目的静止图像和含运动物体的图像序列,每个序列大约持续10~15s。
选择测试素材的一般准则认为,测试素材应该是“严格的,但又不过份”。判断什么是严格的,需要全面了解HDTV系统是如何工作的以及所提供业务的要求;“不过份”即意味着可以包含正常的HDTV节目内容。因此,HDTV主观评价测试图像不仅应该包括对各种评价因素,如静态空间分辨率、动态空间分辨率、亮度、色彩以及运动等再现具有比较敏感特点的那些图像素材,同时还应包含能代表正常节目的内容。
5. 观看员
观看员即应邀参加主观评价的评分员。观看员一般分专业和非专业两类。一般都由非专业观看员进行主观评价,当需要作精确判断时,可由受过专业训练的专业观看员进行评价和分析。
由于观看员直接影响评分结果,因此,对于非专业观看员应该慎重挑选。通常他们应该具有代表性,包括不同性别、年龄、文化层次的观众;具有正常的视力(含校正视力)和色觉;有一定的分析判断能力,能较快地接受和掌握评分方法和要求。
主观评价所需观看员的数目一般不少于15人,在数据处理结果中要说明观看员的类型和人数。
6. 评价测试阶段
在每个测试阶段开始时,应该向观看员详细、正确地介绍评分方法和评分标度、存在的质量因素或损伤类型,并进行评分示范。示范显示应该使用正式测试的图像或序列以外的图像或序列,但应与正式测试中使用的图像或序列具有可比性。
一个测试阶段(包括示范说明在内)一般不超过30min。在正式测试开始前需要引入3~5个“样本显示”来稳定观看员的判断力,其结果数据不纳入测试结果的统计中。从一个显示评分到下一个显示评分均匀地进行。为了检测相关性,有些测试可以重复进行,但要避免相同测试图像相继出现。测试阶段的显示流程如图2所示。
7. 数据处理和结果表达
对于在评价中采集的大量评分数据,需要根据统计学的基本理论和技术进行处理,得出以图形或数据的结果形式概括被测系统的性能,给出每个测试图像评分统计分布的平均值和95%置信区间。
平均分U =∑=N i i u
N 11
标准偏差S =∑=−−N
i i N u U 12
)1()( 置信度区间为[U -δ, U+δ]
其中:δ= 1.96N S
u i ——观看员i 的评分
N ——观看员的数目
结果还必须包含以下信息:
a. 测试条件的情况
b. 测试图像的情况
c. 图像源类型和显示监视器型号
d. 观看员的人数和类型
e. 使用的基准图像
f. 测试的总平均分
三 评分方法和评分标度
实验心理学的传统结果表明,当测试感觉时,相对判断比绝对判断更加稳定、准确。在国际电联(ITU-R)BT.500建议的众多评价方法中,由于双刺激方法采用了基准图像,其结果比单刺激方法具有更高的灵敏度和稳定性,特别适合于对高