第三章数字电视视音频信号压缩编码技术

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编码效率
•
2、霍夫曼编码 ⑴ 霍夫曼编码的具体步骤：
①将每个符号按其概率由大到小顺序排列起来。 ②将最小的两个概率相加，并对其中较大的概率用“1”表示
，较小的概率用“0”表示。反之也可，但赋值方式应保持一致。 ③把求出的和值作为一个新的概率值再按①重新排列。 ④按照这样的步骤重复进行，直到概率加到1。 ⑤分配码字。由概率为1处开始沿各点参加运算的分支线从后向前（从右向左）逐一写出“0”、“1”的代号（从高位到低位写）直到各符号为止。得到的代码就是各信源符号的码字。反之也可，从符号到汇合点p＝1（从左到右），但代码的写出是从低位到高位。
4:4:4标准：R=278.7Mb/s
B≈140MHz
4次群的R为139.264Mb/s，可传话路1920路。1920 路电话传不了一套4:2:2的数字电视节目；用11套模拟电视节目换一套数字电视节目。
信号频带太宽，频带利用率低，频率资源严重浪费。
同时对电路要求高，设计复杂，维修困难，设备造价高。
8×8个像素。 ⑵对每一块像块进行DCT变换。 ⑶对变换后的系数进行量化。 ⑷进行之字形扫描（读出）和零游程编码。
•
3、DCT压缩编码的过程为：
•
三、统计编码（熵编码）
统计编码是基于信号统计特性的编码技术。基本原理：
按信源符号出现概率的不同分配以不同长
度的码字（bit数），概率大的分配以短的码字，概率小的分配以长的码字。这样使最终的平
）小于某个特定的数值之后，人耳就听不见了，即当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为“听阈”。
•
如果5.1声道： fs=48KHz，n=18bit，6个声道， R=48×18×6＝5.184Mb/s。而高清晰度电视图像信号压缩后的码率大约为30Mb/s左右。
•
二、声音压缩编码的可能性
㈠声音信号客观统计规律㈡人耳听觉的生理、心理学因素
根据声学理论，人耳存在着一个听觉的阈值，当某个频率的声音的强度（声强
•
2、处理步骤： ⑴ 将一幅图像分成若干像块，每个像块的大小为
8×8个像素。
•
⑵ 对每一块像块进行DCT变换。
• 此式说明这是一个二维的变换关系式，即在一个平面上 •进行变换。
•
•
•如：变换系数：
图像样值：
•结论： • 像块样值数据f(x,y)为8×8的矩阵，经DCT后的频域系数 F(u,v)也为8×8的矩阵。此矩阵的左上角系数F00相当于像块中 64个样值的平均直流成分，其余的63个F(u,v)均表示64个样值中所含交流成分的系数。
4:2:2标准: R=720×576×25×8+2×360×576×25×8=165.9Mb/s
一张12cm直径的VCD光盘可存储的时间 5200/165.9≈31秒
•
2、数码率太高使数字电视信号频带过宽，频道利用率太低，甚至无法容纳。
分量编码：
4:2:2标准：R=165.9Mb/s 频带宽度B≈83MHz
，则x1,x2,x3…xn所包含的
信息量分别为。
于是，每个符号所含信息量的统计平均值，即平均
信息量为：
•
即信息源X的熵定义为：单位为bit/符号。
•
平均码字长度
设Ni为数字信号第i个码字的编码长度（即二进制代码的位数），其相应出现的概率为Pi，则该数字信号所赋予的码字的平均长度为：
•（比特／码字）
•
③ 一维、二维和三维预测
一维预测：参考样值仅与xN当前样值处于同一扫描行内的预测编码；
二维预测：参考样值除了本行之外还和前一行或前几行的样值有关；
三维预测：参考样值除了本帧之外还和前一帧或前几帧图像的样值有关。由于一、二维预测都是在同一帧内进行预测，所以也称
为帧内预测编码；三维预测与前面的帧有关，所以也称为帧间预测编码。
•
2、运动处理—运动估计和运动补偿
•
k-1帧， x1y1
•
k帧，移动到x1+Δx,y1+Δy
•
•
位移矢量D(Δx,Δy)
•
•
把k帧（x1+Δx,y1+Δy）移到
•
k-1帧（x1，y1 ）点，再与k-1
•
帧求差值
• 估计算出运动物体的位移量，这就是运动估值
• 借助运动估值得到的物体帧间位移矢量进行运动补偿后，再做帧间预测可以使预测误差明显下降。
……
•
2、预测编码的意义
① 去除了电视信号中空间、时间上的冗余。 ② 给出了良好的概率分布，为后面的压缩编码创
造了条件。
•
3、DPCM――差值预测编码的实现
① 原理方框图
•
•式中
•为前值序列， •称为预测系数（也叫相关系数），且满足：
•
② 预测项与预测系数的选择
•取：a1=1/2、a2=1/4、a3=1/8、a4=1/8、a5=0、a6=0
7000Hz,fs=16KHz
数字音频广播信号20～15KHz，fs=32KHz 高保真立体声20～20KHz，fs=44.1KHz或
fs=48KHz
•
3.5 数字电视声音压缩编码技术
例如：激光唱盘CD：fs=44.1KHz，n=16bit，共两个声道：
其R＝44.1×16×2=1.411Mb/s；设信道编码率R=1/2，则实际上传送的数据率为2×1.411Mb/s；如果频带利用率按(2b/s)/Hz计，那么传送一套这样的立体声节目所需射频带宽为： B＝（2×1.411Mb/s）/(2b/s)/Hz＝1.411MHz
•
二、具有运动补偿的帧间内插编码技术
在某些场合，为降低码率发送端会每隔一段时间丢弃一帧或几帧图像，而在接收端再利用图像的帧间相关性将丢弃的帧恢复出来，以防止帧率下降引起闪烁和动作的不连续，这种技术称为帧间内插编码技术。
•
最简单的帧间内插编码是线性内插法。
• 假设在二个已知数据中的 •变化为线性关系，因此可由 •已知二点的座标(A, B)去计 •算通过这二点的斜线。
第三章数字电视视音频信号压缩编码技术
2020年7月25日星期六
3.1视频信号压缩的必要性和可行性
一、压缩的必要性 1、电视信号数字化后的数据量过大，使普通的存储器难以接受。
一盘12cm直径的VCD光盘，可播放74分钟的活动图像及相当于CD（数字激光唱片）音质的声音。存储容量为650MB=650×8=5200Mbit。
•
Biblioteka Baidu
二、压缩的可行性
来自：图像本身存在大量的冗余: 空间相关冗余
时间相关冗余符号相关冗余结构相关冗余知识相关冗余人眼的视觉冗余
•
1、图像本身存在大量的冗余度 ⑴ 空间相关冗余
•
⑵ 时间相关冗余
•
⑶ 符号相关冗余 ⑷ 结构相关冗余 ⑸ 知识相关冗余
2、人眼的视觉冗余
① 人眼对事物细节的分辨力是有限度的； ② 对颜色画面的分辨力低于对黑白画面的分辨力； ③ 对高频信号变化的分辨率低于低频信号的分辨率； ④ 对屏幕中心区失真的敏感度要高于屏幕四周的失真。
•
（二）、霍夫曼编码的平均码长和编码效率：以上一例结果为例：平均码长：
•信息熵：
•则编码效率为：
•
3.4 其他视频压缩编码技术介绍
一、具有运动补偿的帧间编码技术 1、帧间预测编码的概念
据统计，对一般的彩色电视广播节目，在相邻帧之间亮度信号平均只有7.5﹪的像素有变化，而色度信号平均只有6.5﹪的像素有变化。电视图像的帧差信号具有更强的相关性。可见，图像的时间冗余度是相当大的。
•
二、变换编码
• 变换编码也有变换、量化、编码三大过程：
•
1、离散余弦变换——DCT的基本思想
DCT变换是把空间域上的信号变换到频率域上，使能量在空间域上分散分布的原信号变换后能量在频率域上相对集中到某些少数区域内，即将空间域上的信号样值变换成频率域上的系数，经变换后的系数按频率由低到高分布。
•
三、压缩的途径及方法 1、行、场逆程不传送，在接收端重新形成。 2、亚奈奎斯特取样 fs＜2fm。使混叠分量与亮度谱线交错。 3、采用高效编码――信源编码。去除电视信号中的冗余。
•
3.3 常用的数字电视视频压缩编码技术
一、预测编码
1、预测编码的基本原理利用某种数学模式对以前已知的相关数据进
行运算，得出一个与当前传送样值相接近的预测值，进而把当前要传送的值减去预测值，得到一个误差值――预测误差，将这个误差值编码后传送出去。
当前样值－预测值＝预测误差
•
•当前编码样值—预测值（前一个样值）=预测误差
•××××××××××× ×××××××××××× ×××××××××××× ×××××××××××× ×××××××××××× ×××××××××××× ×××××××××××× ×
• 然后用这个运动矢量将K-1帧（过去帧）位移。 • 将K-1帧(5,4)球的数据位移D(10,6)的位置，移到(15,10) 的位置，做K帧的预测估计值--运动补偿。
•
⑶ 块匹配法
对当前帧中的每一个宏块MB，在前一帧中以与其对应的位置（m，n）为中心，上下左右四个方向搜寻找与其最佳匹配的宏块MB'，宏块MB和MB'在水平和垂直方向上的距离即是求得的位移矢量。
均码长很小，总的数码率大大降低。
•
1、信息熵的概念
香农的信息论认为，信源中所含有的平均信息量（熵）就是进行无失真压缩编
码的理论极限。压缩编码只要不低于此极
限，那就总能找到某种编码方法去任意的逼近熵。
•
平均信息量：
如果是非等概情况，设离散信源是一个由n个
符号组成的符号集，其中符号
出现的概
率为，且有
•
xi： x1 x2 x3 x4 x5 x6 x7 x8 pi：0.20 0.19 0.10 0.15 0.005 0.17 0.18 0.005
•
再举例：符号A、B、C、D、E、F、G、H 概率 0.10、0.18、0.40、0.05、0.06、0.10、0.07、0.04
•单义可译性： •例如：接收到下面例子中的一串数据序列 1100101101110111101， •则它只能惟一地分为下述码字： •110，0，1011，0，11101，11101， •110－B，0－A，1011－G，0－A，11101－D，11101－D。
•
运动处理的两个过程：
① 运动估计：在帧间预测之前，对运动物体从上一帧到当前帧位移的方向和像素数做出估计，即求出运动矢量。
② 运动补偿：按照运动矢量，找到上一帧中相应的块，求得对当前帧的估计（预测值）这个过程称为运动补偿。
•
⑵ 运动处理的全过程
•
如前面运动着的球
• K帧为当前帧，把K帧的 •球的数据拿到K-1帧中比 •较，直到找到K-1帧中球 •的位置，记下K帧移动了 •多少，计算出运动矢量 •D(10，6)—运动矢量；
第一个样值：16－0＝16；第二个样值：16－16＝0；第三个样值：第3－第2＝0…… 第360样值：第360－第359＝0 第361样值：第361－第360
＝235－16＝219 第362样值：第362－第361＝0
…… 第720样值：第720－第719＝0 第二行第1－第一行第1＝0；第二行第361－第一行第361＝0
• 经过变换后，较大的系数集中在直流分量及附近的低频区域，即信号能量主要集中在直流及低频区域的少数变换系数上，高频区域的系数多为0或很小。
•
•8×8DCT基图像
•
•
•⑶ 对变换后的系数进行量化。 •⑷ 进行之字形扫描（读出）和 •零游程编码。
•
2、处理步骤： ⑴将一幅图象分成若干像块，每个像块的大小为
帧间预测编码取不同帧（场）的像素作为预测像素，求其差值，再对差值进行编码。
帧间预测编码的目的正是在于消除这些时间冗余。
•
•
2、运动处理—运动估计和运动补偿
⑴ 运动处理原理通常，电视节目中只要画面镜头不切换，前后
帧图像的内容是差别不大的，许多情况下仅仅很少一部分在运动，因此，只需知道画面中哪部分在运动，其运动方向和位移量怎么样，把就可以从前一帧图像中预测出当前帧图像。又由于运动预测会有误差，需要对幀间预测误差信号进行编码和传送，因此我们只需要传送运动矢量和幀间预测差值，从而可以大幅度压缩码率。
• (y-y1)/(x-x1)＝（y2-y1)/(x2-x1)=直线斜率，
•
y＝y1＋(y2-y1)×(x-x1)/(x2-x1)
•
另外，在帧间内插中的位移估值一般要对运动区的每一
个像素进行，而不是对一个子块。
•
3.5 数字电视声音压缩编码技术
一、声音信号压缩编码的必要性常用的声音信号有：窄带语音（电话）300～3400Hz，fs=8KHz 宽带语音（视频会议）50～