新一代视频压缩编码标准H264学习心得

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章和第二章绪论和数字视频
1.一个是压缩比
2. 保持主观质量和客观质量信噪比（S/N）
视频压缩可能性的依据：
1.预测编码，根据帧内相关性和帧间的相关性，即找到相应的参考像素或参考帧作为预测值，已达到视频压缩编码。

2. 变换编码，视频信号在能量上包含着的大部分都是直流和低频部分（图像的平坦部分），少量的高频部分（图像细节）。

用数学变换后得到2维矢量空间，其中大部分的直流和低频是相同的，可以不必用码去表示，结果完成压缩编码
视频压缩技术基本结构
按照信源模型可将视频编码区分为基于波形的编码和基于内容的编码，
信源模型采用“一副图像由许多像素构成”，视频编码是基于波形的编码，其采用把预测编码和变换编码组合起来的基于块的混合编码把一副图像分割成块8x8(像素) 或者16x16，然后进行压缩处理
信源模型采用“一个分量有几个物体构成”，视频编码是基于内容的编码
块的编码方式在边界时会有高的预测误差和失真。

MPEG-4采用的编码方式就是既基于块的混合编码，也采用基于内容的编码方法
低于15帧的视频质量不高，一般要25要30 ，可视频电话会议可取15-20帧每秒。

数字视频
数值电视的优势。

数值电视的PCM原理：
取样，就是在时间轴上连续变化的模拟信号变为离散量的过程。

量化取样后得到的脉冲信号在时间上是离散的，但是在赋值上空间上仍然是连续的，比如可以取3.56，3.7812344等等，我们采用四舍五入将其变为有限个值。

这种将信号幅值由连续量变为离散量的过程称为量化。

由于四舍五入参数的失真称为“量化噪音”。

PCM编码对于量化后的信号，通常用二进制表示，这时的编码称为脉冲编码调制-即PCM 编码。

上述取样，量化，PCM编码都由A/D转换器完成，反之则由D/A转换器完成。

数字电视信号：
时间取样
隔行扫描帧图像由顶场底场组成一帧由一个顶场和底场组成，
帧和场的邻近行相关性并不相同：
帧的空间相关性强，时间相关性弱；场的时间相关性强，空间相关性弱
静态图像，运动量小的图像用帧编码，运动量多的用场编码
实际中要帧/场编码相结合
空间取样
在同一电视信号帧中，同一行由若干取样点构成，这些取样点称为像素，这些取样属于空间取样。

前提：一帧图像是静止的，每个像素处于同一时间不同空间上。

不同国家间标准电视格式不同（即扫描格式），为了不同国家点的视频通信，往往采用一个中间格式(CLF)
彩色空间
RGB YCbCr（YUY）
彩色电视取样格式 4:2:0
数字电视信号的编码参数：
量化值Qp(量化节距)一般取8位即8位bit表示一个取样值 8位取样即有258个灰度级；
取样频率;
视频信号的预处理
色彩差值
以Bayer图像阵列举例：
为降低成本，简化工艺，图像传感器一个像素点只能给出单色的色调值，不能同时给出G,R,B 的值，所以要根据周围的点的相关性来获得。

红色/蓝色点处的像素绿色分量
插值等于其相邻的四个像素点的绿色分量平均值。

例如，G8 = (G3+G7+G9+G13) / 4。

在绿色点处的红色/蓝色分量的插值
这分两种情况：一种情况是如果存在相邻的两个像素的红色/蓝色分量，就取红色/绿色分量的均
值，例如B7=(B6+B8)/2，R7= (R2+R12)/2。

另一个情况是周围没有相邻的红色/蓝色分量，就取对象
线方形的四角像素点处红色/蓝色分量的均值，R8=(R2+R4+R12+R14)/4，
B12=(B6+B8+B16+B18)/4。

色彩校正
伽马校正
光强度I和显示器加载电压P ywei 伽马值是非线性的需要伽马校正使其变为线性的
图像增强
图像增强作为一种重要的图像处理技术，目的无非就是两个：第一更适合人眼的感觉；第二有利于后续的分析处理。

图像增强主要包括直方图均衡、平滑滤波、中值滤波、锐化等内容。

一般情况下，图像增强既
可以在空间域实现，也可以在频域内实现对于消除相关性的理解，相关性就是说明有些值并不是它实际的值，只是根据相关性，由周围的值计算出来的，这里面是包含误差的，所以相关性也说明了有误差。

平滑滤波
图像的能量主要集中在其低频部分，噪声所在的频段主要在高频段，同时图像中的
细节信息也主要集中在其高频部分，因此，如何去掉高频干扰又同时保持细节信息是关键。

在空域法中，图像平滑的常用方法是采用均值滤波或中值滤波，对于均值滤波，它
是用一个有奇数点的滑动窗口在图像上滑动，将窗口中心点对应的图像像素点的灰度值用窗口内的
各个点的灰度值的平均值代替，如果滑动窗口规定了在取均值过程中窗口各个像素点所占的权重，
也就是各个像素点的系数，这时候就称为加权均值滤波；对于中值滤波，对应的像素点的灰度值用
窗口内的中间值代替。

图像蜕化
使图像的边缘变得更加鲜明经过平滑的图
像变得模糊的根本原因是因为图像受到了平均或积分造成的，因此可以对其进行逆运算（如微分运
算）就可以使图像变的清晰。

从频率域来考虑，图像模糊的实质是因为其高频分量被衰减，因此可
以用高通滤波器来使图像清晰。

图像锐化的技术有两种方法：微分法和高通滤波法。

每个块（B）又由8×8像素构成。

一帧QCIF图像由3个GOB组成。

视频信源编码器将视频信号编码压缩，主要采用混合编码方法；视频复合编码器将每帧图像数据编排成四层结构，并通过熵编码对视频数据进行进一步压缩输出；传输缓冲器和码率控制器用于保证输出码流尽量稳定；传输编码器用于视频数据的误码检测和纠正。

H263 有5种图像格式
H264视频信源编码框和H261相同，不同的是H264输入有多种格式，输出为H263码流MPEG-1 标准的功能：
（1）视频压缩编码，压缩后码率在1.5Mbps，可用于视频传输和视频存储；编码前必须将视频图像转换成逐行扫描图像。

（2）录像机的正放、图像冻结快进、快退和慢放功能以及随机存储功能。

MPEG-1 的图像类型和编码结构：
MPEG-1定义了3种图像类型：I,P,B图像，I 图像即帧内（Intra）图像，采用帧内
编码，不参考其它图像，但可作为其它类型图像的参考帧。

P图像即预测（Predicted）图像，
采用帧间编码，参考前一幅I或P图像，用作运动补偿。

B图像即双向预测（Bi- predicted）图像，参考前后两个方向图像。

双向预测编码解决了“暴露”问题，让图像能更柔和的出现，双向预测编码只适用于非实时性通信及数字广播电视中应用，不适用于实时性实现通信，因为实时性通信后一帧在当前编码时还没出现。

MPEG-1的编码结构
和H261
层次结构：
杂记： 720p的p是逐行扫描的意思分辨率是1280*720 1080i的i 是interlac的意思即隔行扫描的意思分辨率是1920*1080。