视频基础知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

视频基础
在工作前掌握必要的相关知识是必须的.否则,在实际工作中,一定会遇到一些令人头痛的问题.对于没有从事过视音频相关工作的用户,请务必认真阅读本节.
帧和帧速率
帧和帧速率是视音频编辑中最基本也是最重要的一个概念.
无论是电影或者电视,都是利用动画的原量使图像产生运动.动画是一种将一系列差别很小的画面以一定速率连续放映而产生运动视觉技术.根据人类的视觉暂留现象,物体在快速运动时,人眼对于时间上每一个点的物体状态会有短暂的保留现象,例如在黑暗的房间中的挥舞一支香烛.由于视觉暂留现象,看到的不是一个红点沿孤线运动,而是一道道的弧线.这是由于香烛在一个位置发出的光还在人的眼睛里短暂保留,它与当前香烛的光芒融在一起,组成一段弧线.
构成动画的最小单位Frame(帧),组成动画的每一幅静态面画.一帧为一幅静态画面.
视觉暂留的时间非常短,为10‾¹S数量级.所以为了得到平滑连贵的运动画面,必须使画面的更新达到一定标准,即每秒中所播放的画面要达到一定数量,这就是帧速率.PAL制影片的帧速率是25帧/秒,NISC制影片的帧速率是29.97/秒,电影的帧速率是24帧/秒,二维动画的帧速率是12帧/秒.
传统的动画技术是由动画所需的一帧画面手绘出来,这意味着非常庞大的工作量.计算机的诞生,将人类从传统的动画技术中解脱出来.现在,动画师只需要绘制动画中关键的几,帧画面,其他中间产生过渡运动的画面则可以交由计算机处理,这就是关键帧的工作原理.所谓关键帧的概念,即在不同的时间点对对象属性时行变化,而时间点之间的变化则由计算机完成.例如在时间A至设置对象不透明度属性为100,在时间B处设置对象不透明度属性为0,则在从时间A至时间B处产生两个关键帧.计算机通过给定的关键,可以计算出对象从时间A至B处的不透明度变化过程.在一般情况下,为对象指定的关键帧越多,则所产生的运动变化越复杂,但是更多的关键帧也将计算机的计算时间加长.对于三维动画,由于其基于物体结构运动,所以,利用关键帧可以拟一切自然界中的现象.但是二维动画,则有相当大的局限性,这是因为二维动画是基于画面的运动.所以,在制作二维动画时要明白,哪些动作能够用关键帧实现,哪些动作不能够用关键帧实现.
扫描格式
视频标准中最基本的参数是扫描格式,主要包括图像在时间和空间上的抽样参数,即每行的像素数,每秒的帧数以及隔行扫描或逐行扫描.
扫描格式主要有两大类:525/59.94和625/50,前者是每帧的行数,后者是每秒的场数NTSC制的频准确数值是59.94004Hz,行频是15734.26573Hz;APL制的场频是50Hz,行频是15625Hz.
在数字域经常用水平,垂直像素数和帧率来表示扫描格式,如480*70*30,1080*1920*30等.
对ATSC标准来说,共有28种扫描格式,其中常规清晰度电视(SDTV)为480*640*F和480*704*F,帧率F可以是23.976 Hz,24 Hz,29.97 Hz,30 Hz,59.94 Hz和60Hz.高清晰度电视(HDTV)为1080*1920*F,帧频是23.92 Hz, 30 Hz,29.97 Hz;或720*1280*F,帧频F为23.976 Hz,24 Hz, 29.97 Hz, 30 Hz, 59.94 Hz和60 Hz.
对DVB标准来说,25 Hz帧频的SDTV IRD可以支持接收扫描格式为720*576*25,544*576*25,325*576*25的图像; 30 Hz帧频的SDTV IRD可以支持30000/100 Hz的帧频,可以接收扫描格式为720*480*30,544*480*30,480*680*30,352*480*30和352*240*30的图像.对25Hz的HDTV IRD,可接收扫描格式为1152*1920*F和1080*1920*F的图像.
宽高比
视频标准中的第2个重要参数是宽高比,宽高比可以分帧率和像素宽高比.
帧宽高比指一帧率图像的宽高比.可以用两个整数的比表示,也可以用小数表示,如4:3可1.33电影,SDTV和HDTV具有不同的宽高比.SDTV的宽高比是4:3可1.33;HDTV和扩展清晰度电视(EDTV)的宽高比是16:9或1.78;电影的宽高比早期的1.333到宽银幕的2.77.由于输入图像宽高比不同,便出现了某一宽高比屏幕上显示不同宽高比图像的问题.
某些视频输出使用相同的帧宽高比,但使用不同的像素宽高比.例如,某些NTSC数字化压缩卡产生4:3的帧宽高比,使用方像素(1.0像素比)及640*480分辨率,D1 NTSC采用4:3的帧宽高比,但使用矩形像素(0.9像素)比及720*486分辨率.
如果在一个显示方形像素的显示器上不作处理显示矩形像素,则会出现变形现象.
彩色信息的表述
视频标准中另一个重要问题是彩色信息的表述.原始彩色信号是红绿蓝三原色,也称R,G,B信号;也有称为RGB的,因不同步在绿信号上.
对一种颜色进行编码的方法系统为…颜色‟或“色域”,用简单的话说,世界上任何一种颜色的颜色空间都可定义成一个固定的数字或变量.RGB红绿蓝,只是从多颜色空间的一种.采用这种编码方法,每种颜色都可用三个变量来表示一种红色,绿色以及蓝色的强度.记录及显示彩色图像时,RGB 是最常见的一种方案.但是,它缺乏与早期黑白显示系统的良好兼容性.因此,大多电子器厂商普遍采用的做法是,将RGB转换成YUV颜色,以维护兼容,再根据需要换回RGB格式,以便在电脑显示器上显示彩色图形.
YUV(变称YCrCb)是被欧洲电视系统所采用一种颜色编码方法(属于RAL).YUV主要用于优化色视频信号的传输,使其向后兼容老式黑白电视.与RGB视频信号传输相比,它最大低的优点在于只需占用极少的带宽(RGB要求三个独立的视频信号同进传输).其中“Y”表示明亮度(Luminance 或Luma),也就是灰阶值;而“U”和“V”表示的则是色度(Chrominace或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色.“亮度”是通过RGB输入信号来创建的,方法是将RGB信号的特定部分叠加到一起.“色度”则定义了颜色的两个方面一色调与饱和度,分别用Cr和CB来表示.其中,Cr 反映了GB输入信号红色部分与RGB信号亮度值之间的差异.而CB反映的是RGB输入信号蓝色部分与RGB信号亮度值之间的差异.
还可以把两个色差信号U,V合并形成一个彩色信号C,以Y/C格式进行记录.这种格式被称为彩色降频方式.它对应于录像机上的S-video.
亮度,彩色和同步信号的合成称为复合信号(CCVS).形成复合信号的处理过程被称为编码.彩色信号和亮度信号经过编码,很难再完全分开而又没有损失,结果造成色串亮和亮串色.因上,应尽量减少合成和分离的环节.
NTSC,PAL和SECAM
基带视频是一种简单的模拟信号,由视频模拟数据和视频同步构成,用于接收端正确地显示图像.信号的细节取决于应用的视频标准或者制式,如NTSC(美国企业电视标准委员会,National Television Standards Committee, PAL(逐行倒相, Phase Alternate Line)以及SECAM(顺序送与储彩色电视系统法国采用的一种电视制式, SEquentail Couleur Avec Memoire)
NTSC制是美国于1953年研制成功的兼容式彩色电视制式,在美国,日本,加拿大等国家广泛地采用.其特点是用两个色差信号(R-Y)和(B-Y)分别对频率相同相位相差90º的两个副载波进行正交平衡调幅,再将已调制的色差信号叠加,穿插到亮度信号的高频端.
平衡调制抑制载波的方法.在兼容制的彩色电视中,用色度信号去调制彩色副载波后,若不抑制彩色副载波,则用黑白电视机接收的黑白图像上会出现亮点和暗点相互间隔的点状结构,形成图像景物失真,所以必须抑制不传输信息的彩色副载波.为了解了调出平衡调幅波中的两个色差信号,必须在接受机中设置副载波再生路,以恢复失去的副载波.
正交调制把两个色差信号调制在相位差为90º的同频率载波上,好相互正交的两个载波上.正交调制信号电压的大小由两色信号电压的大小决定,而相位差则由二的比例关系决定,前者代表了彩色的饱和度,后者反映了彩色的色调.
NTSC制主要的缺点是对信号的相位失真十分敏感,色彩不太稳定,容易产生明显的色调失真.为了避免色调失真,要求发送端与中间传送设备的性能指标要高.
为了克服NTSC制对信号相位比较敏感的缺点,1962年原西德提了一种改进方案,称为逐行行倒相制,简称为PAL.PAL制在我国,英国和欧亚很多国家中得到广泛应用.
PAL制和NTSC制一样,也是同时传送两个色差信号(R-Y)与(B-Y).不过(R-Y)是逐行倒相的,它和(B-Y)信号对副载波进行正交调制.采用逐行倒相的方法,若在传送过程中发生相位变化,则因相邻两行相位相反,可以起到相互补偿的作用,从而避免了相位失真引起的色调改变. PAL制信号与色度信号相互间的干扰较小,由于梳状滤波器的存在,亮度信号与杂波对色的干扰也比较小,因此兼容性也比较好.不过PAL制的编码器,解码器都比NTSC复杂,信号处理较为麻烦,所以接收机的造价相
比较高.对高密度记录方式的录像机来说, PAL制的这些缺点给电路设计增添了难度.
SECAM制是1956年由法国提出的,并于1966年在法国率先使用.
在SECAM制中,两个色差信号是逐行依次传送的,因而在一时刻,传输通道内只存在一个信号,不会出现串现象,从而克服的NTSC制对相位敏感的缺点.至于高度信号,仍然是每行都进行传送.另外,两个色度信号不对副载波进行高幅,而是对两个频率不同的副载波进行传送.另外,两个色度信号不对副载波进行调幅,而是对两个频率不同的副载波进行调频,再把两个已调副载波逐行轮换插入亮度信号高频端.形成彩色图像视频和信号.这样,在传输过程中引进的微分相位失真就不会对大面积的彩色造成影响,只在垂直边界上使彩色有所改变.而且调频信号在进入频率检波器前还可用限幅器削平振幅,所以SECAM制的色度信号几乎不受幅度失真的影响.此外,采用色度信号及频率微波方式可以不必传送副载波的相位信息.625线
SECAM制的兼容性不如NTSC制和PAL制,在正常传输条件下,传送的图像质量也相对较差.只有在传输投机倒把较差的情况下,才能显示出不怕干扰的优势.
在PC领域,由于使用的制式不同,存在不兼容的情况.拿分辨率来说,有的制式每帧有(50Hz),有的则每帧只有255线(60 Hz).后者是北美和日本采用标准,统称为NTSC.通常,一个视频信号是由一个视频源生成的,比如摄像机,VCR或者电视调谐器等.为传输图像,视频源首先要生成一个垂直同步信号VSYNC.这个信号会生设接收端设备PC显示器,保证新图像从屏幕的顶部开始显示.发出VSYNC信号之后,视频源接着扫描图像的第一行,完成手,视频源又生成一个水平同步信号,重设接收端,以便从屏幕左侧开始显示下一行,并针对图像的每一行,分别发出一条扫描线以及一个水平脉冲信号.
另外,NTSC标准还规定视频源每秒钟需要发送30幅完整的图像(帧).假如不作其他处理,闪烁现象会非常严重.为解决这个问题,每帧又被均分为两部分,每部分262.5行.一部分全是奇数行,另一部分则全是偶数行.显示的时候,先扫描奇数行,再扫描偶数行,就可以有效地改善图像显示的稳定性,减少闪烁.
数字视频
数字视频就是先用摄影机之类的视频捕捉设备,将外界影像的彩色和高度信息转变为电信号,再记录到储存介质(如录像带).播放时,视频信号被转变为帧信息,并以每秒约30幅的速度投影到显示器上,使人类的眼睛认为它连续不间断地运动着的.电影播放的帧率大约是每秒24帧.如果用示波器(一种测试工具)来观看,未投影的模拟电信号看起来就像脑电波的扫描图像,由一些连续锯齿状的山峰和山谷组成.为了储存视觉信息,模拟视频信号的山峰和山谷,必须通过数字/模拟(D/A)转换器来转变为数字的0或1.这个转过程就是我们所说的视频捕捉(或采集过程).如果在电视机上观看数字视频,则需要一个从数字到模拟以的转换器将二进制信息解码成模拟信号,才能进行播放.
数字视频信号主要有复合与分量两种编码方式.复合编码的优点是码率较低,设备较简单. 图像的质量一般.分量编码的优点是编码与制式无关,可以避免亮色互串,可获得高质量的图像.
场的顺序
在将光信号转换为电信号的扫描过程中,扫描总是从图像的左上角开始,水平向前行进,同时扫描点也以较慢的速率向下移动.当扫描点到达图像右侧边缘,扫描点快速返回左侧,重新开始在第1行的起点下面进行第2行扫描,行与行之间的返回过程称为水平消隐.一幅完整的图像扫描信号,由水平消隐间隔分开的行信号序列构成,称为一帧.扫描点扫描完一帧后,要从图像的右下角返回到图像的左下角,开始新一帧的扫描,这一时间间隔,叫做垂直消隐.对PAL制信号来讲,采用每帧625行扫描.对于NTSC制信号来讲,采用每帧525行扫描.
大部分的广播视频采用两个交换显示的垂直扫描场构成每一帧画面,这叫做交错扫描场.交错视频的帧由两个场构成,其中一个扫描帧的全部奇数场,称为奇场或上场;另一个扫描帧的全部偶数场,称为偶场下场.场以水平分隔线的方式隔行保存帧的内容,在显示时首先显示第1个场的交错间隔内容,然后再显示第2个场留下的缝隙.
计算机操作系统是以非交错形式显示视频的,它的每一帧画面由一个垂直扫描场完成.
电影胶片类似于非交错视频,它每次是显示整个帧的.
SMPTE时间码
视频素材的长度和它的开始,结束帧,是由一种称为时间码单位和地址来度量的.时间码有别于录像带的每一帧,以但在编辑和广播中控制.在编辑视频时,时间码可以精确地找到每一帧,并同步图像和声音元素.SMPTE将以小时:分钟:秒:帧的形式确定每一帧的地址.
有几种不同的SMPTE码标准,用于不同的帧率.如电影,视频和电视工业.PAL制采纳的是25fps 的标准.而NTSC制由于广播电视的技术原因,采纳了29.97fps的标准,而非早期黑白电视使用的30fps的帧速率,这就造成了实际播放和测量的时间长度有0.1%的差异.为了定位,由SMPTE时间码测量播放时间与实际播放时间之间差异,开发出一个叫做Drop Frame(掉帧)的格式.多数视频编辑系统既装的掉帧,也装有不掉帧时间码格式.无论使用哪个种格式,应当注意,用什么样的格式记录视频资料,就该用机是的编辑录像带,以便知道时间码所代表的真实时间.
编码解码器
编码解码器的主要作用是对视频信号进行压缩和解压缩.计算机工业定义通过24位测量系统的真彩色,这就定义了近百万种颜色,接近人类,视觉的极限.现在,最基本的VGA显示器就有640*480像素.这意味着如果视频需要以每秒30帧的速度播放,则每秒要传输高达27MB的信息,1GB容量的硬盘仅能存储约37秒的视频信息,因而必须对信息进行压缩处理.通过抛弃一些数字信息或容量被我们的眼睛和大脑忽略的图像信息方法,使视频的信息量减小.这个对视频压缩解压的软件或硬件就是编码器.编码器的压缩率从一般的2:1~100:1不等,使处理大量的视频数据成为可能.
压缩编码
数字化后的模拟视频信号数据量非常大.庞大的数据量使得数据传输,存储和处理都非常困难.困此,必须采用压缩编码技术.
现在常用的压缩编码技术有以下几种:
1.JPEG(Joint Photographic Experts Group)
用于静态图像压缩的标准.用于连续色凋,多级灰度,彩色/单色静态图像压缩.具有较高压缩的图形文件(一张100KB的BMP文件压缩成JPEG格式后可能只有20~30KB),在压缩过程中的失真程度很小.目前使用范围广泛(特别是在INTERNET网页中).这种有损压缩在牺牲较小细节的情况下用型的4:1到10:1的压缩比来存档静态图像.
2.M-JPEG(Motion-JPEG)
它是利用JPEG算法把一系列图像存于硬盘,已被广泛用于非线性编辑.它的优点是压缩和解压是对称的,可以用相同的硬件和软件实现.它可以实现广播级指标所要求的无损压缩,但是它的数据量仍然是非常巨大的.
3.MPEG(Motion Picture Experts Group)
MPEG压缩在计算机和电视视频制作领域获得广泛应用.它依赖于两个技术.基于16*16块的运动补偿和帧内图像的JPEG压缩.; MPEG1能将视频信号压缩到0.5 b/pixel~1b/pixel,压缩数据率为1.2M/s,重建图像的质量与VHS相当.VCD就是用它压缩的,由于它是不对称算法,所以要使用硬件压缩,而解压时则软‚硬件均可.
一般说来,在帧内以及帧与帧之间众多的视频序列均包含很大的统计冗余度和主观冗余度.视频源码的最终目标是:通过挖掘统计冗多余度和主观冗余度,来降低存储和传送视频信息所需的比特率;并采用嫡编码技术,以便编制出“最小信息组”一个实用的编码方案,是在编码特性是(具有足够质量的高压缩)与实施复杂性之间一种折衷.对于MPEG压缩的算法的开发来讲,涉及到这些标准的寿命周期应考试到现代超大规模集成电路技术的能力,这一点是最重要的.应该应用的要求,我们也许会想到视频数据的“无损失”编码和“有损失”编码,“无损失”编码的目的在于:在保持原图像质量即解码后的图像质量等同于编码前的图像质量情况下,减少需要存储和传送的图像或视频数据.与此相反,“有损失”编码技术(该技术跟MPEG-1和MPEG2视频标准未来的应用有关)的目的是,符合给定的存储和传送比特串.重要的一些应用包括:利用限定的带宽或很窄的带宽,通过信频道传送视频信息;有效地存储视频信息.在这些应用中,高的视频压缩是以降低视频质量的办法来实施的,即跟编码和再现图像的原始图像相比,解码后的图像“客观”质量有所降低(也就是取原始图像和再现图像之间的均方差,作为评定客观图
像质量的标准)频道的目标比特率越低,那么视频所必须进行的压缩率就越大,通常可以察觉的编码人工产物也越多.有损失编码技术的最终目的是:在指定的目标比特串条件下,获取最佳的图像标准.这里应服从“客观”或“主观”上的最佳标准.这里应该指出,图像的降级程度(指客观降低以及可察觉到的人工产物的数量)取决于压缩技术的复杂性——对于结构简单的画面和视频活动少的图像来讲,就是采用简单的压缩技术,也许能获得根本不带可察觉人工产物的良好再现图像.
MPEG数字视频编码技术实质上是一种统计方法.在时间和空间方向上,视频列通常包含统计冗余度.MPEG压缩技术所依赖的基本统计特性为像素之间(Interpel)的相关性,这里包含这样一个设想:即在各连续帧之间存在简单的相关性平移运动.这里假定:一个特殊画面上的像素量值,可以(采用帧内编码技术)根据同帧附近像素来加以预测,或者可以(采用帧间技术)附近帧中的像素之间的时间相关性很小,甚至消失.这时,该视频镜头就成为一组不相关的静止画面的组合.在这种情况下,可采帧内编码技术来开发空间相关性,来实现有效的数据压缩,MPEG压缩算法采用离散余弦变换(DCT)编码技术,以8*8像素的画面快为单位,有效地开发同一面面各附近像素之间的空间相关性.然而,若附近,帧中各像素间具有较大的相关性时,也就是说两个连续帧的内容相似或相同时,就可以采用应用时间预测(帧间的运动补偿预测)的帧间DPCM编码技术.在多种MPEG视频编码方案中,若将时间运动补偿预测与剩余空间信息的变换码自适应地结合起来,就能实现数据的高压缩(视频的DPCM/DCT混合编码).
在MPEG编码之前,需要大量进行二次取样和量化工序.二次取样的在本概念是想减少输入视频的Dimension (水平Dimension和垂直Dimension),并在进行编码处理之前先对像素进行编号.值得注意的是: 在有些应用场合,在时间方向上也对视频进行二次取样,以便在编码之前降低帧频.在接收机端,已解码图像是通过内插法来加以显示的.这一方法可以认为是一种最简单的压缩技术,这种压缩技术利用了人眼特有的生理特性.因而去除了视数据中含有的主观冗余度一一即与色度信号的变化相比,人眼对亮度信号的变化更灵敏.故众多MPEG编码方案首先将画面分成YUV与高信号(一个亮度分量和二个色度分量)接着,相对于亮度分量,对色度分进行二次取样,对于一些特殊应用,有一个Y:U:V比率(即对于MPEG-2标准,采用4:1:1或4:2:2).
①MPEG-1
运动补偿预测是一个有力的工具,以便减小帧间的时间冗余度;并作为用于时间DPCM 编码的预测技术,这一工具在MPEG1和MPEG2和视频编码标准中得到广泛应用.运动补偿概念是以对视频帧间的运动的估算为基础的,也就是,若视频镜头中所有物体均在空间上有一位移,那么用有限的运动参数(如对于像素的平移运动,可用运动矢量来描述)来对给出一个有效像素的最佳预测.通常,预测误差和运动矢量均传送至接收机.然而将一个运动信息对每个编码画面像素进编码,既不值得也没有必要.由于一些运动矢量之间的空间相关性通常较高,有时可以这样认为:一个运动矢量代表一个相邻像素块的运动.为了做到了这一点,画面一般划分一些不连接的像素块(在MPEG1和MPEG2标准中,一个像素块为16*16像素),对于每一个这样的像素块,只对一个运动矢量进行估算,编码误差画面(原始画面与运动补偿预测画面之间的差别)加以编码.
MPEG-1用于传输 1.5Mbps 数据率的数字存储媒体运动图像及其伴音的编码,经过MPEG-1标准压缩后,视频数据压缩率为1/100!1/200,音频压缩率为1/6.5.MPEG-1提供每秒帧分辨率的图像,当使用合适的压缩技术时,具有接近家用视频制式(VHS)录像带的质量.MPEG-1允许超过70分钟的高质量的视频和音频存储在一张CD-ROM盘上.VCD采用的就是MPEG-1的标准,该标准是一个面向家庭电视质量级的视频,音频压缩标准.
由MPEG-1开发出来的视频压缩技术的应用范围很广,包括从CD-ROM上的交互系统,到电信网格上的视频传送,MPEG-1视频编码标准被认为是一个通用标准.为了支持多种应用,可有用户来规定多种多样的输入参数,包括灵活的图像尺寸和帧频.MPEG推荐了一组系统规定的参数:每一个MPEG-1兼容解码器器至少必须能够支持视频源参数,最佳可达电视标准:包括每行最小应有720个像素,每个像素起码应有576行,每秒最少不低于30帧,及最低比特率为。

相关文档
最新文档