图像序列运动估计技术综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 2 菱形算法的搜索模板图
多候选值 (multip le பைடு நூலகம்andidate method)策略可以克服搜索 陷入局部极小值的问题 [6 ] ,具体做法是选择多个起始点 ,进 行多次搜索 ,得到多个匹配点 ;选择匹配误差最小的一个 ,以 此为起点进行进一步搜索 。为了降低多次搜索所带来的计 算量 ,在计算匹配误差时常采用亚采样 SAD 准则 ,减少在匹 配错误判别计算中使用的像素数目 。
利用特征法进行运动估计 ,首先要在参考图像中确定一 组特征结构作为标识 ,并对当前图像进行搜索 ,以寻找到对
应的特征结构 ,从而获得图像序列的运动量 [1 ] 。可以利用的
主要特征量有 :角点 、直边缘 、曲线边缘等局部特征和形心 、
图 1 块匹配运动估计原理图
搜索模式 ( search pattern)的形状决定着搜索的速度和 结果的性能 。针对不同的搜索模式提出了很多算法 。菱形 搜索算法 [5 ] (DS)是一种应用非常广泛的算法 ,它采用大小 两种菱形搜索模式 ,分别称为大菱形模式 (LDSP)和小菱形 模式 ( SDSP) ,如图 2所示 。菱形算法没有限定搜索的步数 , 在搜索的过程中 ,不断地使用 LDSP,直到最小块失真 (MBD ) 出现在中心点的位置 。此后搜索模式使用 SDSP,直至找到 最佳匹配点 。菱形搜索算法性能接近新三步法 ,但运算量不 到新三步法的 80% [5 ] 。菱形算法的不足之处在于缺乏自适 应性 ,不管运动量大小均采用大模板进行粗定位 ,对于小运 动矢量来说 ,势必会有很多冗余的搜索 。并且对于实际运动 矢量较大 (全局最小值偏离搜索区中心 )而块匹配误差平面 在近中心区域存在局部最小值的块 ,该算法不能求出正确的 运动矢量 。
对序列图像块间相关性的利用也是块匹配算法提高效
率的一个重要手段 。由于运动物体的整体性和视频运动的 连续性 ,相邻的运动矢量以及前后帧对应位置处的运动矢量 必然具有时间和空间上的相关性 。MVFAST[7 ]算法就是在 DS的基础上 ,利用视频图像块间的相关性 ,估计运动向量初 始值 ,把搜索限制在更小的区域 ,大大加快了搜索速度 。
第 25卷 第 5期 文章编号 : 1006 - 9348 ( 2008) 03 - 0180 - 05
计 算 机 仿 真
图像序列运动估计技术综述
2008年 5月
黄新生 ,杨庆伟 ,王亦平 ,岳冬雪
(国防科技大学机电工程与自动化学院 ,湖南 长沙 410073)
摘要 :图像序列运动估计是通过对图像序列的分析 ,得到图像全局运动量或局部物体运动量的一种重要技术方法 ,它已经广 泛应用于国民经济的很多领域中 。在对图像序列运动估计定义的基础上 ,首先将图像序列运动估计算法分为图像块法 、像 素法 、特征法和相位法等四类 ,对各类方法中主要算法的基本原理进行了详尽的阐述 ,并比较了各算法的优缺点 ;然后探讨 了图像序列运动估计算法在视频编码 、电子稳像和图像配准等领域内的应用 ;最后展望了图像序列运动估计技术的前景和 发展趋势 。 关键词 :运动估计 ;图像序列 ;算法 中图分类号 : TP751. 1 文献标识码 : A
位平面匹配法 ( bit - p lane matching) [11 ]也可以有效降低 匹配误差函数的计算量 。该方法首先对图像进行灰度级的 位平面分解 ,灰度位最高的图像包含了视觉上最有用的数 据 ,而灰度位最低的图像包含了最多的细节数据 。折中考 虑 ,往往选取中间灰度级的位平面作为匹配的图像 。这样 , 两个宏块间的相似度只需使用异或运算 (XOR)即可 ,大大降 低了计算复杂度 。然而位平面法有一个缺点 ,象素点灰度值 的微小变化有可能对位平面的复杂程度产生较明显的影响 。 文献 [ 12 ]使用 Gray码 ( Gray Code)对位平面加以改进 ,使得 不同灰度级的位平面只有一个比特位不同 ,可有效避免灰度 级变化对位平面的影响 ,具有较强的鲁棒性 。 2. 2 像素法
像素法是利用像素灰度值之间的关系进行运动估计的 一类方法 。常见的像素法主要有灰度投影法 、光流场法 、像 素相关法 、像素递归法等 。
灰度投影算法 [13 ]是一种统计意义上的特征匹配方法 , 它将二维图像灰度数据匹配简化成两个一维灰度特征匹配 问题 ,用图像在水平和垂直方向上的灰度投影数据作为图像 特征 ,既可以保证匹配精度 ,又提高了运算速度 ,如图 3。灰 度投影算法的局限性在于要求图像具有一定的衬比度和较 明显的灰度变化 。
法第一步搜索步长较大 ,捕获小运动的效率较低 ,并且很有 可能将搜索引至错误方向从而陷入局部最 优 。新 三 步 法 (NTSS)改进了三步法的性能 [3 ] 。它利用了图像序列的中心 偏置 ( center - biased)特性来增强算法的自适应性 ,并采用了 半途中止 ( halfway - stop)技术降低了算法的复杂性 。所谓中 心偏置特性是指图像序列绝大部分的块具有较小的运动矢 量 ,较少的块具有较大的运动矢量 。四步法 ( FSS) [4 ]是在三 步法和新三步法的基础上提出来的 。四步法有与新三步法 相似的性能 ,并且减少了最坏情况下的计算复杂度 。
流分块拟合与评估的方法用于剔除光流场中不利于全局运
动估算的干扰数据 ,从而有效提高了全局运动的估计精度 。
使用光流方程的算法要求图像亮度是可微分的 ,并且亮
度的偏微分也是可以得到的 。这两点限制了光流法的使用 。
另外 ,由于像素相关法和像素递归法的计算量较大 ,实
用价值不高 ,这里不做介绍 。
2. 3 特征法和相位法
在搜索算法中加入搜索终止判断也可以提高算法的效 率 。零运动提前判断 ( ZM P) [8 ]是一种特殊的搜索终止判断 , 其在搜索一开始就判断当前块运动矢量是否为零 。对于相 邻帧有很少运动的视频序列 , ZM P可以很大地提高算法的速 度。
一些搜索算法利用多分辨 (multiresolution)技术实现由 粗到精的搜索 ,如十字搜索 ( CS)算法 [9 ] 。这种方法在低分 辨率情况下找到最佳匹配点 ,作为下一步更高分辨率下搜索 的起点 ,直到最高分辨率 。本质上 ,它是利用了不同分辨率 图像的层次相关性来提高搜索效率的 。
方程是不能确定光流的 ,人们将这种不确定性问题成为孔径
问题 ( aperture p roblem ) 。为寻找另一个约束条件来确定每
个像素位置上矢量流的两个分量 ,许多学者提出了多种方
法 ,如 Nagel法 , Lucas - Kanade法等 。文献 [ 15 ]针对光流估
算的不确定性和图像中独立目标运动的干扰 ,提出了一种光
文献 [ 10 ]中提出了一种更新优胜者策略 (W inner - Up2 date Strategy)来降低匹配误差的计算量 。它用一个递增的匹 配误差下界列表来决定临时的优胜者 。其基本思想是 ,在每 一个搜索位置 ,当存在一个比全局最小匹配误差大的误差下 界时 ,就结束当前的匹配误差计算 。实验表明 ,该方法可以 省去超过 90%的匹配误差的计算量 ,并且仍可以保证找到全 局最优 。但是 ,这种方法易受噪声的影响 ,并且对复杂场景 序列的性能有所下降 。
A Rev iew of M otion Estima tion Techn ique for Image Sequence
HUAN G X in - sheng, YAN G Q ing - wei ,WAN G Yi - p ing, YU E Dong - xue
(College of M echatronics Engineering and Automation, National University of Defense Technology, Changsha Hunan 410073, China)
块匹配法实现效果取决于三个因素 : ①匹配准则 ; ②搜 索模式 ; ③搜索范围 。全搜索算法 ( FS)通过对搜索窗内所有 像素进行搜索 ,它的精度是最高的 ,搜索结果一定是全局最 优点 。但全搜索算法计算量巨大 ,不利于实时应用的场合 。 根据应用的需要 ,很多快速搜索算法被陆续提出 。
三步法 ( TSS)是一种较早提出来的算法 [2 ] 。以其简单 和有效被广泛应用于低码率的视频压缩方案中 。然而 ,三步
1 引言
图像序列运动估计是快速而准确地检测图像序列运动 的一类技术 ,已经广泛应用于国民经济的诸多领域 。广义的 运动估计包括硬件方法和软件方法 [1 ] 。硬件方法采用传感 器检测运动 ,而软件方法采用各种算法对图像序列进行处 理 。本文主要讨论软件方法 。
本文对图像序列运动估计的各种算法进行探讨 ,详细阐 述各算法的基本原理 ,分析图像序列运动估计技术适用性 , 并在最后总结了其未来的发展趋势 。与其他运动估计技术 综述不同的是 ,本文立足于应用 ,着重比较各类算法的优缺 点 ,对不同应用场合图像序列运动估计算法的选择具有重要 的参考价值 。
光流场法 [14 ]是计算机视觉中一种经典的方法 。使用光 流法 ,在一个包含足够灰度变化的像素块上可以估计图像运 动 。1986年 , Horn和 Schunck推出了光流约束方程 ,成为光
— 181 —
图 3 灰度投影法示意图
流法研究的基础 :
Ix u + Iy v + Ii = 0
(1)
图像中的每个点上有两个未知数 u和 v ,因此只用一个
2 图像序列运动估计算法
收稿日期 : 2007 - 04 - 19 修回日期 : 2007 - 05 - 09
— 180 —
图像序列运动估计的算法有很多 ,但从对图像处理的方 式上进行分类 ,主要有图像块法 、像素法 、特征法和相位法等 四类 。 2. 1 图像块法
图像块匹配运动估计算法是目前一些国际标准组织推 荐的运动估计方案 。其基本原理如图 1 所示 。假设块内各 像素作相同运动 ,根据一定的匹配准则 ,在前一帧某一给定 搜索范围内找出与当前帧中每一块最相似的块 ,即匹配块 , 由匹配块与当前块的相对位置计算出运动位移 ,所得运动位 移即为当前块的运动量 。
ABSTRACT: The motion estimation for image sequence (M E IS) , which attemp ts to find the global or local motion of the image sequence, is a very important technique, and has been widely used in many domains of national economy. On the basis of the definition of M E IS, the M E IS algorithm s are categorized into four categories, namely the image block method, p ixel method, feature method and phase method. And, the basic ideas of main algorithm s in each cat2 egory are expatiated, the merits and defects of the algorithm s are compared. Then, the app lications ofM E IS , such as video coding, electronic image stabilization and image registration, are narrated. A t last, the future and p rogress trends of M E IS technique are analysed. KEYW O RD S:Motion estimation; Image sequence; A lgorithm
多候选值 (multip le பைடு நூலகம்andidate method)策略可以克服搜索 陷入局部极小值的问题 [6 ] ,具体做法是选择多个起始点 ,进 行多次搜索 ,得到多个匹配点 ;选择匹配误差最小的一个 ,以 此为起点进行进一步搜索 。为了降低多次搜索所带来的计 算量 ,在计算匹配误差时常采用亚采样 SAD 准则 ,减少在匹 配错误判别计算中使用的像素数目 。
利用特征法进行运动估计 ,首先要在参考图像中确定一 组特征结构作为标识 ,并对当前图像进行搜索 ,以寻找到对
应的特征结构 ,从而获得图像序列的运动量 [1 ] 。可以利用的
主要特征量有 :角点 、直边缘 、曲线边缘等局部特征和形心 、
图 1 块匹配运动估计原理图
搜索模式 ( search pattern)的形状决定着搜索的速度和 结果的性能 。针对不同的搜索模式提出了很多算法 。菱形 搜索算法 [5 ] (DS)是一种应用非常广泛的算法 ,它采用大小 两种菱形搜索模式 ,分别称为大菱形模式 (LDSP)和小菱形 模式 ( SDSP) ,如图 2所示 。菱形算法没有限定搜索的步数 , 在搜索的过程中 ,不断地使用 LDSP,直到最小块失真 (MBD ) 出现在中心点的位置 。此后搜索模式使用 SDSP,直至找到 最佳匹配点 。菱形搜索算法性能接近新三步法 ,但运算量不 到新三步法的 80% [5 ] 。菱形算法的不足之处在于缺乏自适 应性 ,不管运动量大小均采用大模板进行粗定位 ,对于小运 动矢量来说 ,势必会有很多冗余的搜索 。并且对于实际运动 矢量较大 (全局最小值偏离搜索区中心 )而块匹配误差平面 在近中心区域存在局部最小值的块 ,该算法不能求出正确的 运动矢量 。
对序列图像块间相关性的利用也是块匹配算法提高效
率的一个重要手段 。由于运动物体的整体性和视频运动的 连续性 ,相邻的运动矢量以及前后帧对应位置处的运动矢量 必然具有时间和空间上的相关性 。MVFAST[7 ]算法就是在 DS的基础上 ,利用视频图像块间的相关性 ,估计运动向量初 始值 ,把搜索限制在更小的区域 ,大大加快了搜索速度 。
第 25卷 第 5期 文章编号 : 1006 - 9348 ( 2008) 03 - 0180 - 05
计 算 机 仿 真
图像序列运动估计技术综述
2008年 5月
黄新生 ,杨庆伟 ,王亦平 ,岳冬雪
(国防科技大学机电工程与自动化学院 ,湖南 长沙 410073)
摘要 :图像序列运动估计是通过对图像序列的分析 ,得到图像全局运动量或局部物体运动量的一种重要技术方法 ,它已经广 泛应用于国民经济的很多领域中 。在对图像序列运动估计定义的基础上 ,首先将图像序列运动估计算法分为图像块法 、像 素法 、特征法和相位法等四类 ,对各类方法中主要算法的基本原理进行了详尽的阐述 ,并比较了各算法的优缺点 ;然后探讨 了图像序列运动估计算法在视频编码 、电子稳像和图像配准等领域内的应用 ;最后展望了图像序列运动估计技术的前景和 发展趋势 。 关键词 :运动估计 ;图像序列 ;算法 中图分类号 : TP751. 1 文献标识码 : A
位平面匹配法 ( bit - p lane matching) [11 ]也可以有效降低 匹配误差函数的计算量 。该方法首先对图像进行灰度级的 位平面分解 ,灰度位最高的图像包含了视觉上最有用的数 据 ,而灰度位最低的图像包含了最多的细节数据 。折中考 虑 ,往往选取中间灰度级的位平面作为匹配的图像 。这样 , 两个宏块间的相似度只需使用异或运算 (XOR)即可 ,大大降 低了计算复杂度 。然而位平面法有一个缺点 ,象素点灰度值 的微小变化有可能对位平面的复杂程度产生较明显的影响 。 文献 [ 12 ]使用 Gray码 ( Gray Code)对位平面加以改进 ,使得 不同灰度级的位平面只有一个比特位不同 ,可有效避免灰度 级变化对位平面的影响 ,具有较强的鲁棒性 。 2. 2 像素法
像素法是利用像素灰度值之间的关系进行运动估计的 一类方法 。常见的像素法主要有灰度投影法 、光流场法 、像 素相关法 、像素递归法等 。
灰度投影算法 [13 ]是一种统计意义上的特征匹配方法 , 它将二维图像灰度数据匹配简化成两个一维灰度特征匹配 问题 ,用图像在水平和垂直方向上的灰度投影数据作为图像 特征 ,既可以保证匹配精度 ,又提高了运算速度 ,如图 3。灰 度投影算法的局限性在于要求图像具有一定的衬比度和较 明显的灰度变化 。
法第一步搜索步长较大 ,捕获小运动的效率较低 ,并且很有 可能将搜索引至错误方向从而陷入局部最 优 。新 三 步 法 (NTSS)改进了三步法的性能 [3 ] 。它利用了图像序列的中心 偏置 ( center - biased)特性来增强算法的自适应性 ,并采用了 半途中止 ( halfway - stop)技术降低了算法的复杂性 。所谓中 心偏置特性是指图像序列绝大部分的块具有较小的运动矢 量 ,较少的块具有较大的运动矢量 。四步法 ( FSS) [4 ]是在三 步法和新三步法的基础上提出来的 。四步法有与新三步法 相似的性能 ,并且减少了最坏情况下的计算复杂度 。
流分块拟合与评估的方法用于剔除光流场中不利于全局运
动估算的干扰数据 ,从而有效提高了全局运动的估计精度 。
使用光流方程的算法要求图像亮度是可微分的 ,并且亮
度的偏微分也是可以得到的 。这两点限制了光流法的使用 。
另外 ,由于像素相关法和像素递归法的计算量较大 ,实
用价值不高 ,这里不做介绍 。
2. 3 特征法和相位法
在搜索算法中加入搜索终止判断也可以提高算法的效 率 。零运动提前判断 ( ZM P) [8 ]是一种特殊的搜索终止判断 , 其在搜索一开始就判断当前块运动矢量是否为零 。对于相 邻帧有很少运动的视频序列 , ZM P可以很大地提高算法的速 度。
一些搜索算法利用多分辨 (multiresolution)技术实现由 粗到精的搜索 ,如十字搜索 ( CS)算法 [9 ] 。这种方法在低分 辨率情况下找到最佳匹配点 ,作为下一步更高分辨率下搜索 的起点 ,直到最高分辨率 。本质上 ,它是利用了不同分辨率 图像的层次相关性来提高搜索效率的 。
方程是不能确定光流的 ,人们将这种不确定性问题成为孔径
问题 ( aperture p roblem ) 。为寻找另一个约束条件来确定每
个像素位置上矢量流的两个分量 ,许多学者提出了多种方
法 ,如 Nagel法 , Lucas - Kanade法等 。文献 [ 15 ]针对光流估
算的不确定性和图像中独立目标运动的干扰 ,提出了一种光
文献 [ 10 ]中提出了一种更新优胜者策略 (W inner - Up2 date Strategy)来降低匹配误差的计算量 。它用一个递增的匹 配误差下界列表来决定临时的优胜者 。其基本思想是 ,在每 一个搜索位置 ,当存在一个比全局最小匹配误差大的误差下 界时 ,就结束当前的匹配误差计算 。实验表明 ,该方法可以 省去超过 90%的匹配误差的计算量 ,并且仍可以保证找到全 局最优 。但是 ,这种方法易受噪声的影响 ,并且对复杂场景 序列的性能有所下降 。
A Rev iew of M otion Estima tion Techn ique for Image Sequence
HUAN G X in - sheng, YAN G Q ing - wei ,WAN G Yi - p ing, YU E Dong - xue
(College of M echatronics Engineering and Automation, National University of Defense Technology, Changsha Hunan 410073, China)
块匹配法实现效果取决于三个因素 : ①匹配准则 ; ②搜 索模式 ; ③搜索范围 。全搜索算法 ( FS)通过对搜索窗内所有 像素进行搜索 ,它的精度是最高的 ,搜索结果一定是全局最 优点 。但全搜索算法计算量巨大 ,不利于实时应用的场合 。 根据应用的需要 ,很多快速搜索算法被陆续提出 。
三步法 ( TSS)是一种较早提出来的算法 [2 ] 。以其简单 和有效被广泛应用于低码率的视频压缩方案中 。然而 ,三步
1 引言
图像序列运动估计是快速而准确地检测图像序列运动 的一类技术 ,已经广泛应用于国民经济的诸多领域 。广义的 运动估计包括硬件方法和软件方法 [1 ] 。硬件方法采用传感 器检测运动 ,而软件方法采用各种算法对图像序列进行处 理 。本文主要讨论软件方法 。
本文对图像序列运动估计的各种算法进行探讨 ,详细阐 述各算法的基本原理 ,分析图像序列运动估计技术适用性 , 并在最后总结了其未来的发展趋势 。与其他运动估计技术 综述不同的是 ,本文立足于应用 ,着重比较各类算法的优缺 点 ,对不同应用场合图像序列运动估计算法的选择具有重要 的参考价值 。
光流场法 [14 ]是计算机视觉中一种经典的方法 。使用光 流法 ,在一个包含足够灰度变化的像素块上可以估计图像运 动 。1986年 , Horn和 Schunck推出了光流约束方程 ,成为光
— 181 —
图 3 灰度投影法示意图
流法研究的基础 :
Ix u + Iy v + Ii = 0
(1)
图像中的每个点上有两个未知数 u和 v ,因此只用一个
2 图像序列运动估计算法
收稿日期 : 2007 - 04 - 19 修回日期 : 2007 - 05 - 09
— 180 —
图像序列运动估计的算法有很多 ,但从对图像处理的方 式上进行分类 ,主要有图像块法 、像素法 、特征法和相位法等 四类 。 2. 1 图像块法
图像块匹配运动估计算法是目前一些国际标准组织推 荐的运动估计方案 。其基本原理如图 1 所示 。假设块内各 像素作相同运动 ,根据一定的匹配准则 ,在前一帧某一给定 搜索范围内找出与当前帧中每一块最相似的块 ,即匹配块 , 由匹配块与当前块的相对位置计算出运动位移 ,所得运动位 移即为当前块的运动量 。
ABSTRACT: The motion estimation for image sequence (M E IS) , which attemp ts to find the global or local motion of the image sequence, is a very important technique, and has been widely used in many domains of national economy. On the basis of the definition of M E IS, the M E IS algorithm s are categorized into four categories, namely the image block method, p ixel method, feature method and phase method. And, the basic ideas of main algorithm s in each cat2 egory are expatiated, the merits and defects of the algorithm s are compared. Then, the app lications ofM E IS , such as video coding, electronic image stabilization and image registration, are narrated. A t last, the future and p rogress trends of M E IS technique are analysed. KEYW O RD S:Motion estimation; Image sequence; A lgorithm