计算机视觉

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机视觉进展
一. 立体视觉的概念
• 1. 计算机视觉的概念 • 2. 立体视觉的概念
1.计算机视觉的概念
• 什么是计算机视觉? • 模拟人眼接收客观世界中可见光信息,并由大脑解释 可视信息的过程,使用算法对真实图像或视频中的内 容给予有效的解释。
• 入口数据:图像、视频(可视信息) • 出口数据:对可视内容的某种解释(非可视信息)
–以密集的基元测量为基础,称为基于区域(areabased)的算法。这类算法的典型例子是利用小区域上 的相关技术 • 可得到较稠密的深度数据,数据的精度较差 • 适合于景物中的深度变化小的情形 –以在图象中相对比较稀少的、较为符号化的特征为基 础,称为基于特征(feature-based)的算法 • 只能得到较稀疏的深度数据 • 深度数据的精度较高 • 可用于深度变化大的景物
外极线--如果已知空间点在一个图象平面中的成象点要
寻找在另一图象平面中的对应点时,只需沿此图象平 面中的外极线搜索即可
图示系统中, 视差与光轴交角 有关。对于任一 光轴交角,在空 间中总存在一个 视差为零的表面。 比这一表面远的 物体,其视差大 于零;比这一表 面近的物体,其 视差小于零。这 三组视差可用于 解决匹配不确定 问题。
(即:摄象机模型、特征提取、特征匹配、视差和深度计算、 深度信息内插五部分)
上图是由两个摄象机得到的真实图象对。立体重建的关键 是特征点匹配,从左图中任取一点p1,计算机如何找到在右图中 与它的对应点p2。即匹配问题。
立体匹配
• 选取何种匹配基元进行匹配?

• 两种主要的方法 – 特征匹配 – 稠密匹配
极线几何
•基线:左右两像机光 心的连线; 极平面:空间点,两 像机光心决定的平面; 极点:基线与两摄像 机图像平面的交点; 极线:极平面与图像 平面的交线。
P P 极平面
l
P
r
p l
极线
p r
O
l
el 极点
e
r
O
r
外极线几何(Epipolar geometry)
外极线几何(Epipolar geometry)
• 距离和深度
–距离是指从观察者到物体的客观实际距离; –深度( depth )是指由观察者感觉到的主观距离, 通常是测量相对于定位点或某个空间点的距离。
• 立体视觉处理的组成:
–寻找在两幅图象中都便于区分的特征,或用于匹配 的基元(primitive) –把左、右两幅图象中的有关特征进行匹配,即解决 特征匹配的方法问题 –确定摄象机的相对几何位置和有关参数,即摄象机 的校准(Calibration) –根据视差计算成象物体相对摄象机的距离 –深度信息内插。
• 应用实例:
• • • • •
汽车牌照识别 车辆形状识别 人脸识别 拍摄场景中的人数统计 动态目标分割、定位、跟踪、行为分析
计算机视觉的三维感知
获取场景中各点相对于摄象机的距离是计算机视觉系统的重 要任务之一。场景中各点相对于摄象机的距离可用深度图来表示, 即深度图中的每一个象素值表示场景中某一点与摄象机之间的距 离。计算机视觉系统获取深度图的方法可分为两类: (1)被动测距传感 (2)主动测距传感 被动测距传感是指视觉系统接收来自场景发射或反射的光能 量,形成有关场景光能量分布函数(即灰度图象),然后在这些 图象的基础上恢复场景的深度信息。 主动测距传感是指视觉系统首先向场景发射能量,然后接收 场景对所发射能量的反射能量。 主动测距传感与被动测距传感的主要区别在于视觉系统是否 是通过增收自身发射的能量来测距。
特征匹配 VS 稠密匹配
• 特征匹配 (Feature match): – 速度快,匹配效率高; – 特征的提取可以到亚像素级别,精度较高; – 匹配元素为物体的几何特征,对照明变化不敏感; – 重建需要拟合。 • 稠密匹配 (Dense match): – 重建不需要拟合; – 速度慢,效率低; – 对于无纹理,纹理不明显的图像匹配效果不理想; – 对光强、对比度、照明条件敏感。
2. 图象特征 • 这种匹配基元较为符号化,它检测图象中包含丰富信 息的结构所在的位置,例如图象中的边缘,这些边缘 可能与景物中表面之间的边界相对应。与象素相比图 象特征数量较少 –(1) 卷积图象中的过零点。这种方法是由 Marr 和 Poggio, Marr和 Hildreth提出和发展的。它虽然也 可用于检测边缘,但是更确切说这种方法的目的是 检测稳定的、稠密的表面标志。按这种方法任何小 的影调变化或小的纹理变化只要稳定都是一个特征 –(2) 边缘。这种基元试图抽取景物中表面之间或不 同颜色区域之间的实际边界。这种匹配基元上还可 以带有如边缘方向、对比度、长度、边缘曲率等附 加信息
2、匹配基元的选择
• 搜索对应点时的多义性的解决
–1.在单幅图象作预处理时通过抽取图象局部结构较 为丰富的描述来减少错误对应的可能性 –2.在两幅图的对应点间作匹配时应用选择性规则来 限制搜索空间 • 匹配基元的类型
1. 在所有图象点上抽取的量测: 这类匹配基元一般是在每个象 素位置处都产生一个描述。这些特征表示图象中的局部结构 状态.属于这类的匹配基元有以下几种: (1) 象素灰度 (2) 局部区域的灰度函数。在各种大小窗口中求得的灰度分 布的导数可用于产生描述各点周围结构的矢量 (3) 卷积图象的符号. 把图象与各种大小的算子卷积后,图 象中各点的符号可作为原始图象特征的描述。
为什么需要两个眼睛?
• 物体的深度信息不能通过单眼所获得
为什么需要两个眼睛?
物体的深度信息 可以通过双眼的 观察得到。
1、工作原理
双目立体视 觉三维测量 是基于视差 原理
由上式可知,对于一组给定的摄象机参数, 提高场景点深度计算精度的有效途径是增长基 线距离T,即增大场景点对应的视差。同时也 带来一些问题,主要有: (1)随着基线距离的增加,两个摄象机的 共同可视范围减小; (2)场景点对应的视差值增大,则搜索对 应点的范围增大,出现多义性的机会也增大; (3)由于透视投影引起的变形导致两个摄 象机获取的两幅图象中不完全相同,这就给确 定共轭对带来了困难。
图7.3 两个视网膜上成象对应关系的多义性
体现约束条件的匹配规则
1. 对相似性测量的本质作出规定的规则
–(1) 区域的统计量 –(2) 边界的统计量 –(3) 点的统计量
2. 视差梯度限制规则
–(1) 排序约束 –(2) 视差梯度范围限制 –(3) 由粗到细的匹配规则
4、算法简介
• 立体视觉算法可分成两大类:
物体的外 轮廓线一般不 能作为匹配的 特征,如右图, 曲面上的外轮 廓线不是物体 表面法线方向 的不连续点, 而是曲面可见 部分与不可见 部分的分界线。 与视点有关。
3、匹配规则(matching rules)
• 约束条件---这些约束条件是根据对匹配环境 所作的假设产生的
1. 相容性(Compatibility)约束 – 如果两个匹配基元确实是由同一物理标记产生的, 那么它们就可以匹配起来
特征匹配
• 常用特征 边缘 线 (长度、方向、平均对比度) 角点 • 匹配算法 在立体图对中抽取特征 定义相似度 利用相似度和极线几何寻找匹配
对于左图像中的每一个特征在右图像中寻找… 当相似度 达到最大时的偏移量就是视差
左图像 角点 线
结构
右图像 角点 线
结构
稠密匹配
• 找到对应于场景中同一点的像素 • 通常假设 –经过立体校正 –分块平滑表面 –朗氏表面 • 目标: 找到视差图
–体视的处理是快速和实时的,并能很好地处理物体 运动的情况 –体视对深度信息检测的分辨率很高。
• 理想条件(孤立边缘)下能可靠地分辨小于 1 秒弧的视差。 这相当于在1米的观察距离上确定大约相距0.8毫米的两个 特征的相对深度,ቤተ መጻሕፍቲ ባይዱ在 50 厘米远处的0.2 毫米的相对深度 。
立体视觉是计算机视觉领域的一个重要课题,它的目的在 于重构场景的三维几何信息。立体视觉的研究具有重要的 应用价值,其应用包括移动机器人的自主导航系统,航空 及遥感测量,工业自动化系统等。 • 一般而言,立体视觉的研究有如下三类方法: (1) 直接利用测距器(如激光测距仪)获得程距(range data)信息,建立三维描述的方法; (2) 仅利用一幅图象所提供的信息推断三维形状的方 法; (3) 利用不同视点上的,也许是不同时间拍摄的,两幅 或更多幅图象提供的信息重构三维结构的方法。
• 局部算法 (Local/window-based algorithms): – 在匹配点的一个特定窗口中计算相似度。 – SSD, SAD, MSE, MAD,etc.
• 全局算法 (Global algorithms): – 能量方程: – 模拟退火(Simulated annealing), 动态规划 (Dynamic Programming), 最大流(Max-flow), 图像分割(graphcut), etc.
• 一种是基于光度学不变性的性质 • 另一种相似性的假设是根据几何学不变性
2. 唯一性约束
- 图象中的每个匹配基元最多只能有一个视差值
3. 连续性约束 -视差值的变化在图象中几乎处处平滑
4. 外极线约束
利用外极线约 束可以将二维搜索 问题变为一维搜索 问题。如图,空间 某一距离区间内的 一条直线段对应外 极线上的一个有限 区间。

第一类方法,也就是程距法 (range data method),根据已知的深度图, 用数值逼近的方法重建表面信息,根据模型建立场景中的物体描述,实现 图象理解功能。这是一种主动方式的立体视觉方法,其深度图是由测距器 (range finders)获得的,如结构光(structured light)、激光测距器(laser range finders) 等其他主动传感技术 (active sensing techniques)。这类方法适用于 严格控制下的环境(tightly controlled domains),如工业自动化的应用方面。 第二类方法,依据光学成象的透视原理及统计假设,根据场景中灰度 变化导出物体轮廓及表面,由影到形(shape from shading),从而推断场景 中的物体。线条图的理解就是这样的一个典型问题,曾经引起了普遍的重 视而成为计算机视觉研究领域的一个焦点,由此产生了各种各样的线条标 注法。这种方法的结果是定性的,不能确定位置等定量信息,该方法由于 受到单一图象所能提供信息的局限性,存在难以克服的困难。 第三类方法,利用多幅图象来恢复三维信息的方法,它是被动方式的。 根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流 (optical flow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两 幅图象,而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两 幅或更多幅图象。前者可以看作后者的一个特例,它们具有相同的几何构 形,研究方法具有共同点。双目立体视觉是它的一个特例。
• 外极面(Epipolar plans)
–所有通过二个摄像机光心的平面 –每个空间点有一个外极面
• 外极线 (Epipolar lines)
–外极面与图像的交线 –外极面上的空间点投影到每个图像平面中的外极线 上
• 外极点( Epipoles)
–每个图像中的外极线都通过该图像中的外极点 –外极点与另一个摄像机的光心的投影对应 –立体视觉摄像机的光轴平行时外极点在无穷远处
2D 和 3D 的关系
• 现实存在的问题 – 一般的物体(Objects)都是三维的; – 图像(Images)却是有关灰度,颜色等信息的阵列; – 3D的深度(Depth)信息在一幅图像上不能明显的显示出来。 • 2D的分析需要3D的信息 – 物体表面是连续,平滑(Smooth)的; – 物体都有特定的形状和边界。 • 3D的信息可以通过2D的图像计算出来 – 视差(Disparity),深度(Depth)信息等等。
2. 立体视觉
一、概述
• 立体视觉或双目立体视觉(Stereo或binocular Vision),
或简称为体视。体视是人类获取环境三维信息的主要途径。
• 人类视觉系统
–体视可经受各种干扰,
• 在各种光照条件和光度学及几何学畸变的条件下仍能可靠 地提供立体信息。体视可经受对比度的变化,在一幅图相 对于另一幅图有明显的模糊或扩展时,仍能工作良好。
相关文档
最新文档