计算机视觉

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

恢复场景的深度、表面法线方向、轮廓等有关场 景的2.5维信息,并在此基础上恢复物体的完整三 维图,建立物体三维描述.
根据机器预先存贮的模型知识以及形状、色彩等 特征,对于图像中各种物体进行识别,确定它们用 于哪一类物体.
建立各个图像中物体的拓扑关系图,给出图像所反 映景物的结构描述.
体系结构(system architecture),涉及一系列 相关的课题,并行结构、分层结构、信息流结构、 拓扑结构以及从设计到实现的途径.
(4.10,4.13) 计 I
(5 lectures) 单幅图像深度估 计 II
Week 8
运动估计深度I
(4.17,4.20)
(5 lectures) 运动估计深度II
W43e.e12k709
图立引像体言分视割觉深I 度估
((4(33.2lle4ec,cttu4urr.e2ess7))) 主计动轮廓线
零件识别与定位 产品检验 移动机器人导航 遥感图像分析 医学图像分析 安全鉴别、监视与跟踪 国防系统(目标自动识别ATR与目标跟踪) 其它(体育、考古、动画 )
Sojourner 火星车前部 图,中部的 两个小突出 是两个黑白 CCD摄像机
勇气号火星车
Rocky 7 火星车
CMU月球探测实验车Nomad漫游者
(a) pyramid blending (Burt and Adelson 1983) (b) shape from shading (Freeman and Adelson1991) (c) edge detection (Freeman and Adelson 1991) (d)physically based models (Terzopoulos and Witkin 1988) (e) regularization basedsurface reconstruction (Terzopoulos 1988) (f) range data acquisition and merging (Banno, Masuda, Oishi et al. 2008
知识导引: 同样的图像在不同的知识导引下,将会产生 不同的识别结果.
大量数据: 灰度图像,彩色图像,深度图像的信息量十 分巨大,巨大的数据量需要很大的存贮空间,同时不易实 现快速处理.
上世纪50年代,从统计模式识别开始,主要集中 在二维图像分析与识别,主要应用包括字符识别、 工件表面检测等等。
(a) image stitching: merging different views (Szeliski and Shum 1997) (b) exposure bracketing: merging different exposures; (c) morphing: blending between two photographs (Gomes, Darsa, Costa et al. 1999 (d) turning a collection of photographs into a 3D model (Sinha, Steedly, Szeliski et al. 2008)
We54e.k1311 劳三图动维像节重处放建理假I基I 础I ((5(33.8llee,ccttu5ur.r1ees1s))) 空域处理
(5 le54c.t35ures) 运目图动标像估识处计别理基I 础II ((22 lleeccttuurreess)) 频域处理
We4e5.k.18012
运目特动标征估识提计别取III
特征提取I
(3.20,3.23) 点特征
(5 lectures) 特征提取II 边缘及线特征
Week 5
图像分割I
(3.27,3.30) 主动轮廓线
(5 lectures) 图像分割II Mean shift
Week 6
图像对准
(4.3,4.8)
(5 lectures) 摄像机标定
Week 7
单幅图像深度估
中任选一个,实现并提交项目报告以及 源代码。
计算机 视觉
智能机器:能够模拟人类的功能,感知外部世界并 有效解决人所能解决问题的系统。
在人类的感知器官中,视觉获取的信息量最大,大 约80%,因此对于发展智能机器而言,赋予机器以 人类视觉功能是十分重要的。
计算机视觉:研究用计算机来模拟生物外显或宏观 视觉功能的技术学科。
中国科学技术大学 自动化系
课程教材:
使用教材: Richard Szeliski , Computer Vision: Algorithms and Applications,Springer,2010 参考教材:
David A. Forsyth, Jean Ponce著,计算机视觉(一种现 代方法),电子工业出版社 2004。
图像多义性: 三维场景被投影为二维图像,深度和不可 见部分的信息被丢失,因而会出现不同形状的三维物体投 影在图像平面上产生相同图像的问题.另外,在不同角度 获取同一物体的图像会有很大的差异.
环境因素影响:场景中的诸多因素,包括照明、物体形状、 表面颜色、摄像机以及空间关系变化都会对成像有影响.
绪论
(2.27,3.2)
(5 lectures) 视觉基本特性I 生物特性
Week 2
视觉基本特性II
(3.6,3.9) 物理特性
(5 lectures) 视觉基本特性III 几何特性
Week 3
图像处理基础I
(3.13,3.16) 空域处理
(5 lectures) 图像处理基础II 频域处理
Week 4
上世纪60年代,拓展到三维结构,对物体的形状, 物体的空间关系进行描述。通过对积木世界的研 究,引出了边缘、角点等特征提取,图像明暗、 纹理、运动以及成像几何等研究工作。
上世纪70年代,Marr计算视觉理论,建立一个 十分重要的理论框架。
(a) line labeling(Nalwa 1993), (b) pictorial structures (Fischler and Elschlager 1973) (c) articulated body model (Marr 1982) (d) intrinsic images Barrow and Tenenbaum 1981) (e) stereo correspondence (Marr 1982 (f) optical flow (Nagel and Enkelmann 1986)
硬件实现,就是具体的计算装置和一些细节配置
(a) factorization-based structure from motion (Tomasi and Kanade 1992), (b) dense stereo matching (Boykov, Veksler, and Zabih 2001), (c) multi-view reconstruction (Seitz and Dyer 1999) (d) face tracking (Matthews, Xiao, and Baker 2007), (e) image segmentation (Belongie, Fowlkes, Chung et al. 2002) (f) face recognition (Turk and Pentland 1991a).
(5(3.1l5e,ctu5r.1es8) ) 点特征
(5 le54c.1tu02res) 稠布特密置征运作提动业取估II 计 ((22 lleeccttuurreess)) 光边流缘及线特征
考 阅读报告:两人一组,从30篇计算机视 核 觉的经典文献中挑选一篇阅读,并提交 方 一份阅读报告及PPT。 式 项目报告:2-4人一组,从五个候选项目
(5 le43c.12tu92res) 图测视像距觉分成基割像本系I特I 统性I ((22 lleeccttuurreess)) M生e物an特s性hift
We43e.2k4710 图劳视像动觉对节基准放本假特性II (((353.l1leecc,ttuu5rr.ee4ss))) 物理特性
(5 le43c.2tu69res) 摄三视像维觉机重基标建本定I特性III ((22 lleeccttuurreess)) 几何特性
模式识别:模式一般指一类事物区别于其它事物所具 有的共同特征。
人工智能(AI):涉及到智能系统的设计和智能 计算的研究.在经过图像处理和图像特征提取过 程后,接下来要用人工智能方法对场景特征进行 表示,并分析和理解场景.人工智能有三个过程: 感知、认知和行动..
神经生理学与认知科学:将人类视觉作为主要的 研究对象.计算机视觉中已有的许多方法与人类 视觉极为相似.许多计算机视觉研究者对研究人 类视觉计算模型比研究计算机视觉系统更感兴趣, 希望计算机视觉更加自然化,更加接近生物视觉
图像处理:图像处理通常是把一幅图像变换成另ห้องสมุดไป่ตู้一 幅图像,也就是说,图像处理系统的输入是图像,输 出仍然是图像,信息恢复任务则留给人来完成
计算机图形学:通过几何基元,如线、圆和自由曲面, 来生成图像,它在可视化(Visualization)和虚拟 现实(Virtual Reality)中起着很重要的作用.计算 机视觉正好是解决相反的问题,即从图像中估计几何 基元和其它特征.因此,计算机图形学属于图像综合, 计算机视觉属于图像分析.
计算机视觉的任务是用图像创建或恢复现实世界模 型,然后认知现实世界。
具体来说,让计算机具有对周围世界的空间物体进 行传感、抽象、判断的能力,从而达到识别、理解 的目的。
分为三个阶段
◦ 特征提取和区域分割
基于轮廓,纹理,颜色…
◦ 建模与模式表达
基于各种物体的抽象化模 型
◦ 描述和理解
课程主页:
待定


设 置
课程设置:
计 算 机 视 觉
视觉基础 底层处理 中层处理
视觉基础理论: 神经生理学、认知科学; 色度学、光学; 射影几何、矩阵理论。
图像处理: 空域图像处理; 频域图像处理; 图像特征提取。
图像分割; 相机标定; 深度估计; 运动估计。
高层处理
三维重建; 目标识别。
Week 1
基于景物的结构知识

底层处理
中层处理 知

高层处理

输入设备(input device)的研制,包括成像设备和 数字化设备.成象设备是指通过光学摄像机或红 外、激光、超声、X射线对周围场景或物体进行 探测成象,得到关于场景或物体的二维或三维数 字化图像.
对输入的原始图像进行预处理.这一过程借用了 大量的图像处理技术和算法,如图像滤波、图像 增强、边缘检测等,以便从图像中抽取诸如角点、 边缘、线条、边界以及色彩等关于场景的基本特 征;这一过程还包含了各种图像变换(如校正)、 图像纹理检测、图像运动检测等.
Marr视觉计算理论——三种层次
计算理论,主要解决视觉系统的计算目的和策略 是什么?输入输出是什么?用什么策略根据系统 的输入求出输出?该层次的任务就是研究如何建 立输入输出之间的约束和关系。
表示和算法,解决输入输出信息如何来表示?如 何实现计算理论所对应的功能的算法?以及如何 由一种表示转换成另一种表示?
相关文档
最新文档