(完整版)计算机视觉基础

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 无旋转 • 相机坐标(0,0,0)
x KI 0 X
u
wv
0
s
u0 v0
x
0 0
y z
1
0
0
1
0
1
53
允许相机移动
内部假设:
外部假设:
• 无旋转
x KI t X
u
wv
0
0
u0 1
v0
0
0 1
0 0
x
t t
x y
y z
1
0
0
1 0
0
1
tz
1
54
点的三维旋转
围绕坐标轴的逆时针旋转:
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 0 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
计算机视觉基础
目录
1. 概述 2. 成像模型 3. 图像滤波 4. 边缘检测 5. 特征检测与识别 6. 光流 7. 迹线几何与立体视觉 8. Structure from Motion 9. 大数据驱动的视觉计算
2
1. 概述
3
相关研究领域
计算机图形学:模型 → 图像
4
相关研究领域
计算摄影学:图像 → 图像
投影矩阵
内部假设: • 单位宽高比
• 光心坐标(0,0) • 无倾斜
x KI 0 X
50
外部假设:
• 无旋转
• 相机坐标(0,0,0)
K
x
u f
wv
0
0 f
0 0
0 0
y z
1
0
0
1
01
移除“已知光心”的假设
内部假设:
• 单位宽高比
• 无倾斜
外部假设:
• 无旋转 • 相机坐标(0,0,0)
p’
y
p
z
55
1
Rx ( ) 0
0
0
cos sin
0
sin
cos
cos 0 sin
Ry
(
)
0
1
0
sin 0 cos
cos sin 0
Rz ( ) sin cos 0
0
0 1
允许相机旋转
x KR t X
u
wv
0
s
u0 r11
v0
r21
r12 r22
r13 r23
3. 图像滤波
64
图像滤波
空间域图像滤波
直接对像素进行操作 平滑化、锐化
频率域图像滤波
修改图像的频率 去噪、采样、图像压缩
模板和图像金字塔
将模板匹配到图像 检测、粗糙到精细
65
Image filtering
图像滤波:计算每个位置处局部邻域的函数值
滤波很重要!
图像增强
去噪、调整大小、对比度增强,等等
0
0
0
0 90 0 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 10
h[m,n] g[k,l] f [m k,n l]
69
k ,l
f [.,.]
111
g[ , ] 1 1 1
111
h[.,.]
0
0பைடு நூலகம்
0
0
0
0
0
0 10 20
h[m,n] g[k,l] f [m k,n l]
70
k ,l
f [.,.]
111
g[ , ] 1 1 1
111
h[.,.]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
21
计算机视觉的应用: Google汽车
22
计算机视觉的应用:太空视觉
NASA的火星探索计划:2007年精神号漫游车
视觉系统的几项任务:
• 全景图缝合 • 三维地形建模 • 障碍检测,位置跟踪 • 其他 (参阅 Matthies等人的“Computer Vision on Mars” )
23
计算机视觉的应用:工业机器人
计算机视觉的应用:OCR
将扫描文档转换成文本的技术
• 若你有一台扫描仪,则它很可能带有OCR软件
数字识别, AT&T实验室
http://www.research.att.com/~yann/
10
车牌识别
http://en.wikipedia.org/wiki/Automatic_number_plate_recognition
UNC Chapel Hill的暗室
Photo by Seth Ilys
第一张照片
现存的最老照片
– 花了8小时在锡盘上成像
第一张照片的照片
Joseph Niepce, 1826
33
保存在UT Austin
维度降低的机器(3D到2D)
3D世界
2D图像
Point of observation
34
投影的欺骗性 …
LaneHawk by EvolutionRobotics “A smart camera is flush-mounted in the checkout lane, continuously watching for items. When an item is detected and recognized, the cashier verifies the quantity of items that were found under the basket, and continues to close the transaction. The item can remain under the basket, and with LaneHawk,you are assured to get paid for it… “
14
计算机视觉的应用:基于视觉的生物测量
12岁
30岁
15
计算机视觉的应用:无密码登录
笔记本电脑和其他设备 上的指纹扫描仪
16
人脸识别系统
计算机视觉的应用:物体识别(手机上)
17
计算机视觉的应用:特效--形状捕获
黑客帝国
18
计算机视觉的应用:特效--运动捕获
加勒比海盗
19
计算机视觉的应用:体育
x KI 0 X
x
u f
wv
0
0 f
u0 v0
0 0
y z
1
0
0
1
01
51
移除“正方形像素”假设
内部假设:
• 无倾斜
外部假设:
• 无旋转 • 相机坐标(0,0,0)
x KI 0 X
u
wv
0
0
u0 v0
x
0 0
y z
1 0 0 1 01
52
移除“无倾斜”的假设
内部假设:
外部假设:
0
0
0
0 90 0 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 10 20 30
h[m,n] g[k,l] f [m k,n l]
71
k ,l
f [.,.]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 90 90 90 90 0
28
图像形成
设计一个相机: 思路1: 将底片放在物体前方
我们能得到一幅合适的照片吗?
29
针孔相机
思路2: 增加一个障碍物阻止大多数的光线
– 减少模糊 – 光圈控制光线量
30
针孔相机
f
c
f = 焦距 c = 相机中心
31
暗箱: 相机前身
中国(公元前470年)和希腊(公元前390年)
暗箱
32
1966: Minsky给本科生布置了一个计算 机视觉的暑假作业
1960’s: 合成的虚拟世界的理解 1970’s: 图像理解方面的进步 1980’s: 几何和精度 1990’s: 人脸识别; 统计分析开始流行 2000’s: 更多的识别; 大规模标记数据
集可用; 开始视频处理
9
Guzman ‘68 Ohta Kanade ‘78 Turk and Pentland ‘91
x
tx ty
y z
1
0
0
1 r31 r32
r33
t
z
1
56
自由度
x KR t X
5
6
u
wv
0
s
u0 r11
v0
r21
r12 r22
r13 r23
x
tx ty
y z
1
0
0
1 r31 r32
r33
t
z
1
57
正射投影
透视投影的特例
正交投影的中心到图像平面的距离为无穷大
5
计算机视觉
图像 → 模型 让计算机“看懂”图像和视频
这是何种场景? 汽车在哪里? 建筑物有多远? …
6
视觉
视觉是自然智能不可思议的技艺
猕猴的大脑皮层中视觉部分占据大约50% 人脑中有关视觉的部分所占比重最大
这是皇后还 是象?
7
计算机视觉为什么重要?
安全
健康
监控
家务
8
娱乐
进入
计算机视觉简史
0
0
0
0 90 90 90 90 90 0
0
00
00
00 9900 00 9900 9900 9900 00
00
00
00
00 9900 9900 9900 9900 9900 00
00
00
00
00
00
00
00
00
00
00
00
00
00 9900 00
00
00
00
00
00
00
00
00
00
00
00
00
00
垂直消逝点(无穷远处)
消逝线
消逝点
42
消逝点
消逝点和消逝线
43
投影:世界坐标图像坐标
Optical
Center
.(u0, v0) f
.
Z
v
.u
p
u v
Camera Center (tx, ty, tz)
. X
P
Y
Z
Y
44
齐次坐标
变换
转换到齐次坐标:
齐次图像坐标
由齐次坐标转换回来:
齐次场景坐标
00
00
00
h[m,n] g[k,l] f [m k,n l]
68
k ,l
f [.,.]
111
g[ , ] 1 1 1
111
h[.,.]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
从图像中提取信息
纹理、边缘、特征点,等等
检测模式
模板匹配
66
例:箱式滤波器
g[ , ]
111 111 111
67
f [.,.]
111
g[ , ] 1 1 1
111
h[.,.]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
视觉引导的机器人给汽车上定位螺母
24
计算机视觉的应用:机器人
NASA的火星漫游车
25
机器人足球赛 斯坦福生活机器人(洗碗)
计算机视觉的应用:医学成像
3D核磁共振、CT
26
手术导航
2. 成像模型
27
计算机视觉的相关研究领域
计算机图形学:模型 -> 图像 计算摄影学:图像 -> 图像 计算机视觉:图像 -> 模型
Sportvision first down line Nice explanation on www.howstuffworks.com
http://www.sportvision.com/video.html
20
计算机视觉的应用:智能汽车
Mobileye
汽车上的视觉系统,如BMW、GM、Volvo等
Image
World
也称作“平行投影” 其投影矩阵是什么?
59
x
u 1 wv 0
0 1
0 0
0 0
y z
1
0
0
0
11
比例缩放的正射投影
透视投影的特例
物体面积相对于到相机的距离来说很小
Image
World
也称为“弱透视” 其投影矩阵是什么?
60
x
u f
wv
0
0 f
0 0
0 0
y z
1
0
0
0
s
1
Slide by Steve Seitz
视场(缩放)
61
假设有两个三维的立方盒子放在地上,面朝观察者, 一个近,一个远
1. 透视图中它们看起来是什么样子? 2. 在弱透视中它们看起来又是什么样子?
62
针孔相机之外: 径向失真
无失真 桶形失真 枕形失真
63
桶形失真校正
计算机视觉的应用:人脸检测
目前许多数码相机都能检测人脸
Canon, Sony, Fuji, …
11
计算机视觉的应用:笑脸检测
Sony Cyber-shot® T70 Digital Still Camera
12
计算机视觉的应用:由成千上万的图像重建三维
13
计算机视觉的应用:物体识别 (超市中)
0
0
0
0 90 90 90 90 90 0
0
0
0
0 90 90 90 90 90 0
35
射影几何
丢失了什么?
长度
谁更高?
哪个球更近些?
36
长度没有被保留
37
A’ C’
B’
射影几何
丢失了什么?
长度
角度
平行?
垂直?
38
射影几何
什么被保留?
直线依然是直线
39
消逝点和消逝线
物理世界中的平行线在图像中相交于“消逝点”
40
消逝点和消逝线
消逝线
消逝点1 o
消逝点2
o
41
消逝点和消逝线
45
齐次坐标
齐次坐标是缩放不变量
k
x
y
w
kx
k
y
k w
kx kw ky kw
x w y w
齐次坐标
笛卡尔坐标
笛卡尔坐标中的点在齐次坐标中是一条射线
46
投影矩阵(针孔相机模型)
R,T
jw
kw Ow iw
x KR
49
t X
x: 图像坐标 (u,v,1) K: 内部矩阵 (3x3) R: 旋转矩阵 (3x3) t: 平移量 (3x1) X: 世界坐标 (X,Y,Z,1)
相关文档
最新文档