第1章图像处理与计算机视觉技术综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2
图象理解理论框架
1.2.1 马尔视觉计算理论
1.2.2 对马尔理论框架的改进 1.2.3 关于马尔重建理论的讨论
1.2.4 新理论框架的研究
1.2.1 马尔视觉计算理论
• • 马尔1982年出版了《视觉》一书 Marr D. 1982. Vision A Computational Investigation into the Human Representation and Processing of Visual Information. W.H. Freeman 一个理解视觉信息处理的框架 要先理解视觉目的再去理解其中细节
• 存储
– 数据量度单位
• • • • • 比特(bit),字节(byte = 8 bit) 千字节( K byte) 兆(106)字节(M byte) 吉(109)字节(G byte) 太(1012)字节(T byte)
– 图像信息量大
• 1024×1024,灰度图:1M字节(不压缩) • 1024×1024,真彩图:3M字节(不压缩)
1.2.1 马尔视觉计算理论
2. 视觉信息加工的三个要素 ① ① 计算理论;② 算法实现;③ 硬件实现
计算理论
可计算性问题:一个任务要用计算机完成,它应 该是可以被计算的 一般对于某个特定的问题,如果存在一个程 序,对于给定的输入,这个程序都能在有限步 内给出输出,这个问题就是可计算的
1.2.1 马尔视觉计算理论
• 图像处理主要是低级处理及部分中级处理
3.数字图像处理
– 低级处理:输入输出都是图像 – 中级处理:图像分割及目标的描述,输出是目 标的特征数据 – 高级处理:目标物体及相互关系的理解,输出 是更抽象的数据 – 低级处理及部分中级处理
• 如:文本识别(OCR):1,2,3,4步 1。获取图像 2。图像的预处理(如校正) 3。提 取字符(图像分割)4。字符的特征描述 5。。。
1.2.1 马尔视觉计算理论
视觉信息加工三要素的含义
要素 1 2 名称 含义和所解决的问题
计算理论 什么是计算目的,为什么要这样计算 表达和算 怎样实现计算理论,什么是输入输出表达 法 ,用什么算法实现表达间的转换
3
硬件实现 怎样在物理上实现表达和算法,什么是计 算结构的具体细节
1.2.1 马尔视觉计算理论
• •
1.2.1 马尔视觉计算理论
1. 视觉是一个复杂的信息加工过程 • 视觉是一个远比人所想象更为复杂的信息加 工任务和过程,而且其难度常不为人们所正视
• 为理解视觉这个复杂的过程,要解决两个问题
• 视觉信息的表达问题:某些信息是突出的和 明确的,另一些信息则是隐藏的和模糊的 • 视觉信息的加工问题:对信息处理、分析、 理解,将不同表达形式转换,逐步抽象
• 既表达了一部分物体轮廓的信息(这与基素表 达类似)表达了以观察者为中心、可观察到的 物体表面的取向信息
• 与人所理解的3-D物体一致(可见物体轮廓以内 目标的3-D信息,如边界、深度,反射特性等)
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) • 将2.5-D图转化成(相对)深度图 • 给定z(x, y)对x和y的偏导p和q,理论上讲可通过 在平面上沿任意曲线的积分来恢复z(x, y)
(a)
(b)
(c)
(d)
(e)
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) ① 将物体可见面正交 投影分解成单元表面
② 用法线代表单元表
面的取向 ③ 将各法线画出,叠加 于物体轮廓内可见面上
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) • 本征图,表示了物体表面面元的朝向 • 可将2.5-D图转化成(相对)深度图
2. 视觉信息加工的三个要素 • 它们之间有一定的逻辑因果联系,但并无绝对 的依赖关系 • 实际上看成两个层次更恰当
• 一旦有了计算理论,表达和算法与硬件实现是 互相影响的
计算理论
表达和算法
硬件实现
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达
(1) 基素表达(primal sketch) • • 一种2-D表达,它是图象特征的集合,描 述了物体上属性发生变化的轮廓部分 只用基素表达不能保证得到对场景的唯一解释
1.1.2 图像处理与计算机视觉的发展
1. 20世纪20年代:报纸业 – 图像的编码与重构技术
• Bartlane电缆图片传输系统:从伦敦到纽约传送一 幅图片从1周减少到3小时 • 色调质量和分辨率改善
1921年,电报打 印机,5个灰度级
1922年,穿孔纸 带,5个灰度级
1929年,15级灰度
2. 1964年:航天技术 – 图像增强和复原技术
• 采样:坐标离散化 • 量化:函数值的离散化
– 分类(根据 f 的性质)
• 灰度图像(特殊:二值图像) • 彩色图像
3.数字图像处理
– DIP(Digital Image Processing) – 广义:与图像相关的处理(图像分析、理解和 计算机视觉等) – 狭义(从输入和输出内容):对图像进行各种 加工,以改善图像的视觉效果或突出目标,强 调图像之间进行的变换,是一个从图像到图像 的过程 – 广义上分为三种类型:低、中、高级处理
• 图像实例
IKONOS卫星 光学图像
光学图像 Lenna
423mile 高 16000miles/h 1m分辨率 EP-3, 海南陵水,01-4-4
大脑断 层图像
遥感图像
2.数字图像
– 数字化:对 x,y 和 f 进行离散化 – 数字图像(Digital Image)
• 离散化了的图像
– 数字(离散)化过程
4. 80年代末到90年代:多媒体技术 – 高速计算机和大规模集成电路的发展:图像压 缩和多媒体技术;文本图像的分析和理解,文 字的识别取得重大的进展;图像通讯和传输的 广泛应用
1.1.3 图像处理与计算机视觉的系统构成
• 系统构成框图
• 采集
– 装置:两部分
(1) 传感器:能产生与所接受到的电磁能量成正 比的模拟电信号(CCD,CMOS) (2) 高速图像采集系统:它能将上述(模拟)电 信号转化为数字(离散)的形式
• 美国JPL(喷气推进)实验室处理卫星发射回来的 月球表面的照片 • 图像畸变的校正
3. 20世纪70年代:遥感卫星和医学 – 图像增强和图像识别
• 利用遥感图片,进行地质资源探测,农作物估产, 水文气象监测 等
– 图像wk.baidu.com构
• X光断层图像重构技术,英国G.N.Hounsfield 第一 台脑断层摄像仪应用
1图像处理与计算机视觉技术综述
• 主要参考书
– – – – 张广军,《机器视觉》 岗萨雷斯,《 数字图像处理 》 章毓晋《图像工程》 《计算机视觉——一种现代方法》 林学訚等译, 《机器视觉算法与应用》 杨少荣等译,
–
课程介绍
• 基础知识
– 数学:线性代数、概率与统计 – 计算机科学:软件编程 – 电子学:信号处理
4.图像处理与计算机视觉的区别与联系
• 图像处理主要集中在二维图像分析、识别和理解,如光学 字符识别、工件表面、显微图片和航空照片的分析和解释 等。 • 计算机视觉是采用图像处理、模式识别、人工智能技术相 结合的手段,着重于一幅或多幅图像的计算机分析,图像 可以由单个或多个传感器获取,也可以是单个传感器在不 同时刻获取的图像序列。分析是对目标物体的识别,确定 目标物体的位置和姿态,对三维景物进行符号描述和解释。 • 机器视觉:计算机视觉技术工程化,能够自动获取和分析 特定的图像,以控制相应的行为。 计算机视觉为机器视觉提供图像和景物分析的理论及 算法基础,机器视觉为计算机视觉的实现提供传感器模型、 系统构造和实现手段。
• 存储
– 图像存储器
(1) 处理过程中使用的快速存储器
计算机内存,帧缓存
(2) 较快的在线或联机存储器
磁盘,磁光盘
(3) 不经常使用的数据库(档案库)存储器
磁带,光盘,光盘塔
• 存储
– 格式(表示格式和文件格式)
(1) 矢量格式 用线段或线段的组合体来表示图像(WMF) (2) 光栅格式 用许多像素点的集合来表示图像 BMP格式,GIF格式,TIFF格式,JPEG 格式
主要学科
– 图像处理、计算机视觉和模式识别
计算机图形学
1.1
图像处理与计算机视觉的发展及系统构成
1.1.1 图像处理与计算机视觉的概念
1.图像(Image)
– 可以看作是对物体或场景的一种表现形式 – 抽象定义:二维函数f (x, y) • (x, y): 点的空间坐标(实数) Lenna • f : 点(x, y)的幅度(亮度、强度或灰度) – 英文单词 • Image:一般指用镜头等科技手段得到的视觉形象 • Picture:强调手工描绘的人物或景物画 • Drawings:人工绘制的工程图
基素图 表达图象中亮度变化位置、物体 零交叉、端点、边缘段、边界 轮廓的几何分布和组织结构 等
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达 • 从计算机或信息加工的角度来说,视觉可计算 性问题可分成几个步骤,步骤之间是某种表达 形式,而每个步骤都是把前后两种表达形式联
系起来的计算/加工方法
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达
名称 图象 目的 表达场景的辉度或物体的照度 象素(值) 基元
② 算法的确定常取决于所选的表达
1.2.1 马尔视觉计算理论
2. 视觉信息加工的三个要素 ③ 硬件实现 有了表达和算法在物理上如何实现算法也是 必不可少的 算法的确定常依赖于物理上实现算法硬件的 特点 同一个算法也可由不同的技术途径实现
1.2.1 马尔视觉计算理论
2. 视觉信息加工的三个要素
– 计算理论:如何由系统的输入求出输出。视觉系统输入的 是二维图像,输出则是三维物体的形状、位置和姿态,任 务是研究如何建立输入输出之间的关系和约束,如何由二 维灰度图像恢复物体的三维信息。 – 算法实现:如何表达输入和输出信息,如何实现计算理论 所对应的功能算法,以及如何由一种表示变换成另一种表 示。 – 硬件实现:用硬件实现上述表达和算法的问题。
– 设备
• 具备上述两种装置 • 如:数码相机,数码摄像机,扫描仪
• 处理
– 装置:两部分
(1) 专用图像处理系统:是计算机的辅助处理器, 主要采用专用集成芯片(ASIC)、数字信号处 理器(DSP)或者FPGA等设计的全硬件处理器。 (2) 计算机:是整个系统的核心,除了控制整个 系统的各个模块的正常运行外,还承担最后 结果运算和输出。
z ( x, y ) z ( x 0 , y 0 )
( x, y )
( pds qdy )
( x0 , y0 )
• 为最小化误差可选择z(x, y)满足
I ( z x p)2 ( z y q)2 dxdy
1.2.1 马尔视觉计算理论
3. 视觉信息的三级内部表达 (3) 3-D表达(3-D representation) • • • • 以物体为中心(即也包括了物体不可见部分)的表达形式 在以物体为中心的坐标系中描述3-D物体的形状及其空间 组织 ① 空间占有数组,② 单元分解,③ 几何模型 广义圆柱体表达方法
2. 视觉信息加工的三个要素 ① 计算理论 • 视觉问题是否可用现代计算机计算? • 对计算机给定输入,能否得到人类视觉可获 得的类似结果 • 两方面的研究内容:① 计算的是什么以及 为什么要计算它们;② 提出一定的约束条 件,它们可唯一地确定最终得到的运算结果
1.2.1 马尔视觉计算理论
2. 视觉信息加工的三个要素 ② 算法实现 需要给加工所操作的实体选择一种合适的表达 选择加工的输入和输出表达 确定完成表达转换的算法 ① ③ 一般情况下可以有许多可选的表达 给定一种表达,可有多种完成任务的算法
视觉重要?
• 古语
– 百闻不如一见 – 一目了然 – 眼见为实,耳听为虚。。。
• 人类信息的主要传递手段
– 视觉,听觉,味觉,触觉等 – 视觉占60%以上
• 人机交互
– 字符、图形 – 计算机接收信息手段单一(键盘,鼠标)
图像处理重要?
• 两大应用需求
– 对图像信息的改进
– 机器自动理解:使计算机具有视觉