计算机视觉的现状与发展前景
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机视觉的现状与发展前景
二十年前,计算机的出现使工作场所出现革命化发展。直到现在,约75%的办公室工作通过计算机和互联网来实现。1990年,大约15%美国家庭拥有了一台计算机,现在增加到70%。计算机视觉(Computer v|si0n)一词最早出现在P.H.Westonl 975 年的论文中。计算机视觉是以视觉处理理论为中心,属于人工智能范畴的一个新领域。它也是以图像处理、模式识别、计算机技术和生理学心理学为基础的信息处理科学中的一个重要分支。计算机视觉技术集数字图像处理、数字信号处理、光学、物理学、几何学、应用数学、模式识别及人工智能等知识于一体,其应用已经涉及到计算几何、计算机图形学、图像处理、机器人学等领域。计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉研究的目标有两个:一个是开发从输入的图像数据自动构造场景描述的图像理解系统,另一个是理解人类视觉,以便有朝一日用机器代替人去作人类难以达到或根本无法达到的工作。当前,计算机视觉也是人工智能及机器人科学中颇为活跃的和卓有成效的热门研究课题。
视觉理解是计算机视觉系统的一个重要处理环节,当前,具有视党反馈功能的机器人已能代替人完成各种复杂的任务,如:产品的自动装配、焊接和检验、生物医学中的自动诊断、遥感照片的自动解释、各种车辆的自动导航等。这种赋予机器以类似人的视觉信息处理能力并为人类自身服务的美好愿望在一定范围或特定任务下已部分地成为现实。今天,计算机视觉的应用已渗透到机器人、天文、地理、医学、化学、物理等宏观及微观世界的各个研究领域。有人预言,计算机视觉是实现智能机器人和第五代计算机的关键因素之一。
计算机视觉是一个复杂的处理过程,景物理解及景物分析是其处理要点之一。用机器实现景物理解必须将输入的图像和预先存入的有关物体结构和环境约束知识进行交互作用,建立明确而有意义的描述理解。这种过程可归结为从一幅图像中提取景物信息,完成某些计算,在不同阶段的理解过程引入相关的先验知识,从而完成理解处理。类似的工作实际上早在50年代就已经开始了。目前,三维物体及景物分析工作的重点在三维物体与自然景物的识Ⅱ与分析上。80年代,在计算机视觉研究中占主导地位的是Mart教授提出的视觉计算理论框架,在这种框架下,Marr认为视觉可看做是三个层次的信息处理过程,而且要从计算理论、算法描述及硬件实现三个方面去实现三个层次的工作。三维物体识别研究自Mart教授创立视觉计算理论后取得了重大进展。这一理论的要点在于把视觉看成一个过程,它从外部世界的图像逐步产生对景物的三个层次的描述,即:
a)初始简图——这是基本意义的灰度变动的局部几何性质,以线条勾画出的草图形式出现
b)二维半简图——该图主要描述物体可视面的表面方向和观察点到表面的距离}
c)三维模型表示——这是物体形状的全部而清晰的描述。有人认为,Marr教授的视觉计算理论是肘计算机视觉研究的最杰出的贡献。
90年代,Rosenfeld认为应重视三个方面的工作,一是计算的鲁棒性问题,二是主动视觉(active vision)的研究,三是定性视觉的研究(qualitative vision)。有人把视觉定义为“根据tob_id_4068获得的图像理解景物信息的处理过程,而计算机视觉主要是利用计算机提供的手段和方法去完成这一信息处理过程。具体包括:视觉信息的获取图像预处理、分割、描述、识别理解等几步工作。1965年,L.Roberts关于“三维物体的感知”一文提出了几种获取三维信息的基本方法。这些基本方法至今还被计算机视觉研究领域普遍采用。目前,获取视觉信息的主要方法有主动法和被动法两大类,主动法需要对测试物体加入特殊的人造
光源其中包括:三角光法、结构光法和飞行时间法。三角光法类似三角测量法,此法需逐点测量,费时较多。结构光法是把已知结构的图像投影到被渊物体表面,由于该物体表面的取向不同,标准图案会产生畸变,利用这畸变可算出物体表面的三维坐标。标准图像一般用细线、方格等。这种方法最早由日本学者Y.Shirai提出,具体做法可采用激光扫描或投影仪来实现。飞行时间测距法是以雷达原理为基础的方法。这种方法可直接测得物体表面距离而获得三维信息,它不涉及图像处理问题。具体实现可采用激光雷达或超声雷达,超声雷达的缺点是聚焦比较困难,但是处理方法比较简单。
被动法是在自然光条件下获得三维信息的方法。其中包括:体视法、阴影恢复形状法、由运动恢复形状法、纹理恢复形状和灰度体视法等。体视法与人的视觉原理有许多相似之处,由不同位置上的摄像机获取两幅(或多幅)图像,根据三角测量原理,利用立体图像中的对应点的视差计算出景物的三维信息。因此,两幅图像的匹配是体视法的关键。早期的匹配主要基于区域的灰度相关计算,现代方法则侧重于特征匹配。因而,只能获得稀疏的特征信息,要用各种内插法获取整幅图像的三维信息。体视法体现了Marr教授的理论精髓。形状分析法是根据图像中灰度阴影分布、物体的运动、纹理结构等信息分析计算景物的三维信息。运动序列图像分析法是依靠物体或摄像机运动时得到多幅序列图像,通过对三维运动参数的计算分析获取三维信息。此方法基本属于形状分析法,它在计算机视觉研究中较受重视,已成为一个重要分支。总之,三维信息获取是计算机视觉研究的基础,也是目前非常活跃的课题之一。无论在理论上还是实践上都有举足轻重的作用三维信息获取中的重要环节——三维定标系统研究也是极受重视的课题。为提高定标的精度曾做了大量的研究工作,并提出了不少算法。在摄影测量严密解析法研究中Faig口、Browm Ezs]Sobel[2 分别提出了不同的待定参数的算法。
计算机视觉信息的处理技术主要依赖于图像处理方法,它包括图像增强、数据编码和传输、平滑、边缘锐化、分割、特征抽取、图像识别与理解等内容。经过这些处理后。输出图像的质量得到相当程度的改善,既改善了图像的视觉效果.又便于计算机对图像进行分析、处理和识别。以下便是一些关键技术要点:
a)数据驱动的分割:
b)常见的数据驱动分割包括基于边缘检测的分割,基于区域的分割,边缘与区域结合的分割等。对于基于边缘检测的分割,其基本思想是先检测图像中的边缘点,再按一定方法连接成模块,从而构成分割区域。基于区域分割的基本思想是根据图像数据的特征将图像空间划分成不同的区域。常用的特征包括:直接来源原始图像的灰度或彩色特征:由原始灰度或彩色值变换得到的特征。
b)模型驱动的分割:
常见的模型驱动分割包括基于动态轮廓模型,组合优化模型,目标几何与统计模型。Snakes 模型用于描述分割目标的动态轮廓。由于其能量函数采用的积分运算,具有较好的抗噪声性,对目标的局部模糊也不敏感,因而适用性广。但这种分割方法易局部最优,因此要求初始轮廓应尽可能靠近真实的轮廓。
c)图像的增强:
图像的增强用于调整图像的对比度.突出图像中的重要细节.改善视觉质量。通常采用灰度直方图修改技术进行图像增强图像的灰度直方图是表示一幅图像灰度分布情况的统计特性图表。与对比度紧密相连。如果获得一幅图像的直方图效果不理想.可以通过直方图均衡化处理技术作适当修改,即把一幅已知灰度概率分布图像中的像素灰度作某种映射变换.使它变成一幅具有均匀灰度概率分布的新图像现使图像清晰的目的
d)图像平滑:
图像的平滑处理技术即图像的去噪声处理.主要是为了去除实际成像过程中,因成像