图像处理文献综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文献综述

近年来,随着计算机视觉技术的日益发展,图像处理作为该领域的关键方向受到越来越多研究人员的关注与思考。在现在的日常生活中,由于通信设备低廉的价格和便捷的操作,人们越来越喜欢用图像和视频来进行交流和分享,消费性的电子产品在消费者中已经非常普遍,例如移动手机和数码相机等等。在这个纷繁多变的世界,每天都有数以万计的图像产生,同时信息冗余问题也随之而来。尽管在一定的程度上,内存技术的增加和网络带宽的提高解决了图像的压缩和传输问题,但是智能的图像检索和有效的数据存储,以及图像内容的提取依然没有能很好的解决。

视觉注意机制可以被看做是人类对视觉信息的一个筛选过程,也就是说只有一小部分重要的信息能够被大脑进行处理。人类在观察一个场景时,他们往往会将他们的注意力集中在他们感兴趣的区域,例如拥有鲜艳的颜色,光滑的亮度,特殊的形状以及有趣的方位的区域。传统的图像处理方法是将整幅图像统一的处理,均匀的分配计算机资源;然而许多的视觉任务仅仅只关系图像中的一个或几个区域,统一的处理整幅图像很明显会浪费过多的计算机资源,减少处理的效率 [1,2]。因此,在计算机视觉领域,建立具有人类视觉系统独特数据筛选能力的数学模型显得至关重要。受高效的视觉信息处理机制的启发,计算机视觉领域的显著性检测应运而生。图像显著性检测是通过建立一定的数学模型,让计算机来模拟人类的视觉系统,使得计算机能够准确高效的定位到感兴趣的区域。

一般来说,一个信号的显著性可以表示为其和周围环境的差异性。正是因为这个信号和周围的其他信号的迥异性,使得视觉系统不需要对环境中的所有感兴趣的区域进行逐个的扫描,显著的目标会自动从环境中凸显出来。另外,一些心理学研究表明人类的视觉机制不仅仅是由低级的视觉信号来驱动的,基于记忆、经验等的先验知识同样能够决定场景中的不同信号的显著性,而这些先验知识往往是和一些高层次的事件以及视觉任务联系在一起的。基于当前场景的视觉显著性机制是低级的,慢速的。而基于先验知识的显著性机制通常是和高层次的任务关联在一起的,其效率通常低于由视觉信号驱动的显著性机制。人眼视觉系统通过显著性原理来处理复杂的视觉感知是不争的事实,这种显著性的处理机制使得复杂背景下的目标检测、识别有了很大程度的提升。

在模式识别、计算机视觉等领域,越来越多的计算机工作者致力于开发显著性计算模型,用以简单的表达图像的主要信息。这些显著性模型的检测结果是一个显著性灰度图,其每个像素点的灰度值表示了该像素的显著性,灰度值越大,表明该像素越显著。从信息处理的方式看,显著性模型大致可以分为两类:自顶向下(任务驱动)和自底向上(数据驱动)的方法。

自顶向下的显著性检测方法之所以是任务驱动,这是因为该类模型通常是和某一特定的任务相关。在同样的场景或模式下,检测到的结果因任务的不同而不同是自顶向下模型最突出的特点。例如在目标检测中,检测者需要首先告诉需要检测的目标是什么,检测到的显著性图则表示目标可能出现的位置。自顶向下的显著性检测方法的依据是:如果研究者事先知道需要检测目标的颜色、形状或者方向等特征,那么该检测算法自然会高效的检测到需要检测的目标。因此,自顶向下的算法通常需要人工标记,或是从大量的包含某种特定目标的图像中学习该类目标的特征信息,这些学习方法一般是监督的;然后求测试图像对于训练学习得到的信息的响应,从而得到测试图像的显著性图。现存的一些自顶向下的算法在某些特定的目标上取得了一定的效果,不过这些算法往往只对某些特定的目标有效,对于复杂多变的自然图像,该类算法存在很大的缺陷。自顶向下的模型是慢速的、任务驱动的,有意识的,以及封闭回路的。由于自顶向下模型的特点,其应用受到了很大的限制。

相对于自顶向下的显著性模型,自底向上的模型检测到的显著性图是依据当前的图像和图像的低级特征得到的,和特定的任务没有任何的相关性,因此更具一般性,目前也是研究者们研究的重点。由于是由低级视觉信号驱动的,自底向上模型被认为是一种无意识的视觉处理过程,它和记忆没有任何的关系,信号显著性仅仅由当前的视觉信号本身所决定。在自底向上模型中,吸引我们注意的感兴趣区域一定和周围的环境有着极大的差别。因此,自底向上模型通常采用中央-周围对比算法来模拟图像显著性,该方法通过计算某一像素或区域相对于周围领域的对比度来模拟其相应的显著性。此外,一些研究者通过采用活动窗口的领域方法来提高定位目标的准确性。另一种常用的自底向上的显著性方法是信息最大化法,该方法通过心理学的研究,认为人类往往将注意力放在图像中信息量最大的位置——例如图像中央区域,从而进行有效的分析。自底向上注意模型是快速的、无意识的,以及大多数是前向反馈的。自底向上的图像显著性估计算法适用于对图像目标的模式或位置没有任何信息的情况。

经过多年的研究,显著性检测已经应用于计算机视觉的许多方向。如感兴趣区域检测[3]、目标定位 [4]、图像分类[5]、图像或视频分割 [6] 图像或视频压缩 [7,8] 等等。例如在文献 [9] 中,N.Ouerhani等人将显著性检测应用到图像压缩这个新的领域中,其目的是将图像中的显著性部分在解压缩的过程中拥有更好的重建质量。随后,Itti等人 [8] 提出了一种新的基于显著性的图像压缩方法,该方法对视频序列的每帧都进行显著性检测,将距离显著性区域较远的地方做模糊处理,这样就能使得显著性区域大部分保证不变,而其他区域进行高质量的压缩。R Miau和L. Itti [10] 为进行目标识别,将显著性检测作为其预处理操作,然后使用生物动力系统HMAX [11] 来进行目标的识别。Salah等人 [12] 将显著性检测和人工神经网络结合起来,用于识别人脸是手写数字。在文献 [13] 中,N.Ouerhani 等人将显著性检测用于交通标志的识别。图像分割是将图像中的前景物体提取出来的一种技术,传统的图像分割需要人工给予交互信息,在文献 [14] 中,N. Ouerhani等人利用显著性检测作为人工交互信息,实现了对图像的自动分割。正是由于显著性检测的诸多重要的应用,使得大量的研究人员将极大的热情投入到显著性检测的研究中来。

近年来,自底向上和自顶向下显著性模型取得了很大的发展,研究者们用不同的数学模型、思想来让计算机模拟人类视觉系统,下面就分别介绍关于自顶向下和自底向上模型的发展:

自底向上的显著性检测方法:

早期C.Koch等人通过研究人类视觉自底向上阶段的机制,提出了人类视觉显著性机理,希望模拟人类的视觉特点,计算出人类感兴趣的区域。这是非常有影响力的生物启发模型,但该模型仅仅停留在理论阶段,并没有通过计算机实现。

Itti等人的基本模型 [15] 利用三个特征通道来模拟显著性。他们首先将图像用不同尺度上的的颜色、强度和方向这三个属性来表征,然后利用中心-周围算法对每个特征进行处理得到多个特征图,最后,将这些特征图经过线性迭加后得到最终的显著性图。这个模型是显著性检测方面的一个里程碑,之后的大部分模型都以其为基准。该模型也是第一次完整的实现C.Koch等人提出的显著性生物启发系统。

Bruce等人 [16] 根据香农的自信息理论,提出了AIM(Attention based on Information Maximization)模型,研究了人眼注视行为和信息量的显著性之间的关系。他们首先基于大量的自然图像的图像块,利用独立分量分析(ICA)算法从中学习出一系列的滤波器,然后将测试图像和滤波器进行卷积,得到测试图像一系列的特征,最后根据图像对滤波器的响应计算自信息得到最终的显著性图。

相关文档
最新文档