视觉感兴趣区域的算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

定义视觉感兴趣区域的算法:眼球注视点的比较

Claudio M.Privitera and Lawrence W. Stark, Fellow, IEEE

摘要-很多机器视觉应用,如压缩,图案数据库查询,以及图像理解,经常需要用来详细分析图像中的一个代表子集, 它可能会被排列成一组被称作视觉感兴趣区域(ROIs)的位点。我们已经研究和开发了一种方法,其用于自动识别aROls这样的子集(根据算法检测的ROI),使用不同的图像处理算法,IPAs,和适当的聚类过程。在人类感知,一个内在的表现指示着自上而下,上下文相关的眼球运动序列,以注视hROls的相似的序列(人识别的ROI).在这篇论文中,我们引进我们自己的方法并且我们用aROLs比较hROLs 来作为一个评估和选择自下而上的算法的标准。最后,一个应用程序会被论述。

关键词:眼球运动,扫描途径理论,感兴趣的认同和比较区域

1 引言

眼球运动是人类视觉的重要组成部分因为它们必须使用视网膜中的小凹,最终,视觉注意到的图像的每个部分,会被固定,并与高分辨率处理。平均每秒三眼的注视一般发生在积极寻找之中;这些快速的眼跳会穿插在眼睛注视之中,被称为扫视,在此期间,视力被抑制。只有一小部分的眼睛注视(hROIs,人体检测的感兴趣区域)会被经常被大脑需要去做识别一个复杂的视觉输入(图1,上图)。我们一直在研究和界定一个这种基于数字图像智能处理的复杂的认知机制的计算模型。

图像处理算法,IPAs,通常被用来检测和定位在数字图像分析的特定特征,例如,空间频率,纹理构象,或对视觉刺激的位点的其它信息的值。应用一个IPA到图像意味着改变这种图像变为定义相应的算法特征像素值的新范围。变换的图像的局部最大值代表位点,其中该特定的特征是特别突出的,他们可以被用作基础或识别aROIs,被算法检测的感兴趣区域。许多局部最大值可以由图像变换来生成:因此,一个聚类过程是必需的,以减少在初始的大的局部最大值变成aROIs(图1,下图)的一个最后的小的子集。

aROIs和hROIs可以通过对其空间位置或结构性结合的分析,以及时间次序或顺序性结合的分析来互相比较。这些比较的结果衡量的IPA的能力,和它的集聚过程一起来预测hROIs。因此,我们的目标和我们的措施定量是明确的。首要的问题是,IPAs是否能像人类连续瞥眼那样对待一张图片。

在第2节中,以获得眼睛运动数据为目的的实验方案会被进行了详细讨论。第3节是专门定义一系列的IPAs的。在第4节中,聚类和排序问题会被讨论。用于比较hROIs和aROIs 计算和统计平台会在第5节被介绍。在第6节我们讨论自上而下的视野和人类扫描途径。在第7节,比较的结果会被讨论,而最后在第八节,我们会展示一个应用。

2 刺激的表现形式以及眼部移动的测试

计算机控制实验展示图片并且仔细测量使用摄像机来观察眼球运动[21]。红外源光被投射向被检体的眼睛,在角膜上产生一个明亮的浦肯野反射,这种反射是很容易被一个视频摄像机和眼睛跟踪服务器来跟踪的。受试者被指示观看有眼睛跟踪功能的计算机屏幕上的视觉刺激(对于之前和之后的数据采集的持续时间4秒,加长校正周期)。受试者坐在在屏幕的前面,他的头固定到一个固定下巴的结构。观看距离是从计算机屏幕到受试者约40厘米;刺激大小是平均为15厘米×20厘米,约21×29度的对向视角,并且眼点位置记录系统的

所得准确性是以视觉角度1度的量级的一半。

一个固定的分析算法被应用到眼球移动的数据,从眼睛注视的位置来分别快速地进行跳跃扫视(图1,右上面板,正方形,注意眼球运动采样,左上面板)。

在眼动实验中使用的七个科目。15种不同的图像被使用,包括地形照片,风景,和绘画。我们还使用了一些视觉刺激,对图像的修改,如浮雕效果或二进制阈值。我们不会给出具体的说明。所有受试者以前都看过每个画面至少一次。不熟悉观看的影像可能会影响眼球运动模式[26],它可能相应让部分受试者的实验结果产生偏差。由于所有的观察者有一定程度地熟悉图片,而且因为没有提供任何具体的任务,我们相信每一个观察者都会用直观和自然的内在认知模型来看图片。(第6部分)

每个受试者被要求重复在几天之内的实验,共4次观看次数,用时超过大约两个星期。通过比较不同的观看会议,我们可以研究每个受试者看着特定的视觉刺激的方式的一致性,并且我们用算法来比较一致的结果。在每个实验运行过程中,图像的完整序列,每次但顺序不同,都被显示给受试者看。

3 用于识别aROIS图像处理算法(IPAS)

一个通用的图象的信息内容能够通过用不同的图像参数被抽取,进而,可以被相关的IPAs 识别。在这个意义上说,应用算法到一个图像是在把该图像分配成到不同的域,在那里,对于每个域,都有一组特定的参数被提取。这些参数可能与人类视觉的重要特征的注意有关。在我们的研究中,只有来自经处理的图像中的每个域的局部极大值的的位点被保留;这些最大值然后聚集以得到aROIs的一个固定数量。

3.1 算法一览

1.X,一个7×7个像素,沿两条对角线正和负别处的X状掩模,被图像卷积。我们还使用不同的高曲率掩模卷积,例如,“<”状掩模,其定义是直观的(见,例如,[14])。一定数量的7×7像素的变量,在我们的实验中,以0.3×0.3,度×度的视角来相对应(如观察者距离的视觉刺激的函数)。这个数量是被凭经验选择的,基于初步研究和其他一些因素,如更方便地计算。

2. S,对称性,一个结构的方法,似乎是一个非常突出的空间关系(参见,例如,[9])。对于每个像素x,y的图像,我们定义一个局部对称性大小的量度S(X,Y)如下:(l)

其中是点(x,y)的半径7的附近,沿水平和垂直轴定义。

被下列的等式定义:

(2)

第一个因子, , 是一个固定的高斯变量, 像素,而且d(·) 代表着距离函数。

第二个因子表示一个对称性的简化概念: 对应于这两像素的灰度强度的倾斜角的角度.该因子当两个点的梯度定向在同一方向上时达到最大值。高斯表示距离权重函数,它引入了对称性评价的定位。因此,我们对于对称性的定义是基于绕中心点的梯度的方向的[18]。同时,替代地,轴向二次力矩归一化可被用于计算对称变换[6]。

W,离散小波变换,是用一个金字塔形算法分割图像谱成含低点水平/垂直低点(LH),水平低点四个空间频段/垂直高位(LH),水平高点/低点垂直(H,L),和水平高点/垂直高点(H,H)。这是通过使用一对共轭的正交滤波器实现的,CQFs[24],它作为一个平滑滤波器(即移动平均值)和一个详细滤波器,分别(参见,例如[20])。两个滤波器分别应用于所述输入图像的每个行和列上。

相关文档
最新文档