基于稀疏表示的图像显著区域检测算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于稀疏表示的图像显著区域检测算法
张巧荣
【摘要】Focusing on the problem of images salient region detection,we proposed a sparse representation-based salient region detection algorithm.First,the algorithm uses sparse coding to describe images feature.Then it calculates the visual saliency based on images sparse coding instead of directly processing raw image so as to improve the efficiency of computation.Finally,according to the computation result of visual saliency it segments salient regions.The proposed method was experimented on public test image datasets and the experiment was compared with some other current popular algorithms.Experimental results showed that this algorithm was correct and effective when applying in images salient region detection.%针对图像的显著区域检测问题,提出一种
基于稀疏表示的显著区域检测算法。
该算法首先利用稀疏编码对图像进行特征描述,然后根据图像的稀疏编码进行视觉显著性的计算,而不是对原始图像直接进行处理,提高计算的效率。
最后,根据视觉显著性的计算结果,进行显著性区域分割。
在公开的测试图像集上进行实验,并和目前几种流行的算法进行实验对比。
实验结果表明,该算法用于图像的显著区域检测是正确有效的。
【期刊名称】《计算机应用与软件》
【年(卷),期】2016(033)006
【总页数】4页(P200-202,259)
【关键词】显著区域检测;稀疏表示;视觉显著性;显著图
【作者】张巧荣
【作者单位】河南财经政法大学计算机与信息工程学院河南郑州450002
【正文语种】中文
【中图分类】TP3
随着信息技术的发展,图像已经成为人们获取信息的主要来源。
如何高效准确地进行图像分析和处理成为人们研究的焦点。
通过视觉注意机制,人类可以快速准确地检测出图像中的显著区域,优先注意到图像的重要部分,从而迅速地获取有用的信息。
通过检测图像中的显著区域并优先分配计算资源,可以有效地提高图像处理的效率和准确度。
因此,显著区域检测技术被广泛应用于目标检测[1]、目标识别[2]、图像分割[3]、图像压缩[4]以及图像检索[5]等应用领域。
检测图像中的显著区域,首先需要计算图像中各部分内容的视觉显著性。
到目前为止,已经有很多学者提出了视觉显著性计算模型。
生物视觉研究成果表明,显著性源于视觉信息的独特性、稀缺性以及奇异性,并由亮度、颜色、方向、边缘等图像特征所致[6]。
因此,一些研究者通过计算图像区域相对于其周围邻域的特征对比
度来得到视觉显著性。
其中以Itti等提出的模型最具代表性[7],得到各国研究者
的广泛关注。
Itti等通过计算多个特征图像的多尺度下的中央-四周特征差异来生成视觉显著性。
Ma等提出一种计算局部对比度并采用模糊增长的方法生成显著图[8]。
基于局部对比度计算的方法容易在边缘部分产生较高的显著性值,而物体内
部的显著性值反而较低,出现“显著性反转”的现象。
一些研究者通过计算全局对比度来解决这个问题[6]。
还有一些研究者基于信息论的观点,通过计算图像特征
的稀少性来生成显著图[9,10]。
为了提高计算效率,一些学者提出基于频域分析的
视觉显著性计算方法,例如Hou等提出的基于谱残差的方法[11],Guo等提出的基于相位谱的方法[12],以及Hou等最近提出的利用DCT的“图像签名”算子的方法[13]等。
这些方法计算速度快,适合实时监测。
但是,通过实验我们发现这些方法虽然运算速度较快,检测的准确度却不是很高。
因此,如何在保持计算速度的情况下,提高检测的准确度是需要解决的问题。
因此,基于以上的分析,本文提出一种利用稀疏表示的视觉显著性计算方法。
首先,计算图像的稀疏编码表示。
然后,利用图像的稀疏编码计算视觉显著性,提高计算效率。
根据视觉显著性计算结果,提取显著区域。
本文提出的利用稀疏编码的图像显著区域检测算法如图1所示,主要包括视觉显
著性计算和显著区域检测两部分。
2.1 稀疏表示
生物视觉系统的研究发现,当视觉神经系统接收到某幅自然图像时,大部分神经元对该图像的响应很弱甚至为0,只有很少的神经元有较强的响应。
当接收的自然图像发生变化时,产生较强响应的神经元可能会改变,但这些神经元的个数仍然只占整体的少部分,这种特性叫作稀疏性[14]。
为了模拟神经元响应的稀疏特性,人们提出了针对自然图像的有效编码方法,即稀疏编码。
在稀疏编码模型中,利用基函数的线性叠加表示输入图像,在最小均方差意义下使得线性叠加的结果尽可能地与原图像相似。
同时表示的特征尽可能地稀疏化,即基函数的权值尽可能多地为0或接近0。
图像的线性叠加可以表示为[15]:
对于式(1)表示的稀疏编码模型,Olshausen提出的优化准则为:
根据式(1)表示的稀疏编码模型及式(2)的优化准则,本文从自然图像库中选取10 000个8×8的图像块进行训练得到字典A。
则图像的稀疏编码可以通过式(3)求得:2.2 生成显著图
通过上面的方法,我们得到了输入图像的图像块级别的稀疏编码。
为了计算视觉显
著性,我们需要像素级别的稀疏编码。
为此,本文通过计算包含某像素的所有图像块的稀疏编码的均值来得到该像素的稀疏编码。
位于(x,y)的像素的稀疏编码记为PS(x,y)=[ps1(x,y), ps2(x,y), …],psk(x,y)表示该像素在第k个子码中的编码值。
图像中所有像素在第k个子码中的编码值组成的矩阵Fk可以看作是对输入图像提取的第k个稀疏特征图。
研究表明,视觉显著性源于视觉信息的独特性和稀缺性。
本文通过计算图像中各部分内容与其周围环境所包含的视觉信息的差异来计算视觉显著性。
根据目前有效编码理论中广泛采用的贝叶斯决策理论,P(X)表示某数据集X的初始概率,即先验概率,反映了根据已有知识断定X是正确的可能程度;P(D|X)为似然函数,表示X 为正确假设时,观察到D的概率;P(D)表示D的先验概率;P(X|D)是给定样本D 时,X的后验概率。
贝叶斯定理可以表示为:
由式(4)可以看出,如果新的样本数据D产生了信息差异,则先验概率和后验概率是不同的。
为了衡量D引起的差异的程度,可以通过计算先验概率分布与后验概率分布之间的Kullback-Liebler (K-L)距离得到:
由此可知,将图像中某位置的周边环境划分为两个区域,即中央区域和周边区域,周边区域远大于中央区域。
周边区域的信息分布看作是先验概率,中央区域的信息分布为后验概率。
如果某位置引起了观察者的注意,则其中央区域和周边区域的信息分布是不同的,其差异程度即为其显著程度[16],可以通过式(6)得到:
得到综合显著图之后,选择合适的阈值对显著图进行阈值分割,获得二值图像,其中白色区域对应位置即为图像中的显著区域。
将二值图像和原始图像进行叠加,即可提取出显著区域。
阈值可以通过式(8)计算得到:
为了客观地评估本文算法的正确性和有效性,我们在两个公开的测试图像库上进行了实验,并和目前比较流行的7种算法进行了实验对比。
本文算法的运行环境为Matlab 7.0,硬件平台为个人计算机(Intel Core i3/双核2.53 GHz CPU,内存为
2 GB) 。
4.1 测试图像集
本文选取的第一个测试图像集为Bruce等人提供的人眼跟踪图像库。
库中包含
120幅测试图像以及通过人眼跟踪设备记录的20个测试者在测试图像上的人眼跟踪数据(Ground Truth)。
该数据集可以从http://www-
sop.inria.fr/members/Neil.Bruce获得。
第二个测试图像集为Achanta等人提供的公开图像测试集,该测试集包含有
1000幅测试图像,以及由人工精确标注的显著性区域结果(Ground Truth)。
该数据集可以从
http://ivrgwww.epfl.ch/supplementary_material/RK_CVPR09/index.html获得。
4.2 实验结果及对比分析
限于篇幅,本文从测试图像集中选择4幅图像比较典型的图片,在图2中给出利
用本文算法和目前大家关注度比较高的其他8种算法计算得到的显著图直观的实
验对比结果。
这8种算法分别为ITTI(Itti的引用最多的经典算法)、
GBVS[17](Kouch等人的基于图论的视觉显著性计算方法,检测准确度较高)、AIM[18](第一个测试图像集的作者Bruce等人的基于信息最大化的算法)、FTSRD[19](第二个测试图像集的作者Achanta等人的算法)、SUN[20](利用图像
统计信息的算法)以及SR(基于谱残差的方法)、IS(基于DCT的图像签名的方法)、ICL[21](基于增量编码长度的算法)这三种影响力比较大的基于频域分析的算法。
这几种算法的作者都提供了源代码,方便我们进行实验比较。
图2中的前两幅图片来自Bruce提供的测试集,其Ground Truth是对人眼跟踪
数据经过高斯模糊处理后的人眼关注图。
后两幅图片来自Achanta提供的测试集,其Ground Truth是以二值图像表示的由人工精确标注的显著区域结果。
从图2
中可以看出,一些算法如FRSRD、SUN出现了显著性反转的情况,一些算法如ITTI、SR、ICL、IS计算出的显著性结果更强调边缘部分,而本文算法的结果与Ground Truth最接近。
为了客观地评价本文算法的效果,本文采用目前本领域常用的ROC曲线、AUROC值对本文算法以及其他算法进行定量比较分析。
为了分割显著区域并计算ROC曲线,本文参考文献[19],将各种方法得到的显著
图中各像素的显著值调整到[0,1]。
然后从0到1每隔0.05取一个阈值,分别将各算法的显著图进行二值化,进行显著区域和非显著区域的分类,并与Ground Truth进行比较,计算相应的TPR(True Positive Rate)和FPR(False Positive Rate),分别得到21组TPR和FPR的对应值,画出ROC曲线。
图3是各种算法
的ROC曲线图。
表1为各种算法的AUROC值对比结果。
从图3和表1可以看出,本文算法的ROC曲线是最高的,AUROC值是最大的。
4.3 时间复杂度评估
我们对本文算法和其他8种算法在两个测试图像集上单幅图像的平均运行时间进
行了测试,对比结果如表2所示。
从表2中可以看出,ITTI、FTSRD、SR、IS等几种算法的平均运行时间比本文算
法的运行时间要短,其余几种算法的平均运行时间高于本文算法。
但是,本文算法的检测准确度要高于ITTI、FTSRD、SR、IS等几种算法。
因此综合考虑,本文算
法相对于其他算法仍然具有一定优势。
本文针对图像中的显著区域检测问题进行了研究,提出一种利用稀疏编码的显著区域检测算法。
该算法首先对原始图像提取稀疏特征,采用稀疏编码对图像进行表示,在此基础上通过计算图像中各部分内容之间的信息差异来得到视觉显著性结果。
结合视觉显著性计算结果,提取显著区域。
本文在两个国际上公开的测试图像集上进行了实验,并和8种目前大家关注度比较高的算法进行了对比,结果证明了本文
算法的正确性和有效性。
本文算法还存在一些需要进一步改进的地方。
一方面,本文算法只考虑了图像的一些底层特征,没有考虑目标轮廓、人脸等高层特征;另一方面,本文只对静态图像进行了研究,如何对算法进行改进使其适合视频图像也是下一步工作努力的方向。