基于颜色直方图金字塔的图像自动标注方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于颜色直方图金字塔的图像自动标注方法
王建文;林劼
【摘要】针对图像自动标注应用,提出一种基于金字塔匹配核(PKM)的颜色直方图特征标注方法.图像以金字塔方式划分成越来越细的格子,统计每个格子的颜色直方图并进行对数处理,以平衡不同颜色对直方图的贡献.所有格子的直方图经过加权处理后连接成单一向量,称为颜色直方图金字塔,通过直方图相交距离度量向量之间的相似度.在corel5k数据集上的实验结果表明,该方法在全局颜色直方图、分块颜色直方图和尺度不变特征变换特征方面优于传统方法,与同样基于PKM的空间金字塔匹配(SPM)方法相比,F度量值提高了10%.
【期刊名称】《计算机工程》
【年(卷),期】2016(042)006
【总页数】6页(P235-240)
【关键词】颜色字典;颜色直方图;金字塔匹配核;图像标注;直方图相交距离;区域特征
【作者】王建文;林劼
【作者单位】福建师范大学软件学院,福州350117;福建师范大学软件学院,福州350117
【正文语种】中文
【中图分类】TP391.41
中文引用格式:王建文,林劼.基于颜色直方图金字塔的图像自动标注方法[J].计算机工程,2016,42(6):235-240.
英文引用格式: Wang Jianwen,Lin Jie.Automatic Image Annotation Method Based on Color Histogram Pyrami[J].Computer
Engineering,2016,42(6):235-240.
随着互联网技术的发展,特别是移动互联网应用的普及,大量的用户群体每天都在上传和浏览图片,图像语义检索成为一项重要的互联网应用。

依据关键词检索图像仍是目前的主要检索方式,该方法需要预先为图像标注能反映图像内容或语义的文本,然后利用文本检索技术检索图像。

面对海量的图像数据,给图像添加标注词的工作无法人工完成,只能利用计算机自动完成,因此,图像自动标注成为解决图像检索问题的关键技术之一[1-3]。

颜色直方图是在许多图像标注系统[4-5]和图像检索系统[6]中被广泛采用的颜色统计特征,它所描述的是色彩在图像中的分布,具有平移、旋转不变性,对图像中子对象所在的位置和方向的变化不敏感,具有相当强的鲁棒性[7]。

但传统颜色直方图存在丢失空间位置信息的问题,颜色分布相似而语义完全不同的现象较严重。

后来,分块颜色直方图[8-9]被引入图像处理领域,这类特征粗略保留了像素的空间信息,性能较全局颜色直方图有所提高。

分块颜色直方图首先要考虑的是子块划分方法问题,目前的划分方法包括自适应分块[8]、均匀分块和不规则分块[9]等方法。

自适应分块方法需要经过复杂的计算才能确定子块所涵盖的范围,计算复杂度较高,后两种分块方法计算量则小得多。

分块颜色直方图其次要考虑的是子块的粒度问题,子块划分粒度越细,图像特征的空间分辨率越高,越有利于区分细节;反之,子块划分粒度越粗,图像特征的空间分辨率越低,越有利于区分场景。

图像标注应用需要同时区分细节和场景,以上划分方法因子块数量固定而无法兼顾两者。

为了使分块颜色直方图兼具细节与场景的区分能力,本文基于金字塔匹配核(Pyramid Match Kernel,PKM)[10],结合Bag-of-Colors(BOC)特征[11]所采用的部分技术措施,提出一种新的分块颜色直方图,称为颜色直方图金字塔(Color Histogram Pyramid,CHP)。

PKM具有特征点匹配速度快、准确率高的特点,同样基于PKM的空间金字塔匹配(Spatial Pyramid Matching,SPM)模型[12]已经验证了一点。

本文提出的CHP特征在子块划分、距离度量方面与SPM模型相同,但所统计的基础特征有所不同,CHP基于颜色分布而SPM基于SIFT特征点分布。

SPM 所提出的方案首先提取灰度图像的SIFT特征,然后采用金字塔匹配[10]方式统计SIFT特征频率直方图向量,该方案因需要提取SIFT特征,计算复杂度高,而CHP直接统计像素的颜色分布,计算复杂度低得多;再者,SPM丢弃了图像的颜色特征,不利于区分图像的背景信息。

虽然文献[12]提到空间金字塔匹配模型也可基于颜色统计特征生成直方图向量,但没有给出具体步骤和实验结果,其性能没有得到验证。

本文把颜色统计特征与金字塔匹配核相结合,提出的CHP特征兼具细节与场景的区分能力,并在corel5k数据集上进行标注实验。

2.1 颜色直方图
传统颜色直方图[13-14]把颜色空间的各个分量(维度)均匀地划分成若干个大小相等的区间,每个区间称为一个Bin,然后统计图像的像素落在每个Bin的频率而得到颜色直方图,并采用相交距离作为不同直方图之间的距离度量。

该方法计算简单,但存在以下缺点:(1)颜色空间的划分不能反映图像集内在的颜色分布特性,图像集在某些颜色区间的频率值分布过于稀疏,基本无区分作用;(2)频率值分布不均匀,在计算特征向量间的距离时,频率值较大的颜色区间将起主要作用,频率值较小的颜色区间作用几乎可以忽略不计,因而降低了特征的区分度;(3)忽略了颜色的空间分布信息,两个颜色直方图相似但颜色空间分布不同的图像,在视觉上可能有很大差异。

Bag-of-Colors(BOC)特征[11]从频率值分布的角度对颜色直方图作了多项改进,以
均衡不同颜色对特征向量距离的贡献,大幅度提高了颜色直方图的性能。

BOC特征所采取的主要改进措施如下:(1)采用调色板量化方法,从自然图像集合中抽取颜色样本,然后用k-means方法对样本聚类得到c种颜色,称为调色板,所有图像的像素量化成调色板中最接近的一种颜色,所生成的直方图能够反映出图像集合本身的颜色分布特性;(2)采用TF-IDF(Term Frequency-Inverse Document Frequency)技术,把直方图看成关于颜色的词频向量,再乘以逆文档频率IDF向量,对直方图加权处理,抑制常见颜色的频率值而提高稀有颜色的频率值,该技术可小幅度地提高直方图的区分度;(3)对直方图的频率值作开平方处理,抑制直方图中较大的频率值,以避免过大的频率值在计算特征距离时起决定性作用,同时又保留频率值的差异。

BOC特征能够反映图像集自身的颜色分布,也解决了频率值分布不均匀的问题,但仍然不能保留颜色的空间分布信息。

分块颜色直方图从保留空间信息的角度提出改进措施[9],把图像划分成多个子块,各子块提取颜色直方图后乘以体现重要性的系数,再拼接成特征向量,此时特征向量保留了像素的空间信息,性能有所提高。

为了降低分块颜色直方图的特征维数,文献[15]把子块合并成颜色相关与颜色不相关两大区域分别统计直方图。

目前分块颜色直方图在分块方式上方法各异,但子块划分的粒度是固定的,如概述部分所述,难以同时兼顾区分细节与场景信息的需求。

2.2 空间金字塔匹配模型
文献[10]最早提出金字塔匹配核(Pyramid Match Kernel,PMK)方法构造直方图,用于解决特征集合间的快速匹配,其实验结果表明,它可在线性时间内以很高的准确率匹配两组特征。

文献[12]在PMK基础上加以改进,提出空间金字塔匹配(SPM)模型,明确了空间位置在匹配过程中的作用,提出处于相同空间范围内的特征才可匹配,所生成的特征向量保留了粗略空间信息。

SPM模型应用于场景分类的实验结果表明,保留空间信息后的特征向量,其性能有较大幅度的提高。

虽然SPM模型保留了局部特征的空间信息,但SPM模型以角点、SIFT特征点为基础特征,图像的多数背景信息往往因为特征较弱而被滤除。

另外,它在抽取特征时丢
弃了重要的颜色信息,以上两个原因使得它在前景对象方面的区分能力较强,而背景、抽象概念等方面的区分能力较弱,在图像标注应用中的性能并不突出。

2.3 特征比较
Gist特征[16]、SIFT特征[17]及其变种在图像标注应用中被广泛采用,在本文中用
于性能比较。

Gist特征基于自然度、开放度、粗糙度、膨胀度和险峻度等视觉概念,使用多尺度多方向的Gabor滤波器组对图像滤波,得到图像的轮廓(包络)信息,用于描述图像的场景结构,在场景分类应用中取得较好的效果。

SIFT特征在尺度空间
中寻找极值点,并提取出其位置、尺度、旋转不变量,具有尺度、旋转不变性以及很
强的可区分性,在对象识别、对象跟踪等应用中有较好的效果。

2.4 图像自动标注方法
K邻近邻居模型是自动图像标注技术中性能较高的方法,这类方法假设外观相似的
图像很可能具有相似的标注词,标注过程被看成是标注词在相似图像间传播的过程。

K邻近邻居模型产生标注词的一般流程如下:(1)抽取输入图像的特征;(2)依据图像特征查找与输入图像最相似的K个已标注图像,称为K邻近邻居;(3)依据标注词的传
播模型,把K邻近邻居中出现概率最高的标注词添加到未标注的输入图像。

由以上
流程可知,K邻近邻居模型的标注准确性一方面取决于传播模型本身,另一方面则取
决于图像特征,后者决定了所检索到的K个邻居是否反映真实的图像语义相似性,因此有必要研究高性能的图像特征。

3.1 特征抽取
如图1所示,彩色图像被划分成m×m个大小相同的子块,按不同颜色(浅色、灰色、黑色)分别显示像素在不同格子中的分布比例,它代表了不同颜色像素在二维空间中的分布。

第1列把图像划分为4×4子块,按不同颜色分别显示像素的空间分布,称为
H2,第2列把图像划分为2×2子块,同样按不同颜色分别显示像素的空间分布,称为H1,第3列不划分子块,与传统颜色直方图相同,称为H0。

H2,H1,H0对图像的划分粒度由细到粗,形成3层的金字塔,金字塔按先底层后顶层,每层按先列后行的顺序可连接成一个单一的向量,它从颜色、数量、位置3个因素描述像素的空间分布,进一步增强了特征的区分能力。

因为图像格子划分越细,特征的区分能力越强,所以在连接成单一向量之前,不同层的分布数值还要乘以不同的加权系数,以体现不同层的重要性,底层权重系数高而顶层权重系数低。

实际计算颜色直方图金字塔时并不需要按颜色分别统计,由于连接后特征向量的区分能力与元素值排列顺序无关,直方图按颜色重排列的步骤可以省略,因此本文把连接后的向量称为颜色直方图金字塔(CHP)。

CHP特征具体计算步骤如下:
(1)学习颜色字典。

把训练集的RGB图像转换成CIE-LAB图像,从训练集抽取颜色样本,使用k-means方法聚类得到包含c种颜色的字典C。

使用颜色字典是为了使直方图的颜色分布更加接近于图像集颜色的内在分布。

实验表明c取值256时效果最佳。

(2)图像颜色量化。

图像每个像素依据L2最短距离量化成颜色字典C中的一种颜色,因此图像最多包含c种颜色。

(3)划分子块。

图像以l层金字塔方式划分子块,划分方式如图1所示。

第i层被划分为mi×mi的子块,称为Leveli,其中mi=2i,i=l-1,l-2,…,0,实验表明l=3时效果最佳。

(4)生成子块颜色直方图。

依据颜色字典C,统计每个子块内不同颜色的频率值,子块直方图的颜色分量个数与字典C的长度相同。

(5)向量化。

把第i层的mi×mi个直方图按先行后列的顺序连接成一维向量,称为Hi,其中i=l-1,l-2,…,0,得到l个向量。

(6)对数平衡。

Hi取二进制对数,缩小不同颜色频率值的差距,以避免较大的颜色频
率值在特征匹配过程中起决定性作用,平衡不同颜色频率值在特征向量中的贡献。

计算公式如式(1)所示,向量Hi值加1是为了使得原先为0的分量,取对数后仍为0。

Hi=loga(Hi+1)
(7)归一化。

归一化使得不同大小的图像具有相同的直方图累加和值。

计算公式如
式(2)所示,其中上标j表示向量Hi的第j个分量。

(8)向量加权。

为体现金字塔不同层直方图向量Hi的重要性,乘以权值wi,计算公式如下:
wi=2i
Hi=wi×Hi
(9)向量连接。

把来自共l层的Hi连接成单一向量,称为H,这个特征向量就是颜色
直方图金字塔。

3.2 计算复杂度分析
为描述方便,假设单幅图像包含n个像素点,字典颜色数量c以及金字塔层数l是较
小的常数。

由于颜色字典只需训练一次就可反复使用,可认为特征抽取的时间复杂度与字典训
练无关,只与步骤(2)~步骤(9)有关。

步骤(2)图像量化,每个像素点计算与字典颜色的最短距离,有c种颜色,需要c×n次
计算。

步骤(3)~步骤(4)统计子块颜色直方图,每个像素点计算一次,与子块数量无关,共有l 层,需要l×c×n次计算。

最终生成的颜色直方图金字塔向量长度length如式(5)所示,一般情况下length值小于n,因此步骤(5)~步骤(9)的计算量都小于n次。

综合上述分析可知,颜色直方图金字塔特征抽取的时间复杂度为O(n),实时性好。

3.3 CHP特征与SPM模型的差别
CHP特征采用与SPM模型类似的方法表示图像的特征,但与SPM模型相比有以下不同点。

首先,CHP特征采用不同颜色像素在空间中的分布比例作为基础特征,强调颜色的空间结构;其次,CHP模型不需要抽取边缘、SIFT等关键点作为基础特征,而是直接统计像素在不同位置(子块)的分布,特征抽取的计算复杂度与普通颜色直方图相当,运算效率更高;再者,采取与BOC特征类似的方法,颜色直方图归一化之前经过了均衡化处理,但与BOC特征不同的是,数值取对数而不是开平方,数值之间的差别更小,均衡化处理后的特征区分能力更强。

4.1 数据集和实验设置
实验环境为一台PC机,装有Intel i7 4770k CPU,主频3.5 GHz,内存8 GB,软件环境为Matlab2014。

为了检验CHP特征用于图像自动标注的性能,采用Corel5K数据集和TagProp[1]自动标注模型进行实验。

Corel5K数据集在文献[18]中最先采用,已成为图像标注领域最常用的评估数据集,该数据集包含4 999幅图像和260个关键词,其中4 500幅作为训练集,499幅作为测试集,每幅图像大小为128像素×192像素,并以人工方式标注1个~5个英文关键词。

TagProp自动标注模型属于K邻近邻居模型,具有较高的性能,可在相似图像之间传播任何语言的标注词,已成为常用的基准方法。

为便于比较,本文实验参数与文献[1]相同:测试图像的最近邻居数量k为200,每幅图像被自动标注5个关键词,采用查准率(Precision)、查全率(Recall)、F值(F1-Measure)和N+作为评价指标,其中N+表示查全率非0的关键词个数。

同时,选取文献[1]抽取好的RGB直方图、LAB颜色直方图、DenseSIFT特征和Gist特征用于性能比较。

4.2 实验结果
对图2给出的使用CHP特征自动标注的例子,得到的4幅分图的结果为:sky jet
plane smoke formation,tree garden cottage house lawn,water people pool swimmers athlete,sky shore town windmills water。

粗体字表示该词与人工标注相同,斜体字表示该词未出现在人工标注中,但从图中可以看出不少斜体关键词仍然是图像的合理标注,展现了CHP特征较高的性能。

表1给出了CHP与6种图像特征的性能比较结果,从表中可以看出,CHP的性能大幅度领先于其它特征。

CHP作为一种分块颜色直方图,与RGB颜色直方图、LAB 颜色直方图、BOC特征3种全局颜色直方图相比,F值比三者中最大的RGB颜色直方图高出6.1%,表明CHP特征所采取的分块方式有助于提高特征的性能。

CHP特征与SPM特征同属于直方图金字塔,但基础特征的抽取方式有很大不同,CHP基于颜色统计特征而SPM基于SIFT统计特征,前者F值高出10%,相对提高了47%,表明基于颜色统计特征的金字塔匹配算法在图像标注领域有更高的性能,Dense Sift 特征、Gist特征相对较低的性能也表明了颜色统计特征的优势。

构造颜色直方图金字塔时,需要确定金字塔层数l和字典颜色数量c两个参数。

为得到最佳层数l,首先设定字典颜色数量c等于256,l取不同值进行对比实验。

如图3所示,l取值为3时性能最佳。

为了得到最佳颜色字典,使用k-means方法生成LAB,RGB和HSV 3类颜色字典,颜色数量分别取值为图4横坐标所对应的值,共生成30个字典。

设定金字塔层数l 等于3的条件下,图4所示的实验结果表明,LAB颜色字典的性能要好于RGB,HSV 颜色字典,这也是本文算法把RGB图像转换为LAB图像的原因。

更进一步,在颜色字典设定为LAB字典的情况下,字典颜色数量c取320时,F值达到最高,但c值取256时其F值与最大值基本接近,出于限制特征的维数的考虑,c值取256为最佳。

为了说明金字塔特征和直方图对数平衡处理的优点,本文针对这2个因素在
l=3,c=256的条件下作了对比实验。

如表2所示,若在CHP特征的基础上去除金字塔特征,改用单层4×4的分块颜色直方图,其性能有所下降,若在CHP特征基础上去
除对数平衡处理步骤,则性能有较大幅度的下降。

为了验证CHP特征抽取的实时性,把它与SPM模型做了平均计算时间对比实验,实验参数设置为各自的最优值,金字塔层数同为3。

在本文实验环境中,抽取4 999幅图像的CHP特征共耗时89 s,平均每幅图像耗时0.018 s,而抽取SPM特征共耗时81 404 s,平均每幅图像耗时16.3 s,可见本文提出的CHP特征的实时性很好,相对于SPM模型有较大优势。

本文在金字塔匹配核的基础上,结合颜色直方图,提出了颜色直方图金字塔特征标注方法。

在corel5k图像库上的图像自动标注实验结果表明,本文提出的颜色直方图金字塔特征的标注性能比传统的全局颜色直方图、分块颜色直方图都要高,且实时性很好。

虽然所生成的特征向量维数较高,但它属于稀疏向量,非零元素只占向量很少的比例,只需保存非零元素值和相应的下标,特征的存储空间可大幅度减少,同时加快运算速度。

下一步工作将致力于在提高特征性能的同时降低特征维数。

相关文档
最新文档