视觉相似性计算的艺术图像自组织方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

视觉相似性计算的艺术图像自组织方法
徐绕山;王爽;孙正兴
【摘要】为解决大量数字化艺术图像常规组织和管理复杂低效问题,提出一种基于图像相似性计算的自组织方法,对艺术图像提取了颜色、纹理、空间布局和SIFT等用于相似性计算的视觉特征表示,并根据艺术图像空间布局特点设计计算模型,试验了特征的聚类效果.采用多层版本近邻传播聚类(MLAP)算法为基础,对实验图像库进行层次化聚类,构建图像的层次化浏览结构.实验结果表明,该方法在艺术图像的管理和使用上都有着良好的性能.%In order to solve the complicated and inefficient problem for organizing massive digital artistic images with general methods, this paper proposes a self-organization method based on visual similarity computation. For visual simi-larity computing, features of image such as color, texture, space layout and SIFT are extracted. According to the calcula-tion model designed from the spatial layout of artistic images, the method calculates the clustering effect of images under different features, and adopts Multi-Layered version of Affinity Propagation(MLAP)clustering algorithm for various lev-els on given image database, by which it constructs a hierarchical structure on the visual information for these images. Experi-mental results show that the proposed method can achieve better organizational efficiency for artistic images.
【期刊名称】《计算机工程与应用》
【年(卷),期】2017(053)018
【总页数】8页(P163-169,242)
【关键词】艺术图像;特征提取;相似性计算;层次聚类;自组织;图像管理
【作者】徐绕山;王爽;孙正兴
【作者单位】南京信息职业技术学院计算机与软件学院,南京 210023;南京大学计算机软件新技术国家重点实验室,南京 210046;南京大学计算机软件新技术国家重点实验室,南京 210046;江苏经贸职业技术学院,南京 211168;南京大学计算机软件新技术国家重点实验室,南京 210046
【正文语种】中文
【中图分类】TP391
随着计算机图形图像技术的发展和应用,越来越多的艺术画被数字化为数字图像用于传播、交流和鉴赏。

对于数字化艺术图像的用户来说,如果没有足够的艺术知识,要利用精准的语义标签描述图像非常困难,因而对这些艺术图像的组织和管理也越来越复杂和低效。

一直以来,当图像数量不是很大时,使用标注信息来分类图像并没有显示出明显的不足。

但当图像数量增大至一定的规模后,由于对单个图像标注信息的不确定性以及各个类别图像整体风格界线的模糊,精确标注逐渐不能满足对图像组织的要求。

艺术画的分类有很明显的主观影响,利用精准的语义标签描述本身就并非易事。

若将大量的艺术图像直接存储在文件系统中,顺序浏览或查找效率也很低。

而对图像进行语义标注从而利用语义标签检索图像的方法,不但在初期需要定义精确的图像语义标签,而且在后期使用时需要用户掌握明确检索信息。

在使用时,尤其对于刚刚接触艺术图像的用户来说,比如在教育教学领域,学习者想查找某种风格的目标图像可能由于标注和理解的偏差而达不到满意的效果。

用户渴望按照易于理解的图像视觉信息对大规模艺术图像库进行组织。

尽可能避免对图像理
解误差的同时,也无需再对图像进行精确的标注,而由系统按照图像自身具有的视觉对应关系有效地进行自组织管理,能帮助用户提高图像使用效率。

本文研究按照艺术图像的视觉相似性对图像进行特征提取和计算,提出解决大量图像常规组织和管理复杂低效问题的自组织方法。

该方法通过实验选取符合视觉相似聚类的图像特征,根据艺术图像空间布局的特点设计相似性计算模型,将图像按照视觉特征进行自组织聚类,形成层次化浏览结构,为用户提供了管理大量艺术图像的有效的、易用的途径。

为了对艺术图像按照视觉相似性进行自组织聚类,需要提取图像合适的特征表示。

艺术画是艺术家运用不同的色彩和技法并加入了主观感受的现实生活场景的再创造。

因而,艺术图像与自然图像存在一定的差异,图像特征的表现也是不同的。

艺术图像的流派、主题、内容、颜色、绘制技巧等是影响视觉相似性的重要特征。

因此,本文在图像特征提取时,尽可能多地覆盖颜色、纹理、布局等特征种类,并从中选择表现力较好的特征,在自组织聚类时进行多方面的综合计算。

图像全局特征主要可以分为颜色特征、纹理特征、形状特征和空间特征。

全局特征不是某些感兴趣的区域,而是对整幅图像的统计信息,将图像描述为一个单一的向量来表述。

本文针对艺术图像的特点,提取在视觉上特征明显的冷暖色调比例、颜色直方图、颜色聚合向量、局部二值模式和空间金字塔方向梯度等特征表示。

(1)颜色特征
颜色特征是基于像素点的,对整幅图像的像素提取统计特征,对图像的方向、大小、旋转等变化不敏感。

对于艺术图像,通常在视觉上首先会注意到图像的色调。

色调是图像色彩的总体倾向,色调的冷暖可以用来表现艺术画作品的情感。

通常把红色和黄色定义为暖色调,蓝色和绿色定义为冷色调。

因此可以利用冷暖色的比例(warmcold)来反应艺术图像的精神色彩,并加以区分。

本文参照文献[1]中的方法,计算艺术图像中各像素颜色与红黄蓝绿四种颜色之间的差异,如果与红色或黄
色的差异(欧式距离)小,则认为这个像素的颜色属于暖色,否则,视为冷色。

通过这样的计算,可以定义冷暖色调比特征为一个比值,其中n warmpixel为图像
中暖色调的像素数,而ncoldpixel为图像中冷色调的像素数。

在统计计算时,为
了缩小当某一色系的像素点极少时冷暖色系比值跨度范围过大,将大于100的比
值统一按照100来处理,而将小于0.01的比值也按照0.01来处理。

在这个特征
上进行图像相似性度量时,图像之间的距离可按式(1)进行计算:
本文选取典型的艺术图像库Painting-91[2]进行实验,共有13个流派。

计算艺术图像的流派在warmcold特征下的均值,判断其特征的区分性。

如图1所示。


各流派冷暖分布的均值分布可以看出,冷暖色调是可以对各流派是有一定的区分性的,且某些流派冷暖色调的比与其他流派相差很大。

因此,冷暖色调的比例这一特征虽然简单,但是可用来区分艺术图像的流派。

颜色直方图(Color Histogram)[3]描述不同色彩在整幅图像中所占的比例,而
不关心每种色彩所处的空间位置,是一种常用的低层图像特征。

数字图像一般在RGB颜色空间上存储,但是RGB颜色空间与人类的视觉感知不太一致。

HSV颜
色空间则能够较好地和人类的视觉感知相一致。

因此在强调视觉特征的应用场合,颜色直方图特征多在HSV空间提取。

因为图像特征在H通道表示的信息相对S、
V空间更加丰富,本文提取HSV特征时,将H、S、V分别量化为16、4、4等份值,将整个颜色空间量化为256等份,得到图像的颜色直方图特征为256维向量。

因为颜色直方图只能表达整幅图像内的颜色分布,而无法表达各颜色的空间位置,颜色聚合向量(Color Coherence Vector,CCV)[4]将颜色直方图的每一个维度又分为相关和不相关像素两个维度,用以表示像素间的相对位置。

它将颜色直方图的每一种颜色分为两类进行统计。

如果属于一种颜色的某些像素所占据的连通区域的面积大于给定的阈值,则将该区域内的像素作为聚合像素,否则作为非聚合像素。

如假设αi与βi分别代表直方图特征中第i维中聚合像素和非聚合像素的数量,则
该图像的颜色直方图为<α1+β1,α2+β2,…,αN+βN>,而<
(α1,β1),(α2,β2),…,(αN,βN)>是该图像的颜色聚合向量。

本文在提取颜色直方图
的颜色空间划分方法的基础上,统计每幅图像在256个颜色子空间中的颜色聚合
像素数和非聚合像素数目,得到图像的颜色聚合向量特征为512维向量。

(2)纹理特征
与颜色特征一样,纹理特征在视觉上直观且富有表现力,反映了图像中具有同质化的视觉模式。

纹理特征不是基于像素点的特征,是对包含多个像素点的区域进行统计计算的结果,主要体现了图像的结构布局信息及其与周围环境的关系。

局部二值模式(LBP)是用来描述图像局部纹理特征的算子,具有灰度不变性、旋转不变性等优点。

本文将其归类为全局特征是因为该特征的提取是对艺术图像所有像素进行的。

提取LBP特征时,首先将图像划分为一个个的小区域,区域中心的像素作为
基准,然后将相邻的像素灰度值与其进行比较。

如果周围像素的值大于中心像素的值,那么该像素点的位置被标记为1,否则为0。

利用这些标记按照顺时针生成的二进制数,作为该区域中心像素点的LBP值。

将所有区域像素点的LBP值进行统
计得到的直方图即为该幅图像的LBP特征。

由特征提取过程可以看出,LBP特征
是灰度不变的,但不是旋转不变的。

因此文献[5]将LBP特征提取进行扩展,提出
具有旋转不变性的LBP值。

该方法通过不断旋转圆形区域得到一系列初始LBP值,取它们中的最小值作为该区域的LBP值。

在统计时,这些能够通过旋转得到的LBP值,统一被表示成为一种值,从而解决旋转不变性问题。

对于统计半径为R,采样点个数为P的LBP值会产生2p种模式,因而邻域内采样点数的增加会使二
进制模式也急剧增加。

过多的模式会造成图像特征直方图过于稀疏,不利于表达图像的纹理。

因此需要对原始的LBP模式进行降维。

Ojala[6]提出LBP的等价模式,设定当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时,该LBP所对应的二进制就称为一个等价模式,否则称为混合模式。

通过这样的改
进,在不会丢失信息的前提下,采样点个数为P的LBP模式数由原来的2p种减
少为p(p-1)+2种。

本文所采用的是结合旋转不变和等价模式生成的LBP,选取统计为半径为2,采样点为20的采样方法,得到每个图像的LBP特征为283维向量。

(3)形状特征
形状特征是图像内物体和区域的形状的一种重要的特征,往往基于形状边界信息或边界加内容信息提取。

与颜色和纹理特征相比,形状特征需要在图像已经被分割成区域或对象后提取。

而图像的精确分割往往是很难实现的,所以形状特征的应用也因此而受限。

最成功的两个形状特征是傅里叶描述子和不变矩。

傅里叶描述子的主要思路是利用傅里叶变换的边界做为形状特征[7-8],而不变矩的主要思想是利用
具有变换不变性的基于区域的矩作为形状特征。

本文在视觉上对图像进行聚类组织,对图像内形状不做分析,因而未提取形状特征。

(4)空间特征
空间特征表述图像中物体或区域间的相对空间位置,如区域间的位置关系,在视觉上对图艺术像的相似性度量起到重要的作用。

方向梯度直方图(HOG)计算图像
局部区域的梯度方向直方图,构成反映图像的空间特征。

具体实现时,将图像分成若干小的连通区域,然后提取连通区域中各像素点的梯度或边缘的方向直方图。

最后把这些直方图连起来构成HOG特征。

空间金字塔方向梯度直方图[9](PHOG)是在HOG的基础上加入空间金字塔匹配,使匹配结果更能反映图像的空间特性。

本文中将梯度方向按照360°的空间划分为8个网格提取特征,并按照L=3进行空间金字塔水平划分,由于图像中每个局部区域反映的结构和位置信息量不同,因此给各层各网格分配一个权重,按权重把所有特征加权连接,得到每幅图像的680
维PHOG特征向量。

局部特征是一些能够稳定出现并且具有良好区分性的点。

局部特征的使用主要有传
统的和基于词袋模型的两种方式。

传统方式通常分为特征检测、特征描述和特征匹配等过程;基于词袋模型的方式则主要分为特征检测、特征描述、特征聚类、频度直方图统计等步骤。

文献[10]提出了高效的尺度不变特征变换SIFT算法,是一种
检测与描述图像中局部特征的方法。

它在空间尺度范围内寻找极值点,并提取其位置、尺度、旋转不变量作为特征描述。

通过构建尺度空间、极值点检测、关键点定位、方向赋值及特征描述等步骤最终形成128维的向量。

SIFT特征是针对特征点
的提取,常用于通过特征点匹配来进行物体的识别,而且往往具有很高的效率。

对于艺术图像信息的采样主要有采用密集采样和兴趣点采样两种方法。

密集采用主要考虑图像中所有内容均能够提供特征信息,图像特征提取比较完备,但计算量大,如图2(b)所示。

兴趣点采样认为图像的局部特征主要分布在一些兴趣点上,只
要对这些兴趣点提取特征,也同样能够满足图像特征表示,如图2(c)所示。

虽然SIFT等局部特征可以利用角点匹配等方法判断两幅图像间的相似性,但是为
了更好地与分类算法或聚类算法结合,学者们又先后提出了利用词袋模型(Bag-
Of-Words,BOW)[11]的思想。

BOW是除特征点匹配外,利用局部特征进行图像匹配的常用方法,它先利用训练数据集提取大量局部特征,进行聚类,找到适当的聚类中心,形成词典。

然后利用词典将所有图像的局部特征量化为与词典维数相等的直方图,再利用直方图进行图像匹配和检索。

本文分别提取密集采样和兴趣点采样两种方式下的SIFT特征dense_sift和harris_sift,进行相似性计算效果比较,而对于后续的图像聚类组织,只需控制将内容上或风格上相似的图像进行聚类,并不需要对图像中的物体进行精确识别。

因此采用词袋模型对SIFT特征进行组织后
用于表述图像特征。

通过对Painting-91图像库中50位艺术家每人选择4幅图像共200幅图像作为训练集。

使用K-means算法将训练图像中所有的局部特征聚类为k类,k为词典大小。

以每一个聚类中心构建词典,每个聚类中心是一个关键词。

密集采样中,每幅图像平均采样点2 313个,构造成1 000个视觉单词。

兴趣点
采样中,每幅图像平均采样点626个,构造成300个视觉单词。

此外,由于对颜色空间的量化是影响颜色直方图特征有效性的一个重要因素。

一方面要解决量化位数的问题,量化位数过多和过少都会影响特征的表示效果。

另一方面要解决颜色空间与人类对颜色认知在分布上不均匀的问题。

因此本文参考文献[12]提出的基于patch的颜色直方图的方法提取dense_hsv特征。

以基于密集采
样为基础,将图像分为若干个图像块(patch),在HSV空间上对每个图像块提
取颜色直方图特征。

然后在对训练集图像中所有图像块的特征进行聚类,每个幅图像平均划分为686个图像块,构造300个视觉单词。

特征聚类有效性实验在图像库Painting-91上进行。

图像库共有50位画家的2 336幅艺术画,按照内容分为肖像、风景、场景等,按照流派分为构成主义、立
体主义、印象派、波普主义等13个流派。

因为按照视觉信息进行图像库的组织时,图像特征对艺术家区分性不高,故未对同一个流派的不同艺术家进行区分。

实验使用K-means算法在提取的特征上分别将图像聚类为10类、100类、200类。


为聚类的目标是将视觉上相似的图像聚为一类,将不相似的图像分开,所以类间距越大,类内距越小,说明聚类质量越好。

实验取类间距与类内距的比值来衡量图像特征的有效性,实验结果如表1所示。

实验结果表明,在与视觉相关的特性中,phog、harris_sift、dense_sift对艺术
图像聚类效果较好,而warmcold、hsv、ccv、lbp、dense_hsv等效果一般。

因为颜色是人类对图像的认知在视觉上很重要的因素,虽然颜色特征对于聚类的有效性不如phog和sift特征,本文在计算视觉相似性时,还是考虑了颜色特征。

另外,实验结果表明,特征harris_sift和dense_sift相关程度较高,故仅选取了特征harris_sift。

所以在后续的艺术图像自组织计算过程中,选取了特征phog、harris_sift和dense_hsv进行视觉相似性的计算。

艺术图像通常为了视觉的舒适性而在空间布局上采用上下左右对称的结构或按照自
然景色划分为上中下三层结构。

所以在视觉相似性计算时,本文相应地将图像按布局划分,充分考虑图像布局信息对视觉相似性的影响。

如图3所示的按图像布局
划分进行计算。

图3(a)对整体图像提取特征fhI1。

图3(b)将图像进行2×2
划分,分别对4个图像块提取特征,从上至下从左至右的顺序,得到
fhI2_1,fhI2_2,fhI2_3,fhI2_4。

在图像相似性计算时,每个特征的权值赋值为1/4。

图3(c)将图像进行3×1划分,从上至下的顺序提取fhI3_1,fhI3_2,fhI3_3,每
个特征的权值赋值为1/3。

如此,将所有特征按照顺序连接,构成最终图像的特征表示:
对于直方图统计特征,计算卡方距离来衡量两幅图像之间的相似性,距离越小,表示图像之间越相似。

对于局部特征的相似性计算,将每幅图像中的特征点选取距离最近的视觉单词进行归类,统计每个单词在这幅画中所占的比例构成直方图。

作为该图像的字典表示,再分别按照整幅图像、2×2和3×1划分的图像统计直方图,并按照式(2)组织
为最终的图像字典表示。

然后利用图像字典表示结果按式(3)进行图像间的相似性计算。

实现本文方法时,图像自组织由最终选择的特征按相似性计算的层次化聚类自动得到,并不依赖用户对图像的理解。

层次化聚类能够将图像以类似于文件结构的方式组织,符合人们的使用习惯。

本文在对艺术图像进行层次聚类时,需要为每个类簇推荐代表性图像,且应使每个层次结构的图像数量尽量均衡。

因此在选择层次聚类的算法时需从是否基于样例,是否可以控制每层展示的图像数以及是否能为样例选择提供优化方法这三个功能性上考虑。

此外还从算法效率、是否可以全局优化、是否稳定这三个性能上权衡。

现有常用的层次聚类算法主要有传统的凝聚型层次聚类(HAC)、多层版本K-means(MLKMeans)以及层次近邻传播[13](HAP)和近邻传播聚类多层版本(MLAP)等。

其中,HAC算法通过每次将最近的两个子
类簇进行合并,其结果是二叉树结构,很难通过设置将其改变为多叉树。

HAP算法是基于样例和全局优化的,故能得到全局最优结果。

但HAP算法很难通过参数调整,使其每个层次的划分聚类数均衡。

MLKmeans算法不仅效率高,而且有参数输入直接调整聚类数,但其不是基于样例的,也不能对样例选择进行优化,而且其聚类结果对初始点的依赖程度过高。

MLAP是AP聚类的层次化版本,AP聚类[14]是2007年在Science杂志上首先由Frey提出的一种新的聚类算法。

是一种基于样例的稳定聚类算法,其聚类中心是一个样本点,多次运行的结果往往是一致的。

算法无需事先定义聚类数,而是通过参数调整影响聚类个数,同时可进行样例的优化选择,调整聚类中心。

因此,综合上述因素,本文在MLAP算法基础上对艺术图像库进行了聚类。

图像自组织聚类根据N幅图像之间的相似性计算结果进行。

首先将图像组成N×N 的相似度矩阵S。

算法开始时把所有的图像均视作聚类中心,通过图像间的信息传递来实现聚类过程。

算法在迭代过程中不断搜索代表图像作为合适的聚类中心,在图像间计算代表图像的位置及个数,目标是使所有的图像到最近代表图像的相似度之和最大。

在此过程中,图像间维护代表度r和适用度a两种消息,消息传递如图4所示。

r(i,k)是图像i发送候选代表图像k的代表度消息,反映图像k适合作为图像i代表的程度。

a(i,k)则是候选代表图像k发送给图像i的实适用度消息,反映图像i是否选择k作为其代表图像。

r(i,k)与a(i,k)强度越大,则图像k作为代表图像的可能性就越大,并且图像i属于以图像k为代表的聚类的可能性也越大。

消息r 与a值的按照式(4)和式(5)所示计算。

算法通过迭代过程不断更新所有图像的代表度和适用度值,直到算法收敛,产生若干个满足要求的代表图像。

同时将其余的图像分配到对应的聚类中。

本文要实现的是对图像的层次化聚类,因此每层聚类图像数的确定是个需要解决的重要问题。

由式(4)和式(5)可以看出,当s(k,k)较大时,a(i,k)也较大,这时
图像k做为该类聚类中心的可能性也较大。

较大的s(k,k)图像越多时,倾向于成为聚类中心的图像越多。

因而可以通过调整图像的s(k,k)来调整聚类的数目。

假设为每幅图像设置参考度p值作为聚类的一个输入,则可以调整聚类数,有利于控制聚类图像数目。

p值通过改变相似度矩阵S对角线上的数值s(k,k)影响k成为聚类中心的概率,p值越大,聚类数越少。

同样,对于某一图像的p值越小,其被选为代表性图像的可能性越大。

因此可以通过调整一幅图像的p值来调整该图像被选为代表的概率,进而可通过调整所有图像的p值来调整聚类数。

本文通过对100幅、500幅和2 000幅图像在不同p值下对聚类数的影响进行了实验,实验结果如表2所示。

可以看出,聚类数随p值的变化,p值越大,聚类数越少。

因此可根据图像自组织聚类数的控制要求选取合适的p值。

层次聚类过程中,在各层次进行聚类的图像集不同,图像特征phog、harris_sift 和dense_hsv值分布也不同。

因此,需要在聚类前为每个特征设置合适的特征权重来优化聚类效果,为能较好区分图像的特征赋予较高的权重。

因为本文在初始时将每个特征的相似度矩阵都归一化在[0,1]之间,因此在某一特征的表示下图像之间距离和越小,说明该对图像在此特征下越相似,为此特征赋予更高的权重。

参照文献[15]提出对于类簇C j,每个特征的权重wCj,i可由式(6)求得,其中S为相似度矩阵。

因此,在层次化聚类过程中,可以按式(7)计算各层聚类时图像子集的相似度矩阵。

根据上述特征和算法分析,本文给出在艺术图像视觉相似性基础上的自组织聚类算法,其中PcurrentL为聚类数参数preference初始值,算法描述如下:
1.初始化至[0,1];
2.使用AP聚类算法进行聚类:APCluster(SCj,Pm);
3.判断聚类结果中的聚类数clusterNum是否符合需求:
若10≤clusterNum≤15,转4;
若clusterNum<10,
若每个子类簇中图像数≤15,转4;
否则,Pl=Pm,Pm=(Pl+Ph)/2,转2;
若clusterNum>15,比较Pm与Ph,
若Pm=Ph,转2;
否则,Ph=Pm,Pm=(Ph+Pl)/2,转2;
4.返回聚类结果,结束。

在进行层次化自组织的有效性实验之前,需要构造用于作为groundTruth的基准浏览层次结构,通过对比本文图像组织结构和基准浏览结构在用户使用时的效率,并且也比较MLKmeans聚类的结果,评判本文方法的有效性。

本文实验的艺术画图像库Painting-91中,共有13个流派,2 336幅图像。

包含了50个作家的作品,每个作家有40~50幅作品。

在构造groundTruth基准时,合理利用这些已有标签和图像本身的相似性[16]。

第一层为13个流派的代表性图像,每个图像代表一个流派。

第二层在正确的流派下为50个作家的代表性图像,每个图像代表一个作家。

第三层为每个作家划分5~12个不同类别,以代表性图像表示,最底层为图像库中每幅具体的图像。

本文方法得到的结果中,由于类别组织是根据视觉特征进行相似性计算自动完成,某些类簇由于相似图像较多,层次结构及图像分布不一定均匀。

实验设计任务一是查找一幅典型的画梵高的“星空”。

如图5(a)所示,这是一幅人们所熟悉的画,其绘画颜色对比强烈、纹理较为杂乱,用户通过判断其主要色调、纹理等特点层次化浏览,查找图像;任务二是查找10幅颜色明快的风景画。

该任务属于没有明确的目标,仅对目标图像集有一个大致的认识,有色彩明快和风景画两个约束。

图5(b)中仅给出图像库中10个示例图像,符合这两个条件的。

相关文档
最新文档