图像检索系统

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要
基于文本的图像检索技术存在两个缺点。

首先，标注每个图像是比较困难的；再次主观性和图像注释的不精确性在检索过程中可能引起适应性问题。

基于内容的图像检索技术克服了传统的图像检索技术的缺点。

基于内容的图像检索技术分为特征提取和查询两个部分。

本文主要介绍基于颜色特征的图像检索技术颜色特征是图像的基本特征也是最为直观的特征之一。

着重探讨了颜色空间的选取颜色特征的提取和表达颜色的相似度以及现有的图像的检索系统和存在的问题。

在这里颜色空间的选取有RGB颜色模式HSV颜色模型。

颜色提取的基本思想是用颜色直方图来统计每种颜色出现的概率。

目前相关的系统有QBIC系统、Photo book系统、CORE系统等等。

关键词：基于内容的图像检索技术；特征提取；特征表达；颜色直方图；
Abstract
Traditional text-based image retrieval techniques have two shortcomings: First, it has been difficulties to note each image. Second, the subjectivity and no precision of image anno-tation may lead to the adaptation in the retrieval process. CBIR overcome the shortcomings of the traditional text-based image retrieval .Content-based image retrieval can divide into two parts, that is feature extraction and query. In this paper, based Color Image Retrieval is mainly introduced. Color features are the basic characteristics of the image as well as are one of the most intuitive features. Here we focused on the selection of color space, color feature extrac-tion and expression, color similarity, and the existing image retrieval systems and problems. There are many color models to express color such as the RGB color model, the HSV color model. The basic idea to extract color is to use color histogram to calculate the probability statistics of each color .Currently there are some related systems QBIC system related system, Photo book system, CORE system and so on.
Keywords: Content-based image retrieval; Feather extraction; Feather presentation; color histogram;
目录
1 绪论 (1)
1.1 图像检索技术的发展 (1)
1.2 图像检索技术的特点和应用 (1)
1.3 图像检索系统的关键技术 (2)
1.4 基于内容图像检索的典型系统 (3)
1.4.1 QBIC系统 (3)
1.4.2 Virage系统 (3)
1.4.3 Photobook系统 (3)
1.4.4 VisualSEEK和WebSEEK系统 (3)
1.4.5 Netra系统 (4)
2 颜色空间 (5)
2.1 RGB 颜色空间 (5)
2.2HSI颜色空间 (7)
3 颜色特征的表达 (9)
3.1 颜色直方图 (9)
3.2 全局直方图 (10)
3.3 累积直方图 (11)
3.4 局部累加直方图 (11)
4 颜色特征的相似性度量 (12)
4.1 距离度量方法 (12)
4.2 直方图的交集的方法 (12)
4.3 欧氏距离法 (12)
4.4 模糊理论 (13)
5 系统的设计与实现 (15)
5.1 系统的设计 (15)
5.1.1 系统名称 (15)
5.1.2 系统的开发环境 (15)
5.1.3 系统的结构 (15)
5.1.4 系统的实现算法描述 (17)
5.1.5 系统中的图像库和索引表的建立 (17)
5.1.6 容差值的设定 (18)
5.2 系统的实现 (18)
5.2.1 颜色空间的代码实现 (18)
5.2.2 直方图显示的代码实现 (21)
5.2.3 欧式距离的代码实现 (24)
6 实例分析 (25)
6.1 图像检索过程 (25)
6.2 图像的直方图的分析 (26)
6.3 数据记录 (27)
6.4 目前研究中存在的主要问题及对未来的展望 (29)
结束语 (30)
致谢 (31)
参考文献 (32)
1 绪论
1.1 图像检索技术的发展
早期的图像检索是通过人工的标注来实现的，随着计算机技术和通信网技术的发展，特别是因特网的快速发展，图像数据的容量越来越大了，这种“以关键字找图”的方法越来越不适应检索技术的发展了[1]。

由于图像内容的丰富内涵以及人们对图像内容进行抽象时的主观性不同的人对同一幅图像有不同的理解，这就引入了主观多义，不利于检索[2]。

90年代以来出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像检索。

基于内容的图像检索技术直接从要查找的图像的视觉特征出发，在图像库中找到与之相似的图像，是“图找图”的方法。

从研究方向的层面来看，基于内容的图像检索可分为三层：第一层是根据图像的底层特性来进行检索，如颜色、纹理，形状等等，涉及图像信息处理、图像分析和相似性匹配技术；第二层是基于图像对象语义，如图像中实体及实体之间的拓扑关系的检索，对象级检索技术建立在下层特征基础上，并引入了对象模型库、对象识别和人工智能等图像理解技术；第三层是基于图像的抽象属性如行为语义，情感语义和场景语义的推理学习来进行检索。

需要用到知识库和更加有效的人工智能和神经网络技术。

这三个层次由低到高，与人的认知接近，下一个层次通常包含了比上一个层次更高级的语义，更高层的语义往往通过较低层的语义推理获得。

尽管经过了多年的研究，较为成熟的基于内容的图像检索技术目前仍处于底层水平，由于底层研究是上层研究的基础，为了给上层建立准确、有效的图像特征提取方法，底层的研究仍在不断的发展。

1.2 图像检索技术的特点和应用
基于内容的图像检索技术有以下特点：
一是它突破了传统的基于表达式检索的局限，从媒体内容中提取信息线索。

利用图像内容特征建立索引进行检索，使得检索更加有效，适应性更强。

二是基于内容的图像检索是一种近似匹配，即按照某种相似性度量，比较图像特征间的差异度。

相似度较低的图像将作为检索结果返回给用户。

三是它是大型数据库的快速检索。

在实际的多媒体数据库中，数据量巨大，而且种类和数量巨大，因此要求CBIR技术快速地实现对多媒体信息的检索。

四是以相关反馈为有效手段。

为了提高检索的准确性，整个过程是个逐步逼近和相关反馈的过程。

用户的交互性增强了表达查询、评价查询结果和基于评价结果进行进一步检索的能力。

CBIR技术涉及多个领域，包括图像处理、计算机领域、数据挖掘、人机交互等等。

可以广泛应用于社会安全、遥感、医学、数字图书馆、医学、计算机辅助设计等等，前景广阔。

1.3 图像检索系统的关键技术
对于通用的静止图像检索，用于检索的特征主要有颜色（Color）、纹理（Texture）、形状（Shape）等，其中颜色、纹理、形状应用尤为普遍，本文主要研究对静止图像检索。

颜色特征是在图像检索中应用最为广泛的视觉特征。

面向图像检索的颜色特征的表达涉及若干问题。

首先，要选择合适的颜色空间来描述颜色特征；其次，要采用一定的量化方法将颜色特征表达为向量的形式；最后，还要定义一种相似度( 距离) 标准用来衡量图像之间在颜色上的相似性。

颜色内容包含两个一般的概念，一个对应于全局颜色分布，一个对应于局部颜色信息。

按照全局颜色分布来索引图像可以通过计算每种颜色的像素的个数并构造颜色灰度直方图来实现，这对检索具有相似的总体颜色内容的图像是一个很好的途径。

局部颜色信息是指局部相似的颜色区域，它考虑了颜色的分类与一些初级的几何特征。

比如Smith等提出了颜色集合(color set)方法来抽取空间局部颜色信息并提供颜色区域的有效索引。

颜色特征是图像最直观而明显的特征，一般采用直方图来描述。

颜色直方图是表示图像中颜色分布的一种方法，它的横轴表示颜色等级，纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例，直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色。

本文主要讨论颜色特征的图像检索技术，其关键技术路径如图1-1所示：
图1-1 关键技术的路径
其中，颜色空间选用RGB空间，用全局直方图来表达颜色特征，相似性度量选用
欧氏距离计算方法。

1.4 基于内容图像检索的典型系统
鉴于基于内容的图像数据库检索系统的重要性、有效性和优越性，近年来国内外已经纷纷投入人力物力广泛开展研究并且已经研制出了一些系统。

其中既有各研究机构研制的演示软件也有商业应用软件。

下面列举一些具有代表性的图像检索系统。

1.4.1 QBIC系统
国际商用机器公司IBM的QBIC是第一个商业化的基于内容的图像检索系统。

它的系统结构包括图像入库、特征计算、查询阶段。

QBIC系统允许使用例子图像、用户构建的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其他图形信息等，对大型图像和视频数据库进行查询。

1.4.2 Virage系统
Virage是由Virage公司开发的基于内容的图像搜索引擎。

它支持颜色、颜色布局、纹理、结构的查询，并且与QBIC相比较支持四个查询的任意组合。

用户可以根据自己的查询意图调整四个查询的权重。

Virage的核心技术是Virage Engine以及在图像对象层上的操作。

Virage Engine主要有图像分析、图像比较、图像管理三个方面的功能。

1.4.3 Photobook系统
Photobook是MIT的媒体实验室在1994年开发研制的用于浏览和搜索图像的一套交互式工具。

它包括三个子部分，用于提取形状、纹理和面部特征。

用户可以在每个子部分中按照对应的特征进行查询。

它的人脸识别技术已经应用于美国的警察机关。

1.4.4 VisualSEEK和WebSEEK系统
美国哥伦比亚大学图像和高级电视实验室开发的。

它实现了互联网上的"基于内容"的图像/视频检索系统，提供了一套工具供人们在Web上搜索和检索图像和视频。

其姐妹系统WebSEEK是一种面向WWW的文本/图像搜索工具，它主要包括图像、视频、
收集模块，主题分类和索引模块，搜索浏览和检索模块。

目前已分类的图像有66万多幅，形成了一个极富创新性的图像目录，主题分类是它的主要优点。

1.4.5 Netra系统
Netra是UCSB Alexandria Digital Library 发展的图像检索系统原型。

Netra在其图像分块区域中使用颜色、纹理、形状和空间位置信息来从数据库中搜索和检索相似的区域。

它的主要特点是基于Cabor滤波器的纹理分析和基于神经网络的图像分类构造。

2 颜色空间
颜色是图像最基本的特征之一，颜色特征也是图像检索中应用最为广泛的视觉特征，与其他视觉特性相比较，颜色特征对图像本身的尺寸、方向和视角的依赖性较少。

而且颜色特征的提取也相对容易。

一般可以将颜色模型可分为两类，一类是RGB模型，另一类则是HSI模型。

RGB 模型是电子输入设备普遍使用的色彩语言，如显示器、扫描仪、数码相机。

HSI模型是面向视觉感知或颜色处理分析为目的的应用，如动画中的彩色图形，各种图像处理算法等。

2.1 RGB 颜色空间
有几种方法可以定量地表示颜色。

最直接的方法是使用红、绿、蓝的亮度值，大小可以限定到一定的范围，如{0，1，…255}，我们把这种约定称为RGB格式。

大部分数字图像都是用这种颜色空间表达的[3]。

每个像素（实际上任何可能要量化的颜色）都能根据加色原理如图2-1所示，用三维空间中第一象限的一个点来表示，如图2-2中的立方体所示。

三色图像的灰度级直方图是RGB空间的点分布。

在RGB彩色空间的原点上，任一基色均没有亮度，即原点为黑色。

三基色都达到最高的亮度时则表现为白色。

亮度较低的等量的三种基色产生灰色的影调。

所有这些点均落在彩色立方体的对角线上，该对角线被称为灰色线。

彩色立方体中有三个角对应于三基色——红、绿和蓝色。

剩下的三个角对应于二次色黄色、青色和品红。

图2-1 加色系统
图2-2 RGB模型
一幅图像可以看作从点坐标映射到R、G、B空间。

如果在图像中点的位置忽略掉，图像可以认为是R3空间中的点集。

每一幅图像可以分解为R分量图、G分量图、B分量图，如图2-3所示。

原始图像G分量
R分量B分量
图2-3 RGB分量图
2.2HSI颜色空间
另一种有用的彩色方案由色度、饱和度和强度（或亮度）组成的HSI（Hue, Saturation, Intensity）格式，它是Munseu提出的彩色系统格式，经常为艺术家所使用。

这种设计反映了人观察彩色的方式，同时也有利于图像处理。

在HSI格式中，I表示强度或亮度。

H由可见光谱中各分量成分的波长来确定，是彩色光的基本特性。

S反映了彩色的浓淡，它取决于彩色光中白光的含量，也就是彩色光的纯度的反映。

HSI坐标是柱形彩色空间。

灰度影调沿着轴线以底部的黑变到顶部的白，具有最高亮度最大饱和度的颜色位于圆柱上顶面的圆周上如图2-4所示。

图2-4 HSI模型
从两个图像可以看出RGB空间中灰度线是彩色立方体的对角线，而在HSI空间中是垂直中轴。

HSI模型有两个重要的特点，首先亮度分量与色度分量是分开的，I分量与图像的彩色信息无关。

其次是H及S分量与人感受彩色的方式紧密相连（这里强调颜色的重要性，因为人对光的感知与I分量有关）。

这些特点使得HSI模型非常适合人的视觉系统对彩色感知特性进行处理分析的图像算法。

3 颜色特征的表达
3.1 颜色直方图
这里用颜色直方图来描述图像的整体颜色特征。

颜色特征是图像最直观而明显的特征，一般采用直方图来描述。

颜色直方图具有与身俱来的旋转不变性和缩放不变性[4]，如图3-1所示。

直方图特征描述了图像颜色(或灰度) 的统计特性，反映了图像颜色的统计分布和基本色调，但是直方图不包含空间信息，因此不同的图像有可能具有相同的直方图特征。

图3-1 颜色直方图的旋转不变性和缩放不变性
其主要思想是根据颜色直方图统计颜色空间中每种颜色出现的概率，然后对颜色之间的距离采用直方图相交来度量每个颜色直方图之间的相似性。

数字化图像的每一种颜色组合有一个唯一的色度空间值，称为一个颜色频道(Color Channel)。

我们可用颜色直方图(Color Histogram ) 来表示一幅图像上所有象素的色度空间值分布，图中横坐标表示该图像颜色频道的分布，纵坐标表示该图像所有象素中落入特定颜色频道的象素数量。

具体地，设图像为I，图像颜色由L 级颜色频道组成，其中第i 种颜色C i ( i= 1, 2,… , L ) ，落入颜色频道C i 的象素数量为hi，则H(h i, h2, …, h L ) ；这个向量组就是颜色直
方图，它在图中表现为一条离散的曲线[5]。

如下图3-2所示：
图3-2 颜色直方图
3.2 全局直方图
颜色内容包含两个一般的概念，一个对应于全局颜色分布，一个对应于局部颜色信息。

按照全局颜色分布来索引图像，可以通过计算每种颜色的像素的个数，并构造颜色灰度直方图来实现，这对检索具有相似的总体颜色内容的图像是一个很好的途径。

局部颜色信息是指局部相似的颜色区域，它考虑了颜色的分类与一些初级的几何特征。

如Smith 和Chang 提出了颜色集合(Color Set) 方法来抽取空空间局部颜色信息，并提供颜色区域的有效索引。

全局直方图反映的是图像中颜色的组成分布，即出现了哪些颜色以及各种颜色出现的概率，Swain 和Ballard最先提出了使用颜色直方图作为图像颜色特征的表示方法。

他们还指出：颜色直方图相对于图像的以观察轴为轴心的旋转以及幅度不大的平移和缩放等几何变换是不敏感的，颜色直方图对于图像质量的变化(如模糊)也不甚敏感。

颜色直方图的这种特性使得它比较适合于检索图像的全局颜色相似性的场合，即通过比较颜色直方图的差异来衡量两幅图像在颜色全局分布上的差异。

图像特征的统计直方图实际上是一个一维的离散函数，即有
H(k) = nk/N k = 0,1,……,L-1 （公式3-1）式中k代表图像的特征取值，L是特征可取值的个数，nk是图像中具有特征值为k 的像素的个数，N是图像像素的总数。

例如，设计系统中RGB空间内采用256个直方条（bin），对应图像中具体某个颜色特征值像素个数在总像素个数中的比例即为象限中
的纵坐标值。

3.3 累积直方图
当图像中的特征并不能取遍所有可取值时，统计直方图中会出现一些零值。

这些零值的出现会对相似性度量的计算带来影响，从而使得相似性度量并不能正确反映图像之间的颜色差别。

为解决这个问题，在全局直方图的基础上，Stricker和Orengo进一步提出了使用“累加颜色直方图”的概念[6]。

在累加直方图中，相邻颜色在频数上是相关的。

相比一般直方图，虽然累加直方图的存储量和计算量有很小的增加，但是累加直方图消除了一般直方图中常见的零值，也克服了一般直方图量化过细过粗检索效果都会下降的缺陷。

图像特征统计的累积直方图也是一个一维的离散函数，即对原有统计直方图作迭代累加。

显然，当k = L-1时，累积直方图的纵坐标值为1，因为根据所有条件概率求全概率的值为1。

对彩色图像，可对其3个分量分别做累积直方图。

3.4 局部累加直方图
在HSI空间里，H=0基本对应红色，H=pi/3基本对应黄色，H=2pi/3基本对应绿色。

这样在H轴上黄色与红色间，黄色与绿色间距相等[7]。

但从人的视觉感知来讲，黄色与红色间，黄色与绿色间本无所谓哪两个更相似。

这表明色度信号的分布从视觉意义上讲，并不满足累加直方图应用的前提。

所以，对色彩比较复杂的自然景物图像，一般累加直方图算法在检索中就会将不同色度的信号混淆起来。

另外，一幅图像的颜色一般非常多，尤其是真彩色图像，因此直方图矢量的维数会非常高。

如果能采用局部累加后降维，则计算量要少得多。

4 颜色特征的相似性度量
4.1 距离度量方法
图像的相似性度量是基于内容图像检索技术中的一个关键技术。

它是建立在图像内容的基础上，根据图像内容的相似度得到图像的相似性。

颜色的相似度就是用数值来表示两幅图片在颜色上的相似度。

颜色特征的相似度一般采用距离法。

一般有直方图的交集、直方图欧氏距离、直方图余弦距离、二值集hammimg 距离、直方图二次距离度量、二值集二次距离、直方图Mahalanobis 距离[8]。

下面对几种距离度量方法做简要的介绍。

4.2 直方图的交集的方法
直方图的交集算法，根据颜色索引检索出查询图像的颜色直方图，将其与图像库中的每一图像的直方图取交集，根据交集的值来选出最佳匹配图像。

直方图交集的公式如下： D(Ha,Hb)=∑∑N k j i ,,N k j,,i )k j,Hb(i,)}
k j,i,(Hb ),k j,Ha(i,min{ (公式4-1)
其中Ha 为查询图像直方图，Hb 为图像库中的任一图像直方图，)H ,D(H b a 为两图像的匹配值。

(0,1))H ,D(H b a ∈，它的值越接近1，则两图像越相似。

直方图交集方法能对两幅图像进行详细的比较，然而对于许多合成的图像，如商标等，它们有大量的一致颜色，三维直方图只有几个域的值很高，而其它许多域的颜色信息变化有限。

因而，对于这样的图像进行过细的比较是不必要的。

又由于在扫描图像时容易产生一些噪音，所以这种过细的比较容易产生错误的结果。

4.3 欧氏距离法
衡量两幅图片是否相似可以采用欧氏距离来描述：
D = ( A , B) = ∑-N
Bi)Ai (i (公式4-2)
其中A ，B 为两幅图片的颜色直方图，D 越小相似度就越大。

检索后全图直方图的相似度的定量度量如下表示：
Sim ( A , B) =∑--
N i )Bi)MAX(Ai Bi -Ai 1(N 1 (公式4-3)
其中N 为颜色级数，Sim 越靠近1，两幅图片越相似。

如果对公式4-3加以改进，即对某些相对重要的颜色乘上一个权重，就可以做寻找某一前景或组合的查询。

全图的颜色直方图算法过于简单，因此带来很多问题，如：可能会有两幅根本不同的图像具有完全一样的颜色直方图，不反映颜色位置信息，这样导致查准率和查全率都不高，因此笔者提出了一个改进，即将图像进行了分割，形成若干子块。

这样就提供了一定程度的位置信息，而且可以对含用户感兴趣的子块加大权重，提高检索的查询智能性和查准查全率[9]。

相应的公式有子块A ij 与B ij 的相似性度量，如公式4-4所示：
Sim ij ( A ij , B ij ) =∑--
P i )Bk)MAX(Ak Bk -Ak 1(P 1 (公式4-4)
其中P 为所选颜色空间的样点数。

再引入子块权重W ij ，选取L 个最大的Sim 值作Sim k ( G k , S k ) ，就有公式4-5如下所示：
Sim( A , B) = ∑=L 1k W k Sim k ( A k , B k ) (公式4-5)
其中W k 的选取应根据图像的特点决定，可以使图像中间或用户指定的区域权重大，以反映图像的位置信息。

由以上公式算法可以推断，根据Sim 的值就可以得出最终查询结果。

4.4 模糊理论
模糊理论是在美国加州大学伯克利分校电气工程系的L.A.zadeh 教授于1965年创立的模糊集合理论的数学基础上发展起来的，主要包括模糊集合理论、模糊逻辑、模糊推理和模糊控制等方面的内容[9]。

模糊理论是以模糊集合(fuzzy set)为基础，其基本精神是接受模糊性现象存在的事实，而以处理概念模糊不确定的事物为其研究目标，并积极的将其严密的量化成计算机可以处理的讯息，不主张用繁杂的数学分析即模型来解决模型[10]。

模糊集理论是对传统集合理论的一种推广，在传统集合理论中，一个元素或者属于一个集
合，或者不属于一个集合；而对于模糊集来说，每一个元素都是以一定的程度属于某个集合，也可以同时以不同的程度属于几个集合。

对人们现实生活中大量使用的一些含义确定但又不准确的语言表达，比如“今天天气很热“、“车速过高，需要适当踩刹车”等，用模糊数学可以很好的表达。

5 系统的设计与实现
5.1 系统的设计
5.1.1 系统名称
基于颜色特征的图像检索系统
5.1.2 系统的开发环境
系统实现选用的开发工具为Microsoft公司的Visual C++ 6.0。

C++是最流行的面向对象语言之一，支持对象、类、方法、消息等概念，同时也支持面向对象方法的封装机制和继承、多态性机制[11]。

1998年C++由ISO(International Standards Organization)完成了标准化，C++标准提供了统一的C++标准库，为用户提供了最为广泛的编程基础设施。

Visual C++ 6.0是Microsoft 公司推出的基于Windows 的可视化集成开发环境，将编辑、编译、链接和执行集成为一体，能用它来开发32位程序[12]。

Visual C++经历了从1.0
到6.0版本的发展，软件系统逐渐庞大，功能日益完善。

5.1.3 系统的结构
基于图像的颜色特征的图像检索主要思路是：从图像中分析抽取底层视觉特征用于检索，这里是用颜色特征来衡量图像之间的相似度以实现基于内容的检索。

整个流程可用图5-1所示框图表示：
图5-1 基于颜色特征的图像检索系统框图
我们可以从系统框图中抽象出四个层次：
(一)颜色空间内特征提取
颜色空间为RGB。

自动地对图像数据进行自动的特征提取，提取用户感兴趣的、适合检索要求的特征。

全局统计直方图表示图像全局的特征。

(二)图像匹配
用欧氏距离法作为相似性度量方法，在选取了特征之后，判断欧氏距离，欧氏距离越小，图像越接近，从而在图像库中的找出与待识别的图像的特征最为接近的图像最为查找的结果。

(三)特征索引
当图像库中包含大量图像数据时，为了有效地进行查询，合适的存取、访问结构就变得非常的重要了[13]。

为每张图像绘制直方图，以这些直方图信息建立一个索引。

(四)用户反馈
基于用户反馈的检索是将人包括在检索环路中[14]，以弥补自动语义分析面临的困难，通过交互式的反馈，来决定采用何种类型特征组合及多大特征权值进行检索，从而。