基于内容的图像检索算法与系统

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要
随着计算机技术的发展，计算机视觉图形和数字图像的数量越来越多。

面对海量的图像资源，快速有效的图像检索方法成为了近年来研究的热点。

论文主要研究了颜色、纹理和形状三种特征提取算法，并实现了基于内容的图像检索系统，能独立完成对数字图像的处理，实现以图搜图的检索功能。

其中的颜色特征提取采用颜色直方图和颜色矩特征算法，通过像素统计、多维矩阵运算量化图像颜色特征并进行图像匹配；纹理特征提取算法可通过图像灰度共生矩阵提取能量、熵、逆差矩等特征进行相关处理并检索；此外，还增加了基于形状的特征提取算法，将图像二值化后提取其Hu不变矩进行处理，其结果用于修正和优化颜色或纹理的检索结果。

图像特征比对采用空间节点自适应处理后的欧氏距离进行运算，以保证多特征检索时的加权稳定性。

图像检索系统在VS2008运行环境下进行C++程序开发，有面向用户的操作面板，可根据需求自定义实现单一特征检索和综合多特征的联合检索。

与以往图像检索系统相比支持多种算法及结果修正并集成了多种参数显示，性能更加稳定。

关键字：颜色特征纹理特征形状特征图像检索
Abstract
With the development of computer technology, the number of Computer graphics and Digital images are more and more. Facing the large amount of Image resources, fast and effective image retrieval method becomes a hot research topic in recent years.
This research is mainly about color、shape and texture of Content-based image retrieval system which can accomplish the digital image processing independently to achieve the function of the image search by images.
The color feature extraction method uses color histogram and color moment characteristics of the algorithm, it relies on pixel statistics method and multidimensional matrix method to obtain the image color features for image retrieval; Texture feature extraction algorithm calculates the image gray level co-occurrence matrix and gets the Energy、Entropy and the Inverse Different Moment for better search; Besides, the research adds the shape characteristics of the algorithm which can get the binary image and extract the Hu invariant moment to optimize the results. the methods of comparing images depend on the Euclidean distance after adaptive space node processing so that the system can be more stable.
The system application development relies on the visual studio 2008 with MFC. It contains the user oriented operation panel which can finish single retrievals or integrated retrieval according to the demand of the user. Compared with the previous image retrieval system, it supports a variety of algorithm and amends results of single search. It can also show all parameters about the retrieve with stable performance.
Key words：Color Texture Shape Image Retrieval
目录
第一章绪论 (1)
1.1课题研究背景 (1)
1.2图像检索技术研究的现状和发展方向 (2)
1.2.1研究现状 (2)
1.2.2图像检索技术发展方向 (3)
1.3本文主要内容 (4)
第二章基于内容的图像检索 (5)
2.1图像检索系统特点 (5)
2.2 CBIR过程的一般框架 (5)
2.3检索性能的评价标准 (6)
2.3.1查全率和查准率 (6)
2.3.2排序评价方法 (7)
2.3.3响应时间 (7)
第三章图像特征提取方法 (8)
3.1 颜色特征 (8)
3.1.1颜色模型 (8)
3.1.2 颜色特征提取 (11)
3.2 纹理特征 (13)
3.2.1 纹理特征的提取方法 (14)
3.2.2 基于像素域的纹理检索 (15)
3.3形状特征 (16)
3.3.1 Hu不变矩 (17)
3.3.2 区域分割方法 (17)
3.4特征比较 (18)
第四章检索系统程序的设计 (20)
4.1开发环境 (20)
4.2开发流程 (20)
4.3系统功能模块 (21)
4.3.1用户界面模块 (22)
4.3.3系统设置模块 (23)
4.3.4检索库扫描模块 (23)
4.4图像检索模块 (24)
4.4.1建立索引模块 (25)
4.4.2特征提取模块 (25)
4.4.3相似度计算模块 (29)
4.4.4结果处理模块 (31)
4.5程序界面效果 (32)
4.6程序性能评价 (35)
第五章总结与展望 (37)
5.1全文总结 (37)
5.2未来展望 (37)
参考文献 (38)
致谢 (39)
附录 (40)
第一章绪论
1.1课题研究背景
如今科技发展迅速，计算机科学在我们实际生活中应用的越来越广泛。

人们对数字图像的应用和需求量也在不断增大，那么，如何在大量的图像中快速准确的找到符合自己要求的图像这一问题也被越来越多的人关注。

因此，对于图像的检索技术也成为了计算机图形图像处理领域的一个研究重点。

据统计，人类接受外部信息有70%以上来自视觉，而图像作为一种内容多样，表现直观的多媒体信息载体被大量广泛地使用。

如何有效的管理、检索图像也因此成为了需要解决的迫切问题。

传统检索无法满足海量资源环境下多媒体信息库检索的要求。

为了克服传统方法的局限性，人们提出了基于内容的图像检索。

图像检索技术最早可以追溯到上世纪70年代，但当时人们普遍应用的是基于文本的图像检索技术，即人工给图像添加文字注释随图片一起储存，然后利用对文字的检索从而得到相关对应的图片。

常见的文字标注作为图像的关键字一般为作者，标题，大致内容，发布时间等等，但是人工标注的工作量是及其巨大的，随着人们对于信息量的要求不断增加，人为标注很难跟上快节奏的信息处理速度。

人为描述也有一定的不确定性，对同一事物不同人的描述语言也有很大差别，传统的检索技术已经远不能满足人们的要求。

特别是MPEG-7的制定和完善，也更加推动了新型凸显检索技术的发展。

通过大量在传统文本检索方式基础上的研究，我们引出了如今使用广泛的检索技术，基于内容的检索方式（Content Based Image Retrieval，CBIR）。

基于内容图像检索方式与传统的基于文本检索方式相比，具有如下特点：
（1）直接从媒体内容中提取特征线索，突破了关键词检索基于文本特征的局限。

（2）检索方式具有多种多样性，基于内容的图像检索可以提供浏览方式、基于实例的检索方式以及基于草图的检索方式等等。

（3）人机交互式检索。

基于内容的图像检索技术经常采用各种调整检索参数或建立不同检索模型等方法，以人机交互的方式来建立和捕捉图像高层语义与底层特征之间的联系。

（4）相似度匹配检索：基于内容的检索按照特定的匹配算法，将输入的图像特征与特征库中的特征元数据进行相似度匹配，将满足一定相似性的初始结果按照相似度大小排列，反馈给用户。

基于内容的图像检索对于促进数字图像处理技术的发展有着很重要的意义。

它能很好的量化图像的各个特征并进行对比和匹配，通过具体的算法实现检索，极大
的提高了检索准确性。

而且这种检索方法更加高效，如果结合数据库存储相关技术，我们能大规模的进行数据处理，减少人工的工作量，缩短检索时间。

因此，这种新型检索技术已经广泛的应用于互联网应用、计算机辅助设计等多个领域。

1.2图像检索技术研究的现状和发展方向
近年来，图像检索已经引起了许多相关交叉学科研究人员的注意。

特别是在美国等发达国家，许多高等院校、科研部门、商业公司甚至是政府机构都曾投入过很大的人力物力来进行研究。

1.2.1研究现状
采用CBIR方法开发的第一个功能较为齐全的系统是IBM公司Almadell研究中心开发的基于图像内容查询(Query by Image Content，QBIC)系统，它利用颜色、形状、纹理和草图等多种方法进行检索，给出用户示例图像或草图，可在图像库中找到相似的图像来。

美国加州大学伯克利分校与加州水资源部合作进行了Chabot计划，开发系统用于检索水资源部大量的水资源方面的图片。

另外，密歇根州立大学也开发了一种商标、图标图像检索系统，该系统通过计算归一化的颜色直方图之间的欧氏距离，并用Canny算子提取边缘点，用边缘点的方向直方图来表示形状，从而综合了颜色和形状两种特征，使得检索精确度有较大的提高。

目前基于内容的图像检索技术已经在全球范围内广泛使用，尤其是经过改进开发后的检索技术已经应用于各个领域：
（1）防止犯罪等司法部门
应用人脸识别技术，根据专家对犯罪嫌疑人的头像特征的描绘图像，定位犯罪人的真实面目。

（2）军事领域
可以用于武器的精确制导，通过实时获取的图像信息，对其进行解译，保证打击的准确性。

（3）版权保护领域
针对商标与设计专利类的图像进行检索，防止专利纠纷的产生。

（4）建筑和工程设计
通过对建筑及工程设计物体的图像检索，可以聚类相同风格特色的建筑及工程设计产品。

（5）广告业、艺术设计
应用图像检索，可以找到需要的各种素材，进行艺术设计的再创造。

（6）医学领域
对各种医学透视CT图像进行检索，可以快速定位类似病例，及时快速的帮助病人找到病因，会对临床、医学研究、远程医疗、异地会诊乃至医学教育等方面产生积极和深远的影响。

（7）古生物学、考古学
通过对古生物化石图像的解释，确定古生物所属类型等信息，便于发现新的物种；应用于古文物的图像检索，通过对比，签定文物的真伪、所属历史时期等。

（8）地理信息系统和遥感
对遥感图像的检索，主要是解译影像数据中的建筑、村庄、耕地等不同种类地物信息，制作实时、准确、逼真效果的专题图件，应用于地理信息系统中矢量处理模块。

（9）安全技术
应用指纹、眼膜识别技术，对用户的指纹或者眼膜提取图像特征进行匹配，鉴定用户真实身份。

我国国内的主要研究主要是图像的颜色查询和纹理查询，自上世纪90年代基于内容的图像检索技术成为了热定课题后，很多领域中对于图像处理检索技术都有了很大的发展。

目前，该技术主要应用于人脸识别、针对商标专利等图片的查询等，在医学、遥感领域也有一定的应用。

1.2.2图像检索技术发展方向
（1）基于文本内容结合的检索研究
结合文本和内容，二者虽侧重不同但却互相补充。

如果能将二者结合,取长补短，则网络图像检索技术一定会有新的进展。

现有图像检索引擎对于信息的标引和自动加工处理方面都有待提高，我们还需要开发计算机自动标引技术和识别图像的算法，以完善检索功能，并与当前比较成熟的图像库检索技术结合，这是今后研究的一个重要课题。

而且，图像库检索技术也应该面向网络，利用网络技术对其进行改进，从而提供新的WWW访问界面取代曾经的应用界面。

同时也将大量图像库资源利用网络实现了资源的共享。

（2）对用户查询接口的研究
这涉及到人类肉眼对图像内容的具体感知表达、如何形成并提交查询、交互方式的设计等方面。

我们现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性，即人在系统中可以是主动的。

除了能描绘查询基本接口和提供示例之外，用户查询接口也应当提供较丰富的交互能力，使用户可以在主动交互过程中表达其对图像语义感知，以便调整查询参数及其组合方式，最终获得满意查询结果。

而用户查询接口
应该较为直观易用，选择底层特征对于用户来说应该是透明的。

这就涉及到如何把用户查询表达具体转换为能够执行检索的特征矢量，从交互过程中获得用户对内容的感知，以便选择合适的检索特征来进行检索等问题。

（3）内容描述标准
由于基于内容的图像检索技术的广泛应用，颜色、纹理和形状等特征在不同系统中大量使用，自上世纪90年代起，国际上就有了许多对基于内容图像检索技术标准的相关研究。

从最基本的颜色特征检索，到综合图像的多种特征进行检索，研究者们推出了大量的原型系统。

其中，部分已经投入到实际应用中并取得良好效果。

在Internet环境下，MPEG专家组制定了一个基于内容的多媒体描述方案，即MPEG-7标准，对各种不同类型的多媒体信息内容的描述方式进行了标准化定义，从而实现CBIR与其他多媒体描述的互连。

1.3本文主要内容
本文主要介绍了现代社会中较为常见的图像检索技术，重点描述了基于颜色纹理形状的特征检索，并通过相应程序开发实现了基于内容的图像检索系统。

第一章绪论主要介绍了图像检索技术的研究背景，比较详细的总结了目前较为常见的几种检索方式，并对全球研究现状进行分析，展望基于内容的图像检索技术的未来发展方向。

第二章详细的介绍了基于内容的图像检索系统的特性和开发时的一般框架，并解释了对于检索系统目前国际常用的量化评价标准。

第三章详细描述了多种特征提取算法的原理和应用，为本文重点章节，本次研究开发的检索系统中的所有算法均以本章所介绍的原理为理论基础。

第四章介绍了图像检索系统开发的流程和思路，全面介绍了检索系统中各类模块的功能和原理，并对最后的检索系统进行性能评估，总结本所文介绍各类算法的优劣性，找到相应最佳方法。

第五章为对于图像检索技术发展的总结与展望。

本次研究对图像检索技术的基本知识进行了比较全面细致的介绍，但随着计算机视觉技术的发展，对图像检索技术未来的展望显得尤为重要。

第二章基于内容的图像检索
基于内容的图像检索（CBIR）是指根据图像颜色、纹理、形状等视觉特征，从已定的图像库中查找含有特定特征图像的技术。

与传统的图像检索手段不同，它融合了图像理解技术，对每一幅给定的关键图进行基于像素的分析并提取图像的特征向量，将该图像的特征向量和特征库中的特征向量进行匹配，实现图像检索。

2.1图像检索系统特点
CBIR 方法利用图像的视觉特性，实现了用图像来检索图像。

这比利用传统的文字标注等要有效的多。

基于内容的图像检索是根据图像的颜色、形状、纹理等特征以及这些特征的组合来查询图像的，这是计算机图像处理和数据库技术的很好的结合。

这些系统大部分都具有以下几个功能特点：
（1）基因例子图像的检索：即用户可以提供一副例子图像系统自动提取例子图像的图像特征，并且将其与图像库中的图像特征进行比较，将图像数据库中与之最相似的图片返回给用户。

（2）随机浏览功能：用户可以在图像数据库中随机浏览一些图像，若发现感兴趣的图像，可将此图像作为例子图像，在进行基于例子图像的检索。

（3）基于草图的检索：有些系统还提供具有草图绘制的功能模块，用户可以将要检索的图像内容以草图的形式绘制出来，然后将草图提交给系统。

系统自动提取草图的图像特征，并将其与图像数据库中的图像特征进行比较，将图像数据库中与之最相似的图像反馈给用户。

（4）图像分类浏览：系统将图像数据库中的图像按一定的分类标准进行分类，用户可按分类形式浏览图像数据库。

对于基于内容的图像检索有三个关键：一是要选取恰当的图像特征；二是要采取有效的特征提取算法；三是要有准确的特征匹配算法。

2.2 CBIR过程的一般框架
CBIR系统可以看成是一个用户和检索图像库之间的一个通道，其过程的一般框架可以描述为如图2.1所示。

用户界面
查询查询
查询查询
图
像
库图2.1 CBIR过程一般框架图
各模块的作用：
（1）查询模块：能载入图像并为用户提供多种查询手段，以支持用户进行自定义要求的查询或者选用自适应方式查询。

（2）特征提取模块：将用户查询的目标图像或图像库中的图像进行特征提取，使用查询模块中规定的检索算法进行提取，得到图像特征值。

（3）匹配模块：带检索图像特征和图像库中图像的特征通过相关算法进行匹配，确定它们内容的一致性或相似性。

（4）反馈模块：把满足既定条件的信息自动的从库中提取出来并反馈给用户，实现图像的检索显示。

2.3检索性能的评价标准
随着图像检索技术的不断发展，研究人员分贝提出了各种不同的特征提取算法和相似度的匹配算法，而每一种算法都有各自的特点和适应性。

对于某一特定的图像库，应该采用哪种算法能得到比较好的检索结果，这需要我们对不同算法的检索效果进行比较和评价，选出最优算法。

评价枷锁性能的优劣主要有检索的准确度和检索速度两个方面。

检索的准确度主要由采用的特征提取算法和相似度匹配算法决定；检索的速度主要受图像特征的索引和相似度匹配算法复杂度的影响。

同时我们还可以采用并行计算来提高检索系统的整体性能。

2.3.1查全率和查准率
查全率（recall ）是指再一次查询过程中，系统返回的查询结果中相关图像的数目占整个图像库中所包含的相关图像数目（包含检索返回的和没有检索返回出来的相关图像）的百分比。

查准率（precision ）是指系统返回的查询结果中相关图像的数目占有所有返回的图像数目（包含相关的和不相关的图像）的百分比。

这里的相关图像是指图像库中于查询条件相似或相同的图像。

用户在检索时，可以指定图片作为查询
图像，计算这些图像的查准率和查全率。

P 表示查准率，R 表还查全率。

其中，N A 为检索返回的相关图像数目，N B 为检索返回的不相关的图像数目，N C 为检索图像库中未能检索出来的有关图像的数目。

用R 表示X 轴，P 表示Y 轴，得到查全率—查准率曲线f(x,y)，该曲线称为PVR 曲线。

A B A
N P N N =+A
C A N R N N =+（公式2-1）（公式2-2）
我们计算曲线f(x,y)在0和1区间围成的面积：
面积S f 称为图像的PVR 指数。

PVR 较大则证明此次图像检索的效果很好。

该方法的一个不足之处在于没有考虑返回的相似图像在检索出来的图像中所处的位置。

基于查准率和查全率，研究者们还用以下几种度量方法来评价图像检索系统的性能：
（1）3点平均值：查全率为0.2,0.5，0.8处查准率的平均值。

（2）11点平均值：在11个查全率点处查准率的平均值。

（3）当查准率下降到0.5时的查全率。

（4）Shapiro 和Berman 通过判断相关图像在返回的前400幅和前25幅图像中出现的比例来评判检索性能。

2.3.2排序评价方法
查全率-查准率没有考虑返回的相关图像在检索出来的图像中所处的位置，因此我们用检索出来的相关图像的平均序号来解决这一问题。

我们用N 来表示检索出来的图片数，N r 表示检索出来的相关图像数，O r 表示检索出来的相关图片在检索图片中的序号，用K 1表示平均序号：
理想情况下，所有相关图片应该排在检索出来的图像的前面，因此理想的平均序
号为K 2： 2.3.3响应时间
响应时间是指从用户提交查询图像开始检索到检索返回结果为止所经历额时间。

由于系统在检索时要进行查询图像的特征提取、相似度计算及排序，如果采用不同的特征提取算法，相似度匹配算法等，显然系统会有不同的响应时间。

对于检索用户来说，当然希望在检索效果不变的情况下，系统响应时间越短越好，所以响应时间T 也是图像检索系统的一个重要性能指标。

10(,)=⎰f S f x y dx 111==∑R N r r R
K O N 22=R
N K （公式2-3）
（公式2-4）（公式2-5）
第三章图像特征提取方法
在计算机视觉和图形处理领域，特征的概念被用来表示一定的信息，这些信息是为了表达目标的特性以达到人们对其处理的目的。

图像特征提取主要有底层特征提取和高层特征提取。

高层特征往往基于语义层次本文不在详述，底层物理特征主要有颜色、纹理、形状等，这些特征相对简单，广泛应用于图像检索领域。

3.1 颜色特征
基于颜色的图像检索技术，首先需要选择合适的颜色空间。

其次，需要在颜色空间提取能表征图像内容的颜色特征。

最后，对图像间的颜色特征进行相似性比较，计算图像之间在颜色特征上的相似性。

本节将重点介绍图像颜色特征的特点和提取方式。

3.1.1颜色模型
颜色模型用来描述人们所能处理和感知的颜色。

在实际的应用中，表示颜色的方法有很多种，每种颜色模型都对应不同的度量颜色坐标系。

我们常见的颜色模型包括RGB（红色、绿色、蓝色）、HSV（色相、饱和度、亮度）、CMYK（青色、洋红、黄色、黑色）、YUV、Lab、CIE等。

一般来说，机器显示时采用RGB颜色模型，纸质印刷时用CMYK颜色模型，彩色电视信号数字化时采用YUV颜色模型。

为了便于色彩的处理和识别视觉系统常采用HSV颜色模型。

在实际生活中，人们根据不同的需求设计了许多的色彩模型，但是如何把这些色彩模型进行分类，我们目前还尚无一个准确的分类方法或原则。

本文采用的是部分学者分别从颜色感知、技术或应用角度出发所提出的分类方法。

从颜色感知的角度出发，颜色空间可分成如下三类：
（1）混合型颜色空间：按照3种基色的比例来合成颜色。

例如CMY(K) 、RGB 和XYZ等颜色空间就属于这种类型。

（2）非线性亮度/色度型颜色空间：这种色彩空间的特点是用一个分量来表示非色彩的感知，两个独立的分量来表示色彩的感知。

这样当需要黑白图像时，系统会非常方便。

例如，YUV等颜色空间。

（3）强度/饱和度/色调型颜色空间：用色度与饱和度来描述对色彩的感知，可使颜色解释更为直观，而且能消除光亮度的影响。

例如，HSL、HSV等颜色空间。

从技术的角度上区分，颜色空间又可分成如下3类：
（1）计算机颜色空间：这类颜色模型主要用于面向电视机和计算机的颜色系统。

例如，RGB、HSV等颜色空间模型。

（2）CIE 颜色空间：国际照明委员会定义了此颜色空间，因此它大多作为国际性的颜色量化标准。

这种色彩空间是一种和设备无关的颜色空间模型，当在科学研究中应用广泛。

如XYZ 颜色空间等。

（3）电视系统颜色空间：由于广播电视需求的推动所开发的颜色空间，这种颜色空间模型的主要目的是通过压缩色度信息以有效地播送彩色电视图像。

如YUV 颜色空间模型等。

① RGB 颜色空间
这种描述颜色的模型叫做基色混合性颜色空间，任意彩色像素点都可以分解称为红（R ）、绿（G ）、蓝（B ）三个单色混合而成。

光的量由基色光单位表示，因此任意颜色光均可用RGB 三色混合的方法表示：
其中：(r,g,b) 分别是某个颜色F 的红、绿和蓝的颜色坐标，它们的值为由 0 到 255 之间的实数。

这种颜色的标准基本能涵盖人类肉眼视力所能感知的所有色彩，是目前本领域应用最广泛的颜色空间模型之一。

简述其原理就是，我们在CRT 显示系统中，颜色阴极射线管使用R 、G 、B 的值驱动其中的电子枪来发射电子来激发荧光屏的R 、G 、B 三种颜色的荧光粉来发出光亮度不同的光线，这几种光线混合相加后就能产生我们所能见的各种颜色。

而我们之所以用RGB 来表示色彩，最终还是归咎于我们人眼对于红色、绿色和蓝色特别敏感。

颜色模型对应的是笛卡尔坐标系中的一个立方体，当RGB 都是0时在坐标原点处即表示的是黑色，反之都取最大值255时对应为白色。

由于空间中不同点代表不同
][][][B b G g R r F ++=（公式3-1）
图3.1 RGB 颜色空间模型。