Internet图像检索技术综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第24卷第2期海南大学学报自然科学版
2006年6月NATURALSC皿NCEJoURNALoFHAINANI心ⅡVERSITYV01.24No.2
Jun.2006
文章编号:1004—1729(2006)02—018l一07
…emet图像检索技术综述
温小斌,康耀红
(海南大学信息科学技术学院,海南海口570228)
摘要:对Intemet图像检索的现状和发展趋势进行了全面的综合论述,对基于文本的图像检
索、基于内容的图像检索和基于语义的图像检索3种流行的图像检索技术进行了深入的讨论.通
过广泛收集资料,对几种技术进行了比较性研究.最后,提出了若干值得深入研究的方向.
关键词:图像检索;基于文本的图像检索;基于内容的图像检索;基于语义的图像检索
中图分类号:TP393文献标识码:A
随着Intemet应用的不断深入,网络上的图像资源急剧增加,如何从这些海量的图像数据中快速有效地找出需要的信息,是一个非常有理论价值和实际意义的课题.实际上,图像检索已经成为目前国内外的一个研究热点….
关于图像检索的研究可以追溯到20世纪70年代,当时主要是基于文本的图像检索技术(Text_basedIIIlageRetrieval,简称rIBIR),利用文本描述的方式表示图像的特征,这时的图像检索实际是文本检索.到90年代以后,出现了基于内容的图像检索(content-basedImageRetrievaJ,简称cBIR),即对图像的视觉内容,如图像的颜色、纹理、形状等进行分析和检索,并有许多CBIR系统相继问世.但实践证明,TBIR和CBIR这2种技术远不能满足人们对图像检索的要求.为了使图像检索系统更加接近人对图像的理解,研究者们又提出了基于语义的图像检索(Semantic.basedImageRetrieval),试图从语义层次解决图像检索问题.下面分别对这3种技术进行阐述.
1基于文本的图像检索
1.1早期的TBlR基于文本的图像检索沿用了传统文本检索技术,是一种基于关键词的匹配查找过程.在早期的TBIR系统中,图像被作为数据库中存储的一个对象,用文本对其进行描述.这样,图像检索实际上变成了文本检索.这种方法简单易行,用DBMs就可以实现,但存在2个缺点:一是需要手工对图像进行注释,工作量相当大,当图片数据量非常大时,手工标注是不切实际的;二是手工标注不可避免地会带来主观性和不精确性口J,因为不同的人对同一幅图像的理解可能是不相同的.
1.2Intemet环境下的TBIR在Intemet环境下,人工对网上的海量图像数据进行注释是不现实的.随着信息检索技术的不断成熟,网页信息自动采集和标引"1作为搜索引擎的重要组成部分,得到了深入的研究,并广泛应用于文本搜索引擎中.自动采集和标引技术同样可以应用于
收稿日期:2005一03—04
作者简介:温小斌(1981一),男,江西宁都人,海南大学信息科学技术学院2003级硕士研究生
182海南大学学报自然科学版2006年
图像搜索引擎.目前,Intemet上许多搜索引擎在提供文本检索的同时,也提供图像检索服务,如Google,Yalloo和百度等,它们采用的都是TBIR技术.
图像信息在数据库中的索引方式可有2种,即全文索引和关键词索引.全文索引是用图像所在网页的全部文字信息作为图像的注释,网页上出现的任何文字信息都认为与图像相关.显然,这样的图像标注是很粗糙的,准确性不高.采用这种机制的特点是具有很高的查全率,而查准率比较低.与其不同的是,基于关键词的索引使用若干关键词来表示图像信息,这些关键词从图像所在的网页获得.一般地,图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都可以用作图像分析的依据,根据这些文本内容,生成描述图像信息的关键词,实现图像的自动标注.采用关键词标注的特点是查准率相对较高,而查全率较低.
1.3小结,I'BIR技术能够用文本来表达图像的语义信息,符合人们的检索习惯,实现简单,可以充分利用已有的成熟的文本检索技术和搜索引擎技术,但TBIR也存在许多缺点.首先,以图像所在的网页为依据,对图像进行自动标注,这种标注往往是很不准确的.例如,在G009le的图像检索中输入“海南大学”作为关键词进行检索,会检索出许多与海南大学无关的图片,这就是自动标引不准确所造成的.另外,用文本表示图像的方式也不能满足用户对图像原始特征信息的检索.例如,用户希望搜索一件浅蓝色的有方格图案的衬衣,在TBIR系统中很难表达他的需求,更不用说检索出他想要的图像了.
2基于内容的图像检索
为了克服基于文本的图像检索技术的局限性,研究者们提出了基于内容的图像检索¨6l,即把图像的视觉特征,例如颜色、纹理结构和形状等,作为图像的内容表示,进行匹配、查找.迄今,已有许多基于内容的图像检索系统问世,如QBIC‘7—81,MARS‘9。

101,websEEK‘11。

121和Photo.book[13。

141等.
2.1图像内容的层次文献[5]给出了一个简化了的图像内容的层次模型(如图1所示):第1层为原始数据层,即图像的原始像素点;第2层
为物理特征层,反映了图像内容的低层物理特
征,如颜色、纹理、形状和轮廓等;第3层为语义
特征层,是人们对图像内容概念级的反映,一般
是对图像内容的文字性描述.CBIR进行检索时
利用的是第2层的特征.
2.2特征提取特征提取是CBIR系统最基
础的部分,在很大程度上决定了CBIR系统的
成败.目前,大量cBIR的研究都集中在特征提
取上¨5|.目前图像检索中用得较多的视觉特征
包括颜色、纹理和形状.
图1图像内容的层次
2.2.1颜色颜色是一幅图像最直观的属性,
因此颜色特征也最早被图像检索系统采用.实践表明,基于颜色的cBIR系统具有较好的性能,而且实现相对容易.最常用的表达颜色特征的方法是颜色直方图.颜色直方图描述的是不同色彩在整幅图中所占的比例,而并不关心每种色彩所处的位置,即无法描述图像中的对象或物体.除了颜色直方图之外,常用的颜色特征表示方法还有颜色矩和颜色相关图.颜色矩采用颜色的
第2期温小斌等:Intemet图像检索技术综述183
一阶矩、二阶矩、三阶矩来表达图像的颜色分布.颜色相关图不但可以刻画某一颜色的像素数量占整个图像的比例,还能够反映不同颜色对之间的空间距离相关性.文献[16]对这些方法进行了分析和比较.
2.2.2纹理纹理是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,它包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系.主要的视觉纹理有:粗糙度、对比度、方向度、线像度、规整度和粗略度.图像检索中用到的纹理特征表示方法主要有:Tamura法、小波变换和自回归纹理模型.文献[17]详细比较了各种方法.
2.2.3形状图像中物体和区域的形状是图像表达和图像检索中经常用到的另一类重要特征.通常形状可以分为2类,即基于边界的和基于区域的,前者指的是物体的外边界,而后者则关系到整个形状区域.描述这2类特征的最典型的方法分别是傅立叶描述符和形状无关矩.详细的讨论请参阅文献[18].
2.3查询方式cBIR系统向用户提供的查询方式与其他检索系统有很大的区别,一般有示例查询和草图查询2种方式.示例查询就是由用户提交一个或几个例子图像,然后由系统检索出特征与之相似的图像.这里的“相似”,指的是上述的颜色、纹理和形状等几个视觉特征上的相似.草图查询则在这种情况下使用:用户手头没有示例图像,只有对希望获得的图像的大致印象.这时,用户可以简单地画一幅草图,比如在一个蓝色的矩形上方画一个红色的圆圈,来表示海上日出,由系统检索出视觉特征上与之相似的图像.文献[19]介绍了一个基于草图的服装检索系统,用户可以画一个T.shin草图,作为查询图,然后在服装图像库中检索出与这T-shin相似的图像.
2.4小结cBIR作为一项备受关注的技术,在研究和商业方面都取得了一定的成果.cBIR利用图像本身固有的物理信息,能够对图像的颜色、纹理和形状等特征进行比较,在某些特定领域得到了广泛应用,如用于指纹识别、商标检索和医学图像检索等,因为这些领域的图像在某些特征上容易识别,比如同一个手指的指纹其纹理是一样的.然而,Intemet上的图像来自不同的领域,根本无法捕获其共同点,用基于内容的方法对这些图像进行检索,其效果远不能令人满意.
3基于语义的图像检索
3.1语义鸿沟虽然图像的视觉特征在一定程度上能代表图像包含的信息,但事实上,人们判断图像的相似性并非仅仅建立在视觉特征的相似性上.更多的状况下,用户主要根据返回图像的含义,而不是颜色、纹理、形状等特征,来判别图像满足自己需要的程度.这些图像的含义就是图像的高层语义特征,它包含了人对图像内容的理解.基于语义的图像检索的目的,就是要使计算机检索图像的能力达到人的理解水平.在图1所示的图像内容层次模型中,语义位于最高层:第3层.第2层和第3层之间的差别被许多学者称为“语义鸿沟”Ⅲ1.
语义鸿沟的存在是目前CBIR系统还难以被普通用户接受的原因.在某些狭窄的专业领域。

比如指纹识别和医学图像检索中,将图像低层特征和高层语义建立某种联系是可能的,但是在广泛领域内,低层视觉特征与高层语义之间并没有很直接的联系.如何最大限度地减小图像简单视觉特征和丰富语义之间的鸿沟问题,是语义图像检索研究的核心.其中的关键技术,就是如何获取图像的语义信息.
3.2语义提取方法文献[21]给出了一个图像语义提取模型(如图2所示),3个虚线框分别表示图像语义的3种获取方法:1)利用系统知识的语义提取;2)基于系统交互的语义生成;3)
海南大学学报自然科学版2006年基于外部信息的语义提取
图2图像语义提取模型
3.2.1利用系统知识的语义提取从图2中可以看出,利用系统知识的语义提取又可分为2类,即基于对象识别的处理方法和全局处理方法.
基于对象识别的处理方法有3个关键的步骤:即图像分割、对象识别和对象空间关系分析,每个步骤都是下一个处理步骤的基础.该方法可以在特定的应用领域获得很好的效果,前提是需要预先给系统提供该领域的必要知识.一个典型的例子是判断男士西服的类别∞],系统首先通过图像分割技术,分割出衣服上的纽扣、领带等区域,然后根据西服是单排纽扣还是双排纽扣、扣子的数量、领带的图案和衬衫的颜色来判断西服样式是属于正式的、休闲的还是传统的.一般而言,只有通过图像分割,才能有效地获取图像的语义信息.然而,现有的图像分割技术只能应用于某些领域,很多情况下对图像进行分割还是一个难题.在一些应用场合,通过全局的低层视觉信息也可以获取较准确的语义信息.Vailaya等人利用该方法来对度假的照片进行分类旧3|,首先区分一幅图像是室内的还是室外的,对于室外的图像再区分为是城里的还是野外的风景.当然,首先要给系统提供专业的知识,比如,室内图像的空间颜色和亮度分布大致是怎样的,室外的图像又是怎样的.
3.2.2基于系统交互的语义生成完全从图像的视觉特征中自动抽取出图像的语义,还存在许多难以克服的困难.通过人工交互的方式来生成图像语义,是许多检索系统都公认的行之有效的方法.人工交互的语义生成,主要包括图像预处理和反馈学习2个方面.预处理就是事先对图像进行标注,可以是人工标注或自动标注.相关反馈机制则用来修正这些标注,使之不断趋于准确.微软研究院开发的iFind系统Ⅲ嗡J,就是一个典型的例子.
iFind系统提出了一种利用用户的检索和随后的相关反馈来获取图像关键词的方法.首先,
第2期温小斌等:Intemet图像检索技术综述
用户输入一些关键词,系统通过计算查询关键词和图像上所标注的关键词之间的相似度,来得到最符合查询条件的图像集合.然后,用户在返回的查询结果中选择他所认为的相关或不相关的图像,反馈学习机制据此修改每幅图像对应的关键词及其权重.整个过程分为如下几步:1)系统最初始时,将每幅图像所关联的关键词的权重都设置为1,表明与该图像相关的所有关键词的重要性都一样.
2)每次用户查询和反馈后,收集好用户给出的查询关键词和正、负反馈图像.
3)对于每个用户提交的查询关键词,先查看系统关键词数据库,是否有对应的词,如果没有,则在关键词数据库中建立相应项,但此时没有与之对应的链接.
4)对于所有正反馈的图像,先查看与每幅图像所关联的关键词是否存在用户提交的查询关键词,如果有,则将该关键词对应的权重加1,否则就将查询关键词加入该图像中,并给词赋予权重1.
5)对每幅负反馈的图像,先查看该图像的关键词中是否存在用户提交的查询关键词,如果有,则将该关键词对应的权重除以4.
从上述算法可以看出,随着系统用户反馈次数的增加,库中越来越多的图像都会在反馈过程中得到标注,同时系统的关键词表也可以得到扩充.更重要的是,这个反馈过程将使得那些能够描述对应图像的关键词得到更大的权重,从而使图像的语义信息更加准确.
3.2.3基于外部信息的语义提取这里的外部信息,指的是图像来源处的其他信息.Intemet环境下的图像资源与一般独立图像不同,它们是嵌入在web文档中随之发布的,与web网页有着千丝万缕的联系,其中关系较大的包括uRL中的文件名、IMG的ALT域和图像前后的文本等.问题是,从这些信息中抽取出来的语义与图像之间的关联是很模糊的、不准确的,这在前面已经做了论述.一种可行的方法是,在这种粗糙的语义检索的基础上,用视觉相似性检索进一步求精.文献[26]就实现了这样一个系统,它先利用Goode进行基于文本的图像检索,然后利用视觉特征在这些结果中进行二次检索,以提高准确度.
3.3小结从人的认知角度来看,人对图像的描述和理解主要是在语义层次进行的.如何获取和描述图像的语义信息,使其尽可能与人对图像内容的理解一致,是图像检索的关键所在.可以预言,基于语义的图像检索是未来IIltemet上图像检索系统的主导技术.虽然基于颜色、纹理等视觉特征的检索系统在一些领域应用得很好,但在Intemet这个庞大而杂乱的图像库中,语义检索才是用户最愿意使用的.如何获取图像的语义信息,是Intemet图像检索的一个研究重点.
4总结
从上述分析可以看出,3种图像检索技术具有各自的优点和适用场合,也存在许多不足和尚未解决的问题.基于文本的图像检索系统已经在Intemet上得到了应用,但它对图像的语义表示是很不准确的,还远不能与文本搜索引擎的效果相媲美.基于内容的图像检索用图像的视觉特征来表示图像并进行检索,它能在一定的应用领域获得成功,但无法应用于Intemet上多种多样的图像.基于语义的图像检索最接近人的思维方式,在Intemet环境下具有最好的检索效果,但如何有效地获取图像语义信息仍是一个难题.3种技术中任何一方面的突破,都有助于图像检索技术的发展.
下面,在总结与分析的基础上,提出若干值得研究的方向.
1)TBIR技术简单易行,而且能在一定程度上反映图像的语义信息,然而,无论是采用全文
186海南大学学报自然科学版2006年索引还是关键词索引,都不能达到令人满意的查全率和查准率.笔者认为,一种改进的方法是在系统中同时采用这2种索引,在某些情况下采用全文索引,某些情况下采用关键词索引,因此这方面的算法有待研究.
2)Intemet上的图像与独立的图像不同,其语义信息不仅由图像本身的视觉特征描述,还可通过图像所在的网页反映.从这点考虑,一个值得研究的方法是把TBIR和cBIR技术结合起来,使两者实现优势互补.Lu等人进行了尝试,并通过实验证明,文本和视觉特征相结合的检索系统,比单独的TBIR和CBIR系统具有更好的性能嵋川.
3)对同一类别的图像使用cBIR技术进行检索,可以达到比较好的效果.此外,研究还发现汹],人们在使用图像搜索引擎的时候,更习惯于按主题分类浏览的方式.因此,如何像Yahoo对web站点进行分类一样,对Intemet上的图像进行有效的分类组织,是一个很有意义的研究课题.
4)基于语义的图像检索具有广泛的应用前景,但技术上尚有许多难题有待进一步研究,其中关键的一点是语义提取方法.另外,在语义描述方面,目前大多采用文本描述方式.但简单的文本无法表达概念之间的复杂关系,更好的语义描述方式也有待深入研究.
参考文献:
[1][2]
[8][9]
[10]
[11]
[12]
[13]4


7庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索[M].北京:清华大学出版社,2002.
cHANGsK,HsuA.Imageinf0玎Ilationsystems:wheredowegof南mhere?[J].IEEE1hIsonKnow—ledge粕dDataEn舀neering.1992,4:431—442.陈新明,钟涛,万均,等.wWw搜索引擎的数据采集技术[J].计算机工程与应用,2002(7):145—147.李瑜,李磊.基于内容的图像检索的方法研究[J].计算机科学,1999,26(8):6一12.黄祥林,沈兰荪.基于内容的图像检索技术研究[J].电子学报,2002,30(7):1065一1071.张建东,苏鸿根.基于内容的图像检索关键技术研究[J].计算机工程,2004,30(14):119一121.FucKNERM,sAwHNEYH,NIBLAcKw,eta1.Querybyimageand、rideocontent:theQBIcsystem[J].IEEEComputer,1995,28(9):23—32.
IBM.QBIc—IBM’sQueryby
Imageconten£[EB/OL]t[2005一01—16].http://wwwqbic.almaden.ibm.c砌.HuANGTS,MEHROTRAS,RAMCHANDRANK.Multimediaallalysis锄dretrievalsystem(MARS)pmject[c]∥Porc.of33rdAnnualClinjcon“bmryApplication0fDataP‰essin分一Di舀talImageAccessaIldRetriev.a1.ChampaignIL:1996.
uIliversityofcalifjmiaatIravine.MultimediaanalysisaIldretrievalsystem(MARs)[EB/0L].[2005—01—16].http://www-db.ics.uci.edu/pages/research/mars/index.shtlIll.sM删JR,cHANGSF.VisuallysearchingtlIewebforcontem[J].IEEEMUdtimIedia,1997,4(3):12—20.coIulIlbiauniVers咄Webs髓K—WebImage/VideosearchE嚼ne[EB/0L].[2005一Ol_16].http://www.ee.coluIIlbia.edu/d啪m/researchP叫ects/Mul£ime出aInde】(in∥WebSEEK/WebSEEK.htm.YOUNGSIKC,DAEWONK,KRISHNAPURAMR.Relevancefeedbackforcontent-basedima只eretrievalusing
thechoquetintegral[c]∥IEEEIntemationalconference0nMultimedia册dExp0Ⅱ,NewYork,NY,usA:IEEECSPress.2001.
MIrI'.Photob00k[EB/0L].[2005~01一16].http://、rismod.media.mit.edu/vismod/demos/photobook.章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.刘忠伟,章毓晋.十种基于颜色特征的图像检索算法的比较和分析[J].信号处理,2000,16(1):79—84.MAwY,zHANGHJ.BenchmarkingofImageFeaturesforcontent-basedRetrieval[c]∥The32ndAsilomar1j
1J
1JB
Hb∞一
第2期温小斌等:Intemet图像检索技术综述187
Conferenceonsi印als,Systems&Compute瑙.PacificGrove,Califomia,USA:IEEECSPress,1998.
[18]C0s,rALF,cEsARRM.shapeAnalysisandClassmcation:neory粕dPmctice[M].Orlando,usA:cRcPress.2001.
[19]YA0YR,zHANGYJ.shape-ba舱dImageRetrievalusiIlgwavelet8龃dMoments[c]∥Proc.ofIntemationalworl【8hoponVeryhwBitrateVideo’99.Kyoto,J印蚰:[s.n.],1999.
[20]GuDⅣADAVN,RAGHAVANVV.content-b晒edImageRetrievalsystem[J].IEEEcomputer,1995,28(9):18—22.
[21]王惠锋,孙正兴,王箭.语义图像检索研究进展[J].计算机研究与发展,2002,39(5):513—523.
[22]cAVAzzAM,GREENRJ,PALMERIJ.Mllltimediasem粕ticfeatures粕dImagecontentDescription[c]∥Proc.ofthe1998MIlltimediaModeling.I加s咖e,蛹tzed明d:IEEECSPress,1998.
[23]VAILAYAA,nGuEIREDOM,JAINAKeta1.Imageclassi丘cationforcontent—b鹊edInde】【ing[J].IEEETr眦sonImageProcessing,200l,10(1):117一130.
[24]LuY,HuCH,zHuxQ.AnunmedFrameworkfbrsemanticsandFeatureB船edReleV帅ceFeedbackin
[25]
[26][27]
[28]ImageRetrievalSystems[c]∥Ph.oftlIeAcMMIlltimedia.LosAngeles,califomia,usA:Addison-wesley,2000.
朱兴全,张宏江,刘文印,等.iFind:一个结合语义和视觉特征的图像相关反馈检索系统[J].计算机学报,2002,25(7):681—688.
孟祥增,钟义信.基于语义的www图像检索[J].现代图书情报技术,2004(3):35—37.
LUGuo-j蚰,ⅥⅢAMsBen.AnInte刚edwwwImageRetrievalsystem[C/0L]∥tI’lle5tllAustrali锄worldwideweb
co施rence.southemc瑚suIIive娼蛳,Australia:1999.[2005一Ol一16].http.//眦sweb.scu.
edu.m∥aw99/paper∥lu/p印er.hⅡ111.
sM删JR,c删ANGsF.EIII砌cingImagese眦hEIlginesinVisualI幽硼ationEnviro砌ents[c]∥1997IEEElstWorl【sh叩onMIlltimediaSi印alPmcessing.Princeton,NJ,USA:IEEECSPress,1998.
AS硼nmaryofImageRetrieValTeclllliquesontheInternet
WENXia0.bin,KANGY∞-hong
.(0DllcgcoflIl蠡D咖甜onSciencc趾d1铀nolog),,Hain肌UlliVefsit)r,Hail【ou570228,CIlina)
Ahtr敝t:7111is.p印errepr{esentsasummaryofthestatus肌dtrendsofimageretrieValtechniquesont|leIntemet.nisp印erthoroughlyanalysesthreetypesofimageretrieValtechniques,includingtext・b鹪edima|萨retrieval,content-basedima|薛retl.ieval,andsemantic-b鹪edim删萨IetrieVal.Basedona
largen啪berof
paperson
tIlis
area,comparatiVe
researchonthesetechniquesisgiVenfirst.And
finally,tllispaperputsforwardsomeValuableresearchare船.
KeywOrds:imageretrieval;text-basedimageretrieVal;content-basedimageretrieVal;semaIltic。

ba∞dimageretrieval。

相关文档
最新文档