图像语义提取方法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图像语义提取方法研究

作者:魏晗李弼程张瑞杰唐永旺

来源:《现代电子技术》2011年第24期

摘要:为解决从图像的低层视觉特征到高层语义特征的“语义鸿沟”问题,对当前的语义提取方法进行研究,简单介绍了图像语义层次模型,并根据语义信息的来源不同,归纳总结了图像语义中基于处理范围的方法,基于机器学习的方法,基于人机交互的方法和基于外部信息源的提取方法,这些工作为图像语义提取和图像语义检索等研究提供有益参考。

关键词:语义提取;局部算子;支持向量机;语义标注

中图分类号:TN919-34; TP391 文献标识码:A 文章编号:1004-373X(2011)24-0103-04 Research on Image Semantic Extraction

WEI Han LI Bi-cheng ZHANG Rui-jie TANG Yong-wang

(Depart. of Information Science, Information Engineering Institute, Information Engineering University, Zhengzhou 450002, China)

Abstract: The current image semantic extraction method is researched to find a solution to eliminate the "semantic gap" between low-level visual features and high-level semantic features of images. The image semantic level model is simply introduced. According to the semantic information extracted from different sources, the information extraction methods based on processing region, machine learning, man-machine alternation and external information source are summed up. The above work provides a valuable reference for image semantic extraction and retrieval.

Keywords: semantic extraction; local operator; SVM; semantic annotation

收稿日期:2011-07-10

基金项目:国家自然科学基金资助项目(60872142)

随着多媒体和互联网技术的迅猛发展,网络图像资源与日俱增,图像已经成为一种非常重要的信息资源,其包含的信息量远远大于文字,因此如何充分理解图像中所包含的语义内容、如何真正有效地利用语义进行图像资源的检索,如今已成为一个重要的课题。计算机对图像内容的理解一般指图像的低层视觉特征,如颜色、纹理、形状等;而实际上,人类对图像的理解即图像语义信息表达的内容要远远多于图像的视觉特征。这种从图像低层视觉特征与图像高层语义特征之间存在着的较大差距,即“语义鸿沟”[1]。现在,图像语义提取已成为解决图像低层视觉特征与人类高级语义之间“语义鸿沟”的关键技术,许多学者在此方面也进行了大量的尝试性工作和研究。

1 语义层次模型

图像语义模型是图像语义直观形象的描述形式。通过语义模型,能使用户了解和掌握如何从图像中提取语义特征,对于更好地理解和应用图像的语义信息具有重要作用。根据图像中各语义要素间组合的抽象程度,图像语义按图像语义层次模型大致可分为特征语义、对象语义、空间关系语义、场景语义、行为语义和情感语义等6个层次,用以对不同层次的图像内容进行描述,这个模型称为图像层次化语义模型。

图像的语义层次可用图1来简单描述,其中的每一部分对应于图像的一个语义层次,并相应于人对图像的理解层次。图中的箭头表示语义的级别,下一个层次通常包含了比上一个层次更高级更抽象的语义,而更高层的语义往往通过较低层的语义推理而获得。

考虑到图像语义的模糊性、复杂性、抽象性,图像的语义模型主要包括以下几种语义特征:

(1)视觉特征语义(如颜色、纹理、结构、形状、运动等),与视觉感知直接相连,称为低层语义;

(2)对象语义(如人、物等)和空间关系语义(如人在房前,球状草地上等),这需要进行一定的逻辑推理并识别出图像中目标的类别,它们合称为对象层;

(3)场景语义(如海滨、旷野、室内等)、行为语义(如进行图像检索、表演节目等)和情感语义(如赏心悦目的图像、使人兴奋的视频等),合称为概念层,由于涉及到图像的抽象属性,需要对所描述的目标和场景的含义进行高层推理。

2 图像语义提取方法

按照语义层次模型划分,人们正在研究的语义提取主要包括:对目标类别和目标空间关系语义的提取,这常需借助领域知识;对场景和行为语义的提取,也就是对图像和场景理解和解释;对情感语义的提取,这目前主要在艺术图像领域。

另外根据语义信息的来源不同,图像语义提取方法又可以分为4类,即基于处理范围的方法、基于机器学习的方法、基于人机交互的方法、基于外部信息源的方法[1]。下面以这种分类方法对图像语义提取方法进行详细的介绍。

2.1 基于处理范围的方法

按照对图像提取特征范围的大小来分一般分为2类:基于全局的提取方法和基于区域的提取方法。基于全局的提取方法一般是从全局角度对图像进行描述和分析,如图像的颜色直方图、纹理特征,形状特征等,它们反映的是图像整体特性,在早期研究图像语义时用得较多;基于区域的提取方法是在图像分割和对象识别的前提下进行,利用对象模板、场景分类器等,

通过识别对象及对象之间的拓扑关系挖掘语义,生成对应的场景语义信息[1],或者是利用一些局部算子来提取图像语义,是现阶段主要的研究方法。这些局部特征提取算子主要有:Harris算子、SIFT算子、LBP算子、SURF算子等,它们能够很好的表示图像的语义信息。

Harris算子[2]是一种简单的局部算子提取方法,它对旋转、尺度、光照变化以及噪声均有不变的特性。其检测原理为:当一个窗口在图像上移动,如果窗口位于图像区域中灰度值的平坦区域,窗口的各个方向上都不会有特别明显的变化;如果窗口位于图像的边缘区域,窗口沿图像的边缘方向上没有明显变化,在与图像的边缘方向垂直的方向,灰度变化会相当明显;如果在角点处,窗口的各个方向上都有变化。Harris角点检测就是利用这个物理现象,通过判断窗口在各个方向上的变化以决定其是否为角点。实际上,Harris角点检测就是对于一幅图像,提取与自相关函数的曲率特性有关的角点特征。Harris算子中只用到了图像灰度的一阶差分与滤波,操作比较简单,提取的特征点均匀且合理,在纹理信息丰富的区域,Harris算子能够提取大量有用的特征点,而在纹理信息少的区域,Harris算子提取的特征点则较少,这是由于在它的计算过程中,只用到了图像的一阶导数,所以即使存在有图像的旋转、灰度的变化、噪声的影响以及视点的变换等,Harris算子对角点的提取也是比较稳定的。

David G.Lowe[3]于2004年提出了一种SIFT(Scale Invariant Feature Transformer)图像局部特征描述算子。SIFT算法的本质就是从图像中提取SIFT关键点的过程,该过程为:尺度空间极值点的检测,即初步确定关键点位置和所在尺度;特征点位置的精确确定,即去除低对比度的关键点和不稳定的边缘相应点,以增强匹配稳定性、提高抗噪能力;特征点方向参数的确定,即使算子具备旋转不变性;特征点描述子的生成,即生成SIFT特征向量。SIFT算子匹配能力强,能提取比较稳定的图像特征,可以处理2幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题,甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力,从而可以实现差异较大的2幅图像之间的特征的匹配。后来Y.Ke提出了对SIFT的特征描述符用PCA代替直方图的方式,进行降维,并取得了更好的效果。

LBP(Local Binary Pattern)是一种描述图像局部空间结构的非参数算子。芬兰奥卢(Oulu)大学的ojala et a1.最早提出了这个算子并且描述了它在纹理分类中的强区分能力[4]。LBP算子定义为一种灰度尺度不变的纹理测量,是从局部领域纹理的普通定义得来的。LBP算法的本质就是利用图像中每个像素点与其邻域内其他各点的灰度值的差异,描述图像纹理的局部结构特征,该局部结构用一个二进制的数字来量化。这种以邻域为单位的局部结构可以看作是一个纹理单元,该纹理单元在整幅图像中有规律的出现就构成了一定的纹理,而对整幅图像中纹理单元的统计就表达了整幅图像的纹理特征,LBP算法一般可以分为基本LBP描述、旋转不变量的LBP描述和uniform模式的LBP描述。

SURF(Speeded Up Robust Features)算法是Bay等人[5]于2006年提出,是一种新的快速兴趣点检测与描述方法,它的性能超过了SIFT且能获得更快的速度。SURF算法主要包括2个部分:利用快速Hessian检测子检测兴趣点和用SURF描述子去描述兴趣点。SURF算法的计算速度可以比SIFT 快3倍,它对图像的旋转、尺度伸缩、光照、视角等变化保持不变性,

相关文档
最新文档