图像检索研究综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 15期
邵福波,等:图像检索研究综述
·81·
图像检索研究综述
邵福波1,黄 静2
(1.中国中车股份有限公司博士后科研工作站,北京 100161;2.青岛科技大学,山东 青岛 266100)
摘要:随着数字多媒体信息技术的快速发展和广泛应用,图像在日常生活中携带的信息越来越丰富,高效准确的数字图像检索技术越来 越受到重视。本文描述了图像检索的背景以及发展历程,并对基于内容的图像检索技术中的重要算法进行了简单的介绍,指出了目前 图像检索技术中存在的不足和未来研究方向。 关键词:图像检索;深度学习;发展历程;研究方向 中图分类号:TP391.41 文献标识码:A 文章编号:1008-021X(2019)15-081-02
在 2004年,Lowe[4]提出了完善的尺度不变特征变换(scale -invariantfeaturetransform,SIFT),于是,以 SIFT为代表的局部 特征描述符逐渐兴起,局部特征描述符解决了全局描述符对亮 度、变换、遮挡等不变性差的问题,随后出现了依赖于 BoW 模型 的词典学习算法、FV算法、VLAD算法等[3],利用编码的思想, 在有效的局部特征的基础上采用聚类等算法来获得图像的整 体表达。为了克服基于简单视觉特征的图像检索方法的不足, 人们 提 出 了 基 于 语 义 的 图 像 检 索 (semantic-basedimage retrieval,SBIR)技术,与 CBIR不同的是,SBIR是基于文字的查 询,包含了自然语言处理和传统的图像检索技术[5-6]。SBIR是 解决“语义鸿沟”的重要方法及思路,它不仅考虑了低层视觉特 征,而且考虑了图像的高层特征,如空间关系、场景和情感等方 面的图像信息。近年来,随着深度学习理论的发展以及计算机 性能的快速提升,出现了利用神经网络进行特征提取的图像检 索算法。在 2012年,Krizhevsky等[7]在 ImageNetLSVRC大赛上 利用 AlexNet取得了最高的准确率,随后兴起了一些基于深度 学习的图像检索算法,广泛应用于图像检索、图像分类、目标识 别以及图像语义分割等领域。在深度学习算法中尤其是卷积 神经网络的检索效果最为突出,它利用多个卷积层和池化层的 组合得到图像的视觉特征,并与反馈及分类技术相结合实现了 较好的检索结果。卷积神经网络缺点是提取出来的特征向量 没有记录图像的 空 间 位 置 信 息,以 人 脸 识 别 为 例,当 人 的 五 官 的位置错误排列时,卷积神经网络依然会认为图像是一张正常 的人脸。在 2017年,深度学习之父 GeoffreyHinton[8]在神经网 络的基础上 研 究 出 了 胶 囊 网 络,它 克 服 了 卷 积 神 经 网 络 的 缺 点,不仅记录了图 像 的 整 体 信 息,还 记 录 了 图 像 局 部 特 征 之 间
量,既得到了图像的视觉特征,又克服了文本标注的缺陷,大大 提高了检索效果,其 特 点 是 全 局 特 征 的 运 算 速 度 较 快、实 现 简 单。除此之外,检索系统还可以通过相关反馈机制动态调整低 层特征的提取方式和相似度度量算法来优化检索过程,得到更 加接近人类视觉感知的检索结果[2],这种利用图像的全局特征 进行图像检索的思想直到 2003年都一直处于主导地位[3]。
90年代以后,出现了基于内容的图像检索(content-based imageretrieval,CBIR)技术,它是对图像的内容,如图像的颜色、 纹理、形状等低层特征进行分析和查询的图像检索技术。通过 对图像的视觉内容进行数学描述来提取图像特征,这些低层特 征的数学描述能够反映图像本身的视觉内容。图像特征的相 似度度量是在对图像特征提取的基础上,按照某种相似度计算 方法进行相似度计算(比如欧式距离),通过对相似度结果进行 排序,检索到 用 户 所 需 的 图 像。 CBIR检 索 系 统 利 用 了 计 算 机 快速计算的 能 力,自 动 对 图 像 内 容 进 行 特 征 提 取 和 相 似 度 度
ቤተ መጻሕፍቲ ባይዱ
A SurveyofImageRetrieval
ShaoFubo1,HuangJing2
(1.CRRC,Beijing 100161,China;2.QingdaoUniversityofScience&Technology,Qingdao 266100,China)
Abstract:Withtherapiddevelopmentand wideapplication ofdigitalmultimediainformation technology,moreand more informationiscarriedbyimagesindailylife.Efficientandaccurateretrievaltechnologyofdigitalimagesisgettingmoreandmore attention.Thispaperdescribesthebackgroundanddevelopmentprocessofimageretrieval,andbrieflyintroducestheimportant algorithmsincontent-basedimageretrievaltechnology.Itpointsouttheshortcomingsandfutureresearchdirectionsofimage retrievaltechnology. Keywords:imageretrieval;deeplearning;developmentprocess;researchdirection
随着数码设备的普及以及网络技术的飞速发展,图像在人 们日常生活中的 重 要 性 日 益 增 加,大 量 的 图 像、视 频 数 据 在 医 学影像、数字 图 书 馆、工 业 产 权、遥 感 系 统 等 许 多 领 域 得 到 应 用,从而产生了对可以有效检索多媒体数据系统的需求。而图 像检索实现了对图像库的有效查询和管理,它是指从大规模图 像数据库中检索出与文本查询或视觉查询相关的图像。因此, 从大量的数字图像中快速准确地检索到用户所需图像的研究 成为一个有意义且急需解决的课题。
1 图像检索的发展历程
自 20世纪 70年代,人们就开始了对图像检索的研究,当时 主要 是 基 于 文 本 的 图 像 检 索 (text-basedimageretrieval, TBIR),利用文本来描述图像的特征,然后借助文本匹配进行图 像的检索。目前基于文本的检索技术已经发展成熟,如 Page- Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词 性标注法等[1]。TBIR的特点是快速精准,但存在以下缺点:首 先,文本标注图像 不 能 全 面 地 反 映 图 像 本 身 的 重 要 信 息,图 像 的丰富内容使得 文 字 描 述 显 得 较 为 匮 乏;其 次,海 量 的 图 像 造 成人工标注工作量大,需要耗费大量的人力和时间;最后,文字 的标识带有很大的主观性,再加上人们对图像资源的管理要求 也越来越高,虽然 TBIR已经被成功地商业化应用,例如百度搜 索、谷歌搜索等,但 不 能 满 足 网 络 上 日 新 月 异 的 各 类 图 像 的 检 索需求。
邵福波,等:图像检索研究综述
·81·
图像检索研究综述
邵福波1,黄 静2
(1.中国中车股份有限公司博士后科研工作站,北京 100161;2.青岛科技大学,山东 青岛 266100)
摘要:随着数字多媒体信息技术的快速发展和广泛应用,图像在日常生活中携带的信息越来越丰富,高效准确的数字图像检索技术越来 越受到重视。本文描述了图像检索的背景以及发展历程,并对基于内容的图像检索技术中的重要算法进行了简单的介绍,指出了目前 图像检索技术中存在的不足和未来研究方向。 关键词:图像检索;深度学习;发展历程;研究方向 中图分类号:TP391.41 文献标识码:A 文章编号:1008-021X(2019)15-081-02
在 2004年,Lowe[4]提出了完善的尺度不变特征变换(scale -invariantfeaturetransform,SIFT),于是,以 SIFT为代表的局部 特征描述符逐渐兴起,局部特征描述符解决了全局描述符对亮 度、变换、遮挡等不变性差的问题,随后出现了依赖于 BoW 模型 的词典学习算法、FV算法、VLAD算法等[3],利用编码的思想, 在有效的局部特征的基础上采用聚类等算法来获得图像的整 体表达。为了克服基于简单视觉特征的图像检索方法的不足, 人们 提 出 了 基 于 语 义 的 图 像 检 索 (semantic-basedimage retrieval,SBIR)技术,与 CBIR不同的是,SBIR是基于文字的查 询,包含了自然语言处理和传统的图像检索技术[5-6]。SBIR是 解决“语义鸿沟”的重要方法及思路,它不仅考虑了低层视觉特 征,而且考虑了图像的高层特征,如空间关系、场景和情感等方 面的图像信息。近年来,随着深度学习理论的发展以及计算机 性能的快速提升,出现了利用神经网络进行特征提取的图像检 索算法。在 2012年,Krizhevsky等[7]在 ImageNetLSVRC大赛上 利用 AlexNet取得了最高的准确率,随后兴起了一些基于深度 学习的图像检索算法,广泛应用于图像检索、图像分类、目标识 别以及图像语义分割等领域。在深度学习算法中尤其是卷积 神经网络的检索效果最为突出,它利用多个卷积层和池化层的 组合得到图像的视觉特征,并与反馈及分类技术相结合实现了 较好的检索结果。卷积神经网络缺点是提取出来的特征向量 没有记录图像的 空 间 位 置 信 息,以 人 脸 识 别 为 例,当 人 的 五 官 的位置错误排列时,卷积神经网络依然会认为图像是一张正常 的人脸。在 2017年,深度学习之父 GeoffreyHinton[8]在神经网 络的基础上 研 究 出 了 胶 囊 网 络,它 克 服 了 卷 积 神 经 网 络 的 缺 点,不仅记录了图 像 的 整 体 信 息,还 记 录 了 图 像 局 部 特 征 之 间
量,既得到了图像的视觉特征,又克服了文本标注的缺陷,大大 提高了检索效果,其 特 点 是 全 局 特 征 的 运 算 速 度 较 快、实 现 简 单。除此之外,检索系统还可以通过相关反馈机制动态调整低 层特征的提取方式和相似度度量算法来优化检索过程,得到更 加接近人类视觉感知的检索结果[2],这种利用图像的全局特征 进行图像检索的思想直到 2003年都一直处于主导地位[3]。
90年代以后,出现了基于内容的图像检索(content-based imageretrieval,CBIR)技术,它是对图像的内容,如图像的颜色、 纹理、形状等低层特征进行分析和查询的图像检索技术。通过 对图像的视觉内容进行数学描述来提取图像特征,这些低层特 征的数学描述能够反映图像本身的视觉内容。图像特征的相 似度度量是在对图像特征提取的基础上,按照某种相似度计算 方法进行相似度计算(比如欧式距离),通过对相似度结果进行 排序,检索到 用 户 所 需 的 图 像。 CBIR检 索 系 统 利 用 了 计 算 机 快速计算的 能 力,自 动 对 图 像 内 容 进 行 特 征 提 取 和 相 似 度 度
ቤተ መጻሕፍቲ ባይዱ
A SurveyofImageRetrieval
ShaoFubo1,HuangJing2
(1.CRRC,Beijing 100161,China;2.QingdaoUniversityofScience&Technology,Qingdao 266100,China)
Abstract:Withtherapiddevelopmentand wideapplication ofdigitalmultimediainformation technology,moreand more informationiscarriedbyimagesindailylife.Efficientandaccurateretrievaltechnologyofdigitalimagesisgettingmoreandmore attention.Thispaperdescribesthebackgroundanddevelopmentprocessofimageretrieval,andbrieflyintroducestheimportant algorithmsincontent-basedimageretrievaltechnology.Itpointsouttheshortcomingsandfutureresearchdirectionsofimage retrievaltechnology. Keywords:imageretrieval;deeplearning;developmentprocess;researchdirection
随着数码设备的普及以及网络技术的飞速发展,图像在人 们日常生活中的 重 要 性 日 益 增 加,大 量 的 图 像、视 频 数 据 在 医 学影像、数字 图 书 馆、工 业 产 权、遥 感 系 统 等 许 多 领 域 得 到 应 用,从而产生了对可以有效检索多媒体数据系统的需求。而图 像检索实现了对图像库的有效查询和管理,它是指从大规模图 像数据库中检索出与文本查询或视觉查询相关的图像。因此, 从大量的数字图像中快速准确地检索到用户所需图像的研究 成为一个有意义且急需解决的课题。
1 图像检索的发展历程
自 20世纪 70年代,人们就开始了对图像检索的研究,当时 主要 是 基 于 文 本 的 图 像 检 索 (text-basedimageretrieval, TBIR),利用文本来描述图像的特征,然后借助文本匹配进行图 像的检索。目前基于文本的检索技术已经发展成熟,如 Page- Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词 性标注法等[1]。TBIR的特点是快速精准,但存在以下缺点:首 先,文本标注图像 不 能 全 面 地 反 映 图 像 本 身 的 重 要 信 息,图 像 的丰富内容使得 文 字 描 述 显 得 较 为 匮 乏;其 次,海 量 的 图 像 造 成人工标注工作量大,需要耗费大量的人力和时间;最后,文字 的标识带有很大的主观性,再加上人们对图像资源的管理要求 也越来越高,虽然 TBIR已经被成功地商业化应用,例如百度搜 索、谷歌搜索等,但 不 能 满 足 网 络 上 日 新 月 异 的 各 类 图 像 的 检 索需求。