用于图像场景分类的空间视觉词袋模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这些特征进行聚类,得 到 的 结 果 是 训 练 集 中 的 普 遍 特 征。 我
们 称 这 些 原 型 特 征 为 “视 觉 词 典 ”。
2.2 空 间 聚 类 视觉词袋模型 在 从 训 练 图 像 集 的 图 片 中 提 取 低 级 特 征
后,需要使用一种无监督的算法 ,如 K 均值算法[11],对这些低 级别特征进行给定聚类中心数目的聚类。给定一组观察值的
展,图像数据发生爆 炸 性 增 长。 如 何 用 计 算 机 对 大 量 且 不 断 和一 些 图 像 中 的 对 象 及 其 属 性[6]。 这 种 通 过 快 速 (大 约
增加的图像 进 行 分 析 和 理 解 ,成 为 一 项 越 来 越 紧 迫 的 任 务 。 因 此 基 于 内 容 的 检 索 技 术 已 成 为 国 内 外 研 究 的 热 点 ,并 成 为 21世 纪 初 必 须 攻 克 的 关 键 技 术 之 一[1]。
中的目标进行有效的分析,以完成场景的整体识别,具有代 表 大的平面向水平线方向延伸,期间充满了一些凹凸。这 样,如
性的如王涛、胡事民和孙家广院士提 出 的 基 于 颜 色-空 间 特 征 的图像检索方法[3];或 者 采 用 文 本 主 题 模 型 的 方 法 将 图 像 分
果 我 们 把 图 像 划 分 为 一 些 空 间 子 区 域 ,对 应 的 子 区 域 内 就 应 该 有 相 似 的 特 征 ,如 图 1 所 示 。
第 38 卷 第 8 期 2011 年 8 月
计算机科学 Computer Science
用于图像场景分类的空间视觉词袋模型
Vol.38 No.8 Aug 2011
王 宇 新1 郭 禾2 何 昌 钦1 冯 振1,2 贾 棋2 (大 连 理 工 大 学 计 算 机 科 学 与 技 术 学 院 大 连 116023)1 (大 连 理 工 大 学 软 件 学 院 大 连 116620)2
200ms)观 察 图 像 所 获 得 的 视 觉 和 语 义 信 息 称 为 图 像 的 gist[7]。在拍 摄 照 片 时 ,摄 影 师 总 是 尽 可 能 把 能 反 映 图 像 gist 或者语义的对象和特征显示在图像中心。这一拍摄习惯使得
本文将重点关注图像场景识别和分类问题。传统的场 景 大 多 数 针 对 同 类 目 标 的 图 像 都 有 相 同 的 拍 摄 角 度 ,即 这 些 图
况进行分类的,既没有考虑视觉词汇在空间的分布特点,也 没 有 利 用 图 像 中 区 域 语 义 构 成 的 上 下 文 信 息 ,而 这 些 是 决 不 能 被忽视的。空间金字塔[8]模型的提出更是给了研究者非常 大
最 可 能 属 于 的 主 题 ,从 而 完 成 场 景 分 类 。
的启示。本文提出了一种用于图像场景识别的空间视觉词袋
分 类 方 法 通 常 使 用 色 彩 、纹 理 和 形 状 等 图 像 底 层 视 觉 特 征 直 像具有空间相似度。例如,许多城市的图像是这样一种 景 观:
接与监督学习方法 相 结 合 进 行 图 像 场 景 分 类[2];或 者 对 场 景 高楼下面连接着人行横道,而顶上是蓝天;高速公路是一个 很
到 稿 日 期 :2010-07-08 返 修 日 期 :2010-10-09 王宇新(1973-),男,博士生,讲师,CCF 会员,主要研究方向为图 像 处 理、计 算 机 系 统 结 构,E-mail:wyx@dlut.edu.cn;郭 禾 (1955- ),男,教 授,博士生导师,CCF 高级会员,主要研究方向为计算机系统结构、计算机视觉;何昌钦 (1986-),男,硕 士 生,主 要 研 究 方 向 为 图 像 识 别 ;冯 振 (1987- ),男 ,博 士 生 ,主 要 研 究 方 向 为 基 于 内 容 的 图 像 检 索 ;贾 棋 (1983- ),女 ,博 士 生 ,讲 师 ,主 要 研 究 方 向 为 计 算 机 视 觉 、人 工 神 经 网 络 。
图 3 不 同 层 次 的 图 像 空 间 划 分
图 1 空 间 子 区 域 具 有 相 似 性 示 例
2 空 间 视 觉 词 袋 模 型
2.1 词 袋 模 型 与 视 觉 词 典 词袋(Bag of words)模 型 原 是 自 然 语 言 处 理 领 域 用 于 文
本信息检索和文本 分 类 的 技 术[9]。 用 它 做 图 像 表 示 模 型 (我
(School of Software,Dalian University of Technology,Dalian 116620,China)2
Abstract An approach to recognize scene categories by means of a novel model named bag of spatial visual words was
proposed.Images were hierarchically divided into sub regions and the spatial visual vocabulary was constructed by
grouping the low-level features collected from every corresponding spatial sub region into a specified number of clusters using k-means algorithm.To recognize the category of a scene,the visual vocabulary distributions of all spatial sub re-
们称之为视觉词袋模型),需要将二维的图像信息映射成视 觉
关 键 词 集 合,这 样 既 保 存 了 图 像 的 局 部 特 征 又 有 效 地 压 缩 了
图 像 的 描 述 。 [10]
为了使用视觉词袋 模 型,首 先 要 在 学 习 阶 段 建 立 视 觉 关
键词的集合:在训练 图 像 集 中,提 取 出 所 有 局 部 特 征,然 后 对
摘 要 以传统的词袋模型为基础,根据同类场景图像具有空间相似性的特点,提出了一种用于图像场景分类的 空 间 视觉词袋模型。首先将图像进行不同等级的空间划分,针对对应空间子区域进行特征提取和 k均值聚类,形成该区 域
的视觉关键词,进而构建整个训练图像集的空间视觉词典。进行场景识别时,将所有空间子区域的视觉关键词连 接 成
一个全局特征向量进行相似度计算。最终的场景分类结果使用 V1滤波器和 PACT 两种特征在支持 向 量 机 LIBSVM
上获得。
关 键 词 场 景 分 类 ,词 袋 ,空 间 聚 类 ,空 间 视 觉 词 典 ,支 持 向 量 机
中 图 法 分 类 号 TP301 文 献 标 识 码 A
· 265 ·
模型。 以传统的词袋模型为基础,引入图像空间信息,在将图 像
进 行 不 同 等 级 的 空 间 划 分 后 ,针 对 同 一 空 间 子 区 域 进 行 特 征 提取并聚类,以形成该区域的视觉关键字,进而构建整个训 练 图像集的空间视觉 词 典。 进 行 场 景 识 别 时,把 所 有 空 间 子 区 域的视觉关键词连接起来形成一个全局特征向量进行相似度 计 算 ,以 获 得 最 终 的 场 景 分 类 结 果 。
(1)
通过把一个聚类中 心 当 作 一 个 视 觉 关 键 词,就 能 把 每 一
个 从 图 像 中 提 取 的 特 征 映 射 到 它 最 接 近 的 视 觉 词 典 上 ,并 且
能把图像表示为一个视觉词典上的直方图特征。
图 4 空 间 视 觉 词 典 的 构 建
形式上 ,定义rl,i为第i 个空间子区 域 的l 级 划 分 ,Snl 为 l 级 划 分 下 空 间 子 区 域 的 数 目 ,这 样 就 得 到 Snl= l2 (l=1, …,4)。同时可以定 义 Svl,i为l 级 划 分 下 第i 个 空 间 子 区 域 内 的 视 觉 词 典 ,i=1,… ,l2 。 2.4 基 于 空 间 视 觉 词 袋 模 型 的 场 景 分 类 过 程
单词通道k 上得到,这 个 直 方 图 表 示 在 空 间 子 区 域 内 的 视 觉
类 到 不 同 的 语 义 类 别 中 :将 图 像 的 局 部 不 变 特 征 聚 类 为 一 组
上述主题分析模型是根据图像中视觉词汇出现的总体情
视觉词汇,并用词袋(Bag of words)模 型 来 表 示,最 后 用 LDA (Latent Dirichlet Allocation)[4]或 PLSA (Probabilistic Latent Smantic Analysis)[5]等主题分析模型 找 出 图 像 的 潜 在 语 义 和
gions were concatenated to form a global feature vector.The classification result was obtained using LIBSVM and two kinds of features were used in the experiments:“V1-like”filters and PACT features. Keywords Scene classification,Bag of words,Spatial clustering,Spatial visual vocabulary,SVM
序列(x1,x2,…,xn),这里,每 一 个 观 察 值 都 是 一 个 d 维 的 实 值向量。K 均值聚类的 目 标 是 划 分 这n 个 观 察 值 到k 个 序 列
里S={S1,S2,…,Sk}(k<n),见式(1),其中μi 是Si 的均值。
Βιβλιοθήκη Baidu
k
argmin ∑ ∑ ‖xj-μi‖ i=1xj∈Si
Bag of Spatial Visual Words Model for Scene Classification
WANG Yu-xin1 GUO He2 HE Chang-qin1 FENG Zhen1,2 JIA Qi 2 (School of Computer Science and Technology,Dalian University of Technology,Dalian 116023,China)1
1 引 言
随着数码设备 的 普 及 和 信 息 存 储 与 传 输 技 术 的 快 速 发
人类视觉感知的一个显著特点是能够很快掌握一幅复杂 图像所表达的含义。Mary Potter通过实验证 明,仅 仅 观 察 一 组 快 速 的 图 像 流,观 察 者 也 能 识 别 出 每 一 幅 图 像 的 语 义 类 别
是直接聚类而没有考虑聚类的范围,而(b)是划分聚类范围 为 空间的子区域。从(a)和 (b)的 区 别 可 以 很 直 观 地 看 出,对 应 子区域内的原型特征能通过在空间子区域内聚类得到。 2.3 空 间 视 觉 词 典
我们已经知道大多 数 图 像 具 有 空 间 相 似 度,并 且 在 空 间 子区域内聚类能得到属于对应空间子区域的原型特征。因 此,提 出 一 种 “空 间 视 觉 词 袋 ”模 型,它 是 视 觉 词 袋 模 型 的 扩 展。具体来说,首先有层次地把图像进行空间划分(如图 3 所 示),再把空间对应子 区 域 聚 集 在 一 起,构 建 属 于 对 应 空 间 子 区 域 的 空 间 词 典 ,过 程 如 图 4 所 示 。
一旦得到了每一个 空 间 子 区 域 的 视 觉 词 典,视 觉 词 袋 表 示就能通过常规的 方 式 得 到。 对 于 每 一 幅 图 像,空 间 子 区 域
内的每一个像素的特征表示被投影到相应空间词典的一个单
词 通 道 上 。 每 个 子 区 域 的 第k 直 方 图 通 过 统 计 有 多 少 像 素 在