基于特征的空间数据相似性查询研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 引言
随着地理空间信息获取技术的迅猛发展, 空间数据库的应 用 越 来 越 广 泛 。如 何 高 效 地 从 空 间 数 据 库 中 找 到 与 查 询 对 象 相 似的对象, 即空间数据相似性查询, 成为需要迫切解决的问题。 空间数据相似性查询并不一定要求检索到的数据库对象与查 询对象完全一致, 只需要检索到的数据库对象与查询对象相似 即可, 对空间数据相似性查询问题许多学者做过深入研究, Tom Bruns 和 Egenhofer 等[1]从 拓 扑 、方 向 、距 离 等 方 面 探 讨 了 空间场景的相似性, Alberto Belussi 等[2]从内容、维度、拓扑几个 方面研究了多分辨率地图的相似性, 这些工作都为基于特征的 矢 量 相 似 性 检 索 打 下 了 基 础 ; 袁 贞 明[3]等 基 于 空 间 关 系 特 征 实 现了基于草图和样例的空间数据检索; 在基于内容的遥感影像 检 索 方 面 , 主 要 集 中 在 数 据 组 织 、特 征 提 取 算 法 和 相 似 性 匹 配 的 研 究 上[4, 5]; Christian Bohm 等 [6]全 面 总 结 了 可 用 于 相 似 性 查 询的向量空间高维索引结构和算法, 但他对特征向量的维数约 定在 10- 16 维, 几乎不能满足大多数空间数据相似性查询的需 要 ; 基 于 度 量 空 间 的 高 维 索 引 结 构 吸 引 了 许 多 学 者 的 关 注[7-10]。
达, 维数可以是几十维甚至几百维。如文献[3]中, 用 12 个拓扑
和度量关系不变量和 9 个顺序关系不变量组成的 21 维特征向
量作为依据进行空间数据相似性查询, 而文献[4]中用到 256 维
的特征向量作为检索依据。( 3) 距离函数不同, 相似性查询结果
会有差异。而且由于特征一般用高维特征向量来表达, 因此距
离计算代价( CPU 代价) 较高。例如, 计算两个 n 维特征向量的
距离, 不妨设采用欧氏距离作为度量, 不考虑乘方根计算, 需要
做( n- 1) 次加法运算, n 次乘法运算。如果相似性匹配的特征向
m
量个数为 m, 则需要做 n 次乘法运算, 对于高维特征向量, n 值
达几十甚至几百上千, m 值取决于所使用的索引结构, 一般
Abstr act: Aiming at the general demand of spatial data similarity query and the state of its application at present, the concept of “Feature Based Spatial Data Similarity Query”has been proposed in this paper, and then the formal definition has been giv- en, at the same time the features of FBSDSQ have been proposed and analyzed.The uniform framework and the key technologies of FBSDSQ have been given.In particular, with an example of high dimensional index structure in metric spaces, called VP tree, distance based high dimensional indexing in metric spaces has been discussed which provides technical support for spatial data similarity query. Key wor ds: spatial data; similarity query; metric space; high dimensional index
XIA Yu, ZHU Xin - yan, ZHOU Chun - hui.Resear ch on featur e based spatial data similar ity quer y.Computer Engineer ing and Applications, 2007, 43( 25) : 15- 17.
定 义 1 基 于 特 征 的 空 间 数 据 相 似 性 查 询 ( Feature Based Spatial Data Similarity Query)
设 数 据 库 对 象 集 S={S1 , S2 , … , Sn }, 查 询 对 象 为 q, 不 妨 设
基金项目: 国家重点基础研究发展规划( 973)( the National Grand Fundamental Research 973 Program of China under Grant No.2006CB701305) 。 作者简介: 夏宇( 1981- ) , 男, 博士生, 主要从事空间数据库、遥感影像处理等方面研究; 朱欣焰, 男, 教授, 主要从事空间数据库, 网络 GIS, 空间信息
的空间数据相似性查询。
由上述定义可以看出, 相似性查询实质上是 K 近邻查询,
当 k=1 时 , 称 为 “ 最 近 邻 查 询 ”。 实 际 上 , 范 围 查 询( Range
Query) 也属于相似性查询的范畴, 可以认为范围查询是 K 近邻
查 询 的 另 一 种 表 述 方 式 , 不 过 是 通 过 精 确 的 查 询 范 围 阈 值( 这
摘 要: 针对目前空间数据相似性查询的广泛应用需求和实际应用情况, 提出基于特征的空间数据相似性查询 ( Feature Based Spatial Data Similarity Query, FBSDQ) 的概念, 并给出了形式化定义, 分析指出了 FBSDQ 的特点。提出了统一的 FBSDQ 处理框架 及其实现的关键技术, 以典型的度量空间高维索引结构 VP 树为例, 讨论了基于距离的度量空间高维索引技术, 为空间数据相似性 查询的研究提供了技术支持。 关键词: 空间数据; 相似性查询; 度量空间; 高维索引 文章编号: 1002- 8331( 2007) 25- 0015- 03 文献标识码: A 中图分类号: P208
Computer Engineering and Applications 计算机工程与应用
2007, 43( 25) 15
基于特征的空间数据相似性查询研究
夏 宇 1, 朱欣焰 2, 周春辉 2 XIA Yu1, ZHU Xin- yan2, ZHOU Chun- hui2
1.武汉大学 遥感信息工程学院, 武汉 430079 2.武汉大学 测绘遥感信息工程国家重点实验室, 武汉 430079 1.School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China 2.State Key Lab of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China E- mail: geoxy@126.com
{f1, f2, …, fn}。其中, f1=F( S1) , f2=F( S2) , …, fn=F( Sn) 。且任意
两个对 象 S1、S2 的 相 似 性 Sim( S1 , S2) 可 以 转 化 为 两 个 对 象 特 征值之间的相似性 Sim( f1, f2) , 对象特征值之间 的 相 似 性 可 以
里即为距离值) , 限制相似性对象的个数, 然而实际相似性查询
中, 常常用户并不用关心查询的距离阈值ຫໍສະໝຸດ Baidu 所以最常用的相似
性查询还是集中在 K 近邻查询上。
基于特征的相似性查询中, 特征向量之间的距离定义有:
明 考 夫 斯 基( Minkowski) 距 离 、兰 氏( Lance 和 Williams) 距 离 、
马氏( Mahalanobis) 距离、斜交空间距离等。其中, 明氏距离第 i
1
&% ’ p
q
q
个向量和第 j 个向量的距离定义为 di(j q) =
xik - xjk
。当
k=1
q=1 时 , 称 为 绝 对 值 距 离 ; 当 q=2 时 , 称 为 欧 氏 距 离 ; 当 q=∞
时, 称为切比雪夫距离。特征向量间的距离值越小, 向量之间的
通 过 特 征 向 量 之 间 的 距 离 d( f1, f2) 来 度 量 。 因 此 , 查 询 对 象 q
的 K 个最相似的对象为: Q( q, k) ={S0 …Sk- 1 ∈S|#e∈S, d( F( Si) , F( q) ) ≤d( F( e) , F( q) ) , 0≤i≤k- 1}, 这 种 查 询 即 称 为 基 于 特 征
都 可 能 导 致 相 似 性 查 询 结 果 的 不 同 。例 如 对 于 纹 理 图 像 就 比 较
适合于选择纹理特征作为检索依据, 而选择同质纹理描述子、
纹理浏览描述子或者边缘直方图描述子等不同的方法, 检索结
果会有差异。( 2) FBSDSQ 中的特 征 一 般 用 高 维 特 征 向 量 来 表
基 于 特 征 的 空 间 数 据 相 似 性 查 询 的 关 键 技 术 :( 1) 特 征 提
取: 选择有效的特征描述和特征提取算法是保证查询结果正确
性前提。在遥感影像相似性检索中, 可以提取纹理、形状等特征
作为检索依据; 在矢量相似性检索中, 可以提取空间关系等特
征作为相似性检索依据。( 2) 高维索引: FBSDSQ 中提取的特征 一般都要用高维特征向量来表达, 为有效地进行特征之间的相 似性匹配, 必须建立高效的高维索引结构。( 3) 相关反馈: 由于 特征并不能完全表达空间数据库对象的语义信息, 与人对空间 数据库对象的理解存在差异, 因此, 通过人机交互方式的相关 反馈技术能够有效地解决该问题。
CPU 代价较高。
基于特征的空间数据相似性查询一般先从查询对象提取
特征向量( 称为查询向量) , 然后将查询向量与预处理好的特征
库进行特征匹配, 检索出候选结果集, 经过相关反馈得到最终
查 询 结 果 集 返 回 给 用 户 。基 于 特 征 的 空 间 数 据 相 似 性 查 询 的 统
一处理框架如图 1 所示。
相似性程度就越高; 反之, 则越低。也可以通过计算相似性系数
度量两向量的相似性, 最常用的相似系数有两种: 夹角余弦和
相关系数。相似系数越大, 向量之间的相似性程度就越高; 反
之, 则越低。
基 于 特 征 的 空 间 数 据 相 似 性 查 询 具 有 以 下 特 点 :( 1) 选 择
不同的特征, 或者针对相同的特征, 选择不同的特征提取方法,
虽然以上这些研究工作都为空间数据相似性查询做出了贡献, 但空间数据相似性查询涉及空间数据库、人工智能等诸多领 域, 是一个比较复杂的问题, 因此, 从空间数据库角度对空间数 据相似性查询的基础性问题进行研究具有重要的理论价值和 现实意义。
2 基于特征的空间数据相似性查询
空间数据相似性查询从技术实现角度可以分为三个层次: 数 据 层 、特 征 层 和 语 义 层 。 从 数 据 层 上 直 接 进 行 相 似 性 查 询 计 算量大, 效率低; 从语义层上进行相似性查询在目前计算机视 觉和空间数据挖掘等相关学科的发展水平下还存在很大的困 难 。目 前 可 行 的 方 法 是 通 过 提 取 空 间 数 据 的 特 征 来 实 现 空 间 数 据 相 似 性 查 询 。下 面 给 出 基 于 特 征 的 空 间 数 据 相 似 性 查 询 的 形 式化定义。
服务等方面研究; 周春辉, 男, 博士生。
16 2007, 43( 25)
Computer Engineering and Applications 计算机工程与应用
任一数据库对象 Sk 可以表达为一个 m 维 的 特 征 向 量 , 即 F: Sk
m
→R , 则 数 据 库 对 象 集 S 对 应 的 特 征 向 量 集 可 以 表 达 为 F=