图近似查询算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
; 修订日期 :2 收稿日期 :2 0 1 2 0 8 1 7 0 1 2 1 0 2 0 - - - -
[ 4]
似 , ② 基于特 征 模 式 的 近 似 , ③ 基 于 结 构 的 近 似 。 本 文 主 要针对近似查询 的 3 种 定 义 形 式 , 对 近 似 查 询 的 算 法 进 行
算 法,
2 . 1 子图近似查询算法
1 基本概念
本节主要介 绍 图 的 一 些 基 本 专 业 术 语 , 以 及 图 查 询 中 涉及的定义和概念 。 本文中的图 G 可 以 采 用 一 个 五 元 组
[ ] 1 2 1 3 -
来 进 行 表 示,
G =( V, E, L), V 代 表 图 中 结 点 的 集 合, E= ∑V , ∑E, V× V 代表图中边的集合 。 ∑V 代表图中所有结点标号的集
) ; 江西省自然基金项目 ( ) ; 江西省教育厅科技基金 项 目 ( ;江西省 基金项目 : 国家自然科学基金项目 ( 7 1 0 6 1 0 0 8 2 0 0 9 G Z S 0 0 4 3 G J J 1 2 3 4 9) ) 研究生创新基金项目 ( Y C 2 0 1 1 S 0 9 3 - , 男 , 江西宜黄人 , 硕士研究生 , 研究 方 向 为 信 息 管 理 、 图 数 据 查 询 ; 杨 书 新 ( , 男, 江 西 九 江 人, 副 教 作者简介 : 谭伟 ( 1 9 8 5 1 9 7 8 -) -) : 授 , 硕士生导师 ,C C F 会员 , 研究方向为数据管理 、 工作流 。E-m a i l t a n d a v e 2 0 0 7@1 2 6 . c o m y
模式 。2 0 0 9年 Z h a n g 等人 则 从 另 一 个 角 度 出 发 , 根 据 特 征
[0] 算 法, 降 低 了 查 询 的 时 子图的最 优 排 序 提 出 了 G P T r e e1
பைடு நூலகம்
间复杂度 。 精确 匹 配 查 询 虽 然 能 够 准 确 的 找 出 目 标 图 , 但 是由于真实数据库的数据结构复 杂 , 图 数 据 并 非 理 想 状 态 , 使得精确 匹 配 方 法 查 询 存 在 一 定 的 干 扰 , 查 询 效 率 不 高 , 往往无法得 到 我 们 实 际 想 要 的 结 果 。 因 此 , 近 年 来 近 似 查 询开始越来越多 的 受 到 研 究 者 们 的 关 注 。 已 有 的 近 似 查 询
:F , A b s t r a c t r o m t h e a r o x i m a t e u e r i e s o f d a t a m a n a e m e n t s o m e r e r e s e n t a t i v e a l o r i t h m s i n s i m i l a r i t s e a r c h a r e r e v i e w e d . p p q g p g y a l o r i t h m b a s e d o n t h e i r s t l e s i s c l a s s i f i e d a n d s o m e c l a s s i c a l o r i t h m s f r o m i n d e x u n i t a n d s c h e m e i n t h i s a r e a a r e r e s e n T h e - g y g p t e d . S o m e t i c a l a l o r i t h m s a r e i n v e s t i a t e d . E a c h a l o r i t h m’ s c h a r a c t e r i s t i c a n d s e a r c h e f f i c e n c a r e c o m a r e d a n d r e f i n e d t o y p g g g y p i v e n r o e r t i e s c l a r i f t h e i r a d v a n t a e s a n d d i s a d v a n t a e s . T h e c o m a r i s o n i s b a s e d o n t h e o f t h e a l o r i t h m s a n d a l i c a t i o n s . g p p y g g p g p p T h e n t h e d i s a d v a n t a e s a n d f u t u r e r e s e a r c h d i r e c t i o n s a r e d i s c u s s e d . g : ; ;s ;g K e w o r d s s i m i l a r i t s e a r c h s u b r a h s i m i l a r i t s e a r c h u e r r a h s i m i l a r i t s e a r c h i s o m o r h i s m;g s i m i l a r i t r a h r a h y g p y p g p y p y p p y
第3 4卷 第5期
谭 伟 , 杨 书 新 : 图 近 似 查 询 算 法 研究 综 述
·1 7 0 1·
总结归纳 , 同时 对 典 型 的 查 询 算 法 进 行 了 分 析 评 价 , 并 展 望了近似查询的未来研究方向 。
这种情况 , 使用 近 似 查 询 技 术 会 比 精 确 查 询 更 高 效 。 文 献 [ ] 中提出 , 图的近似性可 分 为 3 种 类 型 。 基 于 物 理 特 性 1 1 的近似 利 用 图 本 身 的 物 理 属 性 ( 如 质 量、 密 度、 活 性 等 ) 来进行判断 ; 基于模 式 的 近 似 是 通 过 查 询 图 Q 本 身 的 元 素 ;基于结构 特征来进行判断 ( 如图的子结构 、 特征 子 图 等 ) 的近似要求在整个图的拓扑结构上的相似 , 近似条件最高 。 图近似查询 有 子 图 近 似 查 询 和 超 图 近 似 查 询 。 在 已 有 的研究中 , 大多 都 是 对 子 图 近 似 查 询 的 算 法 研 究 , 超 图 近 似查询的文献较少 。
A l o r i t h m s f o r s i m i l a r i t s e a r c h r a h g y g p
, TAN W e i YANG S h u x i n -
( , , ) S c h o o l o f I n f o r m a t i o n E n i n e e r i n J i a n x i U n i v e r s i t o f S c i e n c e a n d T e c h n o l o G a n z h o u 3 4 1 0 0 0, C h i n a g g g y g y
1 1] 算法从 图 的 近 似 定 义 [ 上 可 分 为: ① 基 于 物 理 特 性 的 近
据库 K E G G
[ 3]
等 。 人们利用图数据 库 对 复 杂 数 据 进 行 查 询
和定位操作 , 进而有快速做出进一步的数据分析 。 尽管在图数 据 查 询 领 域 已 经 有 不 少 研 究 , 但 是 大 部 分 的研究工作都集 中 在 图 的 精 确 匹 配 查 询 , 其 算 法 有 子 图 查 询 和 超 图 查 询 两 大 类。 子 图 查 询 中 G i u n o和 S h a s h a在 g 2 0 0 2年 首 先 提 出 了 基 于 路 径 查 询 的 G r a h G r e p p
图近似查询算法研究
谭 伟 ,杨 书 新
( ) 江 西 理 工大学 信息工程学院 , 江 西 赣 州 3 4 1 0 0 0
摘 要 : 从 数据 管 理 中 的 近 似 查 询 方 向 , 对 图 数据 的 近 似 查 询 算 法 进 行 了 研 究 。 依 据 近 似 查 询 的 类 别 , 分 别 介 绍 了 近 似 查 询 中 的 经 典 算 法 , 并 对 这 些 算 法 进 行 了 详细 的 分析 和 讨 论 , 从 索 引单元 以 及 索 引 机 制 比 较 了 各 种 算 法 适 用 的 范 围 以 及 应 用 领 域 。 重 点 阐 述 和比较 了 各 算 法 的 特 点 及 查 询 性能 , 分析 了 各 个 算 法 存 在 的 优 势 和 不 足 。 对 近 似 查 询 中 现 有 算 法 的 不 足 及 未 来 的 研究 方 向进 行 了 讨 论 。 关键词 : 近 似 查 询 ; 子图 近 似 查 询 ; 超 图 近 似 查 询 ; 图 的 同 构 ; 图 近 似 度 )0 中图法分类号 :T P 3 0 1 文献标识号 :A 文章编号 : 1 0 0 0 7 0 2 4( 2 0 1 3 5 1 7 0 0 0 6 - - -
[ 1] [ 2]
2 0 0 4 年在基于路径查询的基础 上 Y a n等 人 提 出 了 利 用 频 繁
[] 子图挖掘建 立 索 引 的 思 想 ,G I n d e x5 算 法 使 得 子 图 查 询 领
域得到了快速的发展 , 然后 Z o u 等人 在 2 0 0 8年提出了基于
[ 6] 树结构 建 立 索 引 的 G C o d i n D I n - g 算 法,其 他 算 法 还 有 G [] [ 8] d e x7 、G S t r i n h e n 等人在 2 0 0 7 年提出 g 等 。 超图查询中 C [] c I n d e x9 算法 , 利用 c o n t r a s t i n d e x得 到 不 被q 包 含 的 索 引
合,
L 是标号与结点或标 ∑E 代表图中所有边标号的集合 。 E → ∑E 。 ∑V ,
2 . 1 . 1 G r a f i l算法 Y a n 等人在 2 0 0 5 年提出了一种 基 于 特 征 的 结 构 化 过 滤
2 0 1 3年5月 第3 4卷 第5期
计算机工程与设计
C OMP UT E R E NG I N E E R I NG AN D D E S I GN
M a . 2 0 1 3 y V o l . 3 4 N o . 5
0 引 言
图是一种通用的数据结构 , 既 能 表 示 复 杂 的 数 据 形 式 , 也能表示一 般 的 数 据 类 型 。 因 此 , 现 实 生 活 中 的 许 多 数 据 都可以利用图来进行建模 , 其中结 点 代 表 现 实 世 界 的 实 体 , 结点与结点之间 则 用 边 连 线 表 示 各 个 实 体 之 间 的 关 系 。 在 计算机 、 生物 、 化 学 、 社 会 网 络 社 区 等 各 领 域 中 均 有 广 泛 的应用 。 如在 基 因 调 控 网 络 中 , 节 点 代 表 基 因 , 边 代 表 基 因之间的交互 。 已 有 一 些 图 数 据 库 开 始 广 泛 应 用 于 化 学 和 生物等领域 , 如化学 数 据 C h e m I D l u s 和P D B ,生物数 p
[ 4]
似 , ② 基于特 征 模 式 的 近 似 , ③ 基 于 结 构 的 近 似 。 本 文 主 要针对近似查询 的 3 种 定 义 形 式 , 对 近 似 查 询 的 算 法 进 行
算 法,
2 . 1 子图近似查询算法
1 基本概念
本节主要介 绍 图 的 一 些 基 本 专 业 术 语 , 以 及 图 查 询 中 涉及的定义和概念 。 本文中的图 G 可 以 采 用 一 个 五 元 组
[ ] 1 2 1 3 -
来 进 行 表 示,
G =( V, E, L), V 代 表 图 中 结 点 的 集 合, E= ∑V , ∑E, V× V 代表图中边的集合 。 ∑V 代表图中所有结点标号的集
) ; 江西省自然基金项目 ( ) ; 江西省教育厅科技基金 项 目 ( ;江西省 基金项目 : 国家自然科学基金项目 ( 7 1 0 6 1 0 0 8 2 0 0 9 G Z S 0 0 4 3 G J J 1 2 3 4 9) ) 研究生创新基金项目 ( Y C 2 0 1 1 S 0 9 3 - , 男 , 江西宜黄人 , 硕士研究生 , 研究 方 向 为 信 息 管 理 、 图 数 据 查 询 ; 杨 书 新 ( , 男, 江 西 九 江 人, 副 教 作者简介 : 谭伟 ( 1 9 8 5 1 9 7 8 -) -) : 授 , 硕士生导师 ,C C F 会员 , 研究方向为数据管理 、 工作流 。E-m a i l t a n d a v e 2 0 0 7@1 2 6 . c o m y
模式 。2 0 0 9年 Z h a n g 等人 则 从 另 一 个 角 度 出 发 , 根 据 特 征
[0] 算 法, 降 低 了 查 询 的 时 子图的最 优 排 序 提 出 了 G P T r e e1
பைடு நூலகம்
间复杂度 。 精确 匹 配 查 询 虽 然 能 够 准 确 的 找 出 目 标 图 , 但 是由于真实数据库的数据结构复 杂 , 图 数 据 并 非 理 想 状 态 , 使得精确 匹 配 方 法 查 询 存 在 一 定 的 干 扰 , 查 询 效 率 不 高 , 往往无法得 到 我 们 实 际 想 要 的 结 果 。 因 此 , 近 年 来 近 似 查 询开始越来越多 的 受 到 研 究 者 们 的 关 注 。 已 有 的 近 似 查 询
:F , A b s t r a c t r o m t h e a r o x i m a t e u e r i e s o f d a t a m a n a e m e n t s o m e r e r e s e n t a t i v e a l o r i t h m s i n s i m i l a r i t s e a r c h a r e r e v i e w e d . p p q g p g y a l o r i t h m b a s e d o n t h e i r s t l e s i s c l a s s i f i e d a n d s o m e c l a s s i c a l o r i t h m s f r o m i n d e x u n i t a n d s c h e m e i n t h i s a r e a a r e r e s e n T h e - g y g p t e d . S o m e t i c a l a l o r i t h m s a r e i n v e s t i a t e d . E a c h a l o r i t h m’ s c h a r a c t e r i s t i c a n d s e a r c h e f f i c e n c a r e c o m a r e d a n d r e f i n e d t o y p g g g y p i v e n r o e r t i e s c l a r i f t h e i r a d v a n t a e s a n d d i s a d v a n t a e s . T h e c o m a r i s o n i s b a s e d o n t h e o f t h e a l o r i t h m s a n d a l i c a t i o n s . g p p y g g p g p p T h e n t h e d i s a d v a n t a e s a n d f u t u r e r e s e a r c h d i r e c t i o n s a r e d i s c u s s e d . g : ; ;s ;g K e w o r d s s i m i l a r i t s e a r c h s u b r a h s i m i l a r i t s e a r c h u e r r a h s i m i l a r i t s e a r c h i s o m o r h i s m;g s i m i l a r i t r a h r a h y g p y p g p y p y p p y
第3 4卷 第5期
谭 伟 , 杨 书 新 : 图 近 似 查 询 算 法 研究 综 述
·1 7 0 1·
总结归纳 , 同时 对 典 型 的 查 询 算 法 进 行 了 分 析 评 价 , 并 展 望了近似查询的未来研究方向 。
这种情况 , 使用 近 似 查 询 技 术 会 比 精 确 查 询 更 高 效 。 文 献 [ ] 中提出 , 图的近似性可 分 为 3 种 类 型 。 基 于 物 理 特 性 1 1 的近似 利 用 图 本 身 的 物 理 属 性 ( 如 质 量、 密 度、 活 性 等 ) 来进行判断 ; 基于模 式 的 近 似 是 通 过 查 询 图 Q 本 身 的 元 素 ;基于结构 特征来进行判断 ( 如图的子结构 、 特征 子 图 等 ) 的近似要求在整个图的拓扑结构上的相似 , 近似条件最高 。 图近似查询 有 子 图 近 似 查 询 和 超 图 近 似 查 询 。 在 已 有 的研究中 , 大多 都 是 对 子 图 近 似 查 询 的 算 法 研 究 , 超 图 近 似查询的文献较少 。
A l o r i t h m s f o r s i m i l a r i t s e a r c h r a h g y g p
, TAN W e i YANG S h u x i n -
( , , ) S c h o o l o f I n f o r m a t i o n E n i n e e r i n J i a n x i U n i v e r s i t o f S c i e n c e a n d T e c h n o l o G a n z h o u 3 4 1 0 0 0, C h i n a g g g y g y
1 1] 算法从 图 的 近 似 定 义 [ 上 可 分 为: ① 基 于 物 理 特 性 的 近
据库 K E G G
[ 3]
等 。 人们利用图数据 库 对 复 杂 数 据 进 行 查 询
和定位操作 , 进而有快速做出进一步的数据分析 。 尽管在图数 据 查 询 领 域 已 经 有 不 少 研 究 , 但 是 大 部 分 的研究工作都集 中 在 图 的 精 确 匹 配 查 询 , 其 算 法 有 子 图 查 询 和 超 图 查 询 两 大 类。 子 图 查 询 中 G i u n o和 S h a s h a在 g 2 0 0 2年 首 先 提 出 了 基 于 路 径 查 询 的 G r a h G r e p p
图近似查询算法研究
谭 伟 ,杨 书 新
( ) 江 西 理 工大学 信息工程学院 , 江 西 赣 州 3 4 1 0 0 0
摘 要 : 从 数据 管 理 中 的 近 似 查 询 方 向 , 对 图 数据 的 近 似 查 询 算 法 进 行 了 研 究 。 依 据 近 似 查 询 的 类 别 , 分 别 介 绍 了 近 似 查 询 中 的 经 典 算 法 , 并 对 这 些 算 法 进 行 了 详细 的 分析 和 讨 论 , 从 索 引单元 以 及 索 引 机 制 比 较 了 各 种 算 法 适 用 的 范 围 以 及 应 用 领 域 。 重 点 阐 述 和比较 了 各 算 法 的 特 点 及 查 询 性能 , 分析 了 各 个 算 法 存 在 的 优 势 和 不 足 。 对 近 似 查 询 中 现 有 算 法 的 不 足 及 未 来 的 研究 方 向进 行 了 讨 论 。 关键词 : 近 似 查 询 ; 子图 近 似 查 询 ; 超 图 近 似 查 询 ; 图 的 同 构 ; 图 近 似 度 )0 中图法分类号 :T P 3 0 1 文献标识号 :A 文章编号 : 1 0 0 0 7 0 2 4( 2 0 1 3 5 1 7 0 0 0 6 - - -
[ 1] [ 2]
2 0 0 4 年在基于路径查询的基础 上 Y a n等 人 提 出 了 利 用 频 繁
[] 子图挖掘建 立 索 引 的 思 想 ,G I n d e x5 算 法 使 得 子 图 查 询 领
域得到了快速的发展 , 然后 Z o u 等人 在 2 0 0 8年提出了基于
[ 6] 树结构 建 立 索 引 的 G C o d i n D I n - g 算 法,其 他 算 法 还 有 G [] [ 8] d e x7 、G S t r i n h e n 等人在 2 0 0 7 年提出 g 等 。 超图查询中 C [] c I n d e x9 算法 , 利用 c o n t r a s t i n d e x得 到 不 被q 包 含 的 索 引
合,
L 是标号与结点或标 ∑E 代表图中所有边标号的集合 。 E → ∑E 。 ∑V ,
2 . 1 . 1 G r a f i l算法 Y a n 等人在 2 0 0 5 年提出了一种 基 于 特 征 的 结 构 化 过 滤
2 0 1 3年5月 第3 4卷 第5期
计算机工程与设计
C OMP UT E R E NG I N E E R I NG AN D D E S I GN
M a . 2 0 1 3 y V o l . 3 4 N o . 5
0 引 言
图是一种通用的数据结构 , 既 能 表 示 复 杂 的 数 据 形 式 , 也能表示一 般 的 数 据 类 型 。 因 此 , 现 实 生 活 中 的 许 多 数 据 都可以利用图来进行建模 , 其中结 点 代 表 现 实 世 界 的 实 体 , 结点与结点之间 则 用 边 连 线 表 示 各 个 实 体 之 间 的 关 系 。 在 计算机 、 生物 、 化 学 、 社 会 网 络 社 区 等 各 领 域 中 均 有 广 泛 的应用 。 如在 基 因 调 控 网 络 中 , 节 点 代 表 基 因 , 边 代 表 基 因之间的交互 。 已 有 一 些 图 数 据 库 开 始 广 泛 应 用 于 化 学 和 生物等领域 , 如化学 数 据 C h e m I D l u s 和P D B ,生物数 p