频繁子图挖掘算法的若干问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2… . ,
1 频繁子 图挖掘算 法
1 1 图的存 储 .
用相 应 的 l , ’… , ’ ’ 2 , 替换 。如果 节
关 于 图的存 储也 可 以称 为 图 的表 示 (rp e— gahrp rsnai ) 目前 图 的表 示 有 邻 接 数 组 (  ̄aec eettn 。 o A cny
点i 和 之间存在边 E i ) 则生成 B D b E (, , . 『 D b : ()八 ’ , G 的所 有 关 联 关 系 可 表 示 如 下 : i () 图 ( )=Vb G 其 中 i 取 遍 1到 。如 果 i _ 相 , 和『 不
邻 , b . s。此 时 B D T( 已经 能 够 把 无 权 则 = e / D G)
图 G表示 出来 。 1 2 图数据 库 的预处理 .
Ar s 、 r y) 邻接链表 ( d cnyL t 、 a A j ec is 邻接矩阵 ( d a s) A— j ec a i 、 a nyM tx 隐式表示 ( s ao 其 中邻 接数 组主 要 用来 描 述 静 态 数 组 , 接 链 表 主 邻
要用 来 表示 动态 图 , 接矩 阵在 表 示 稠 密 图 上有 很 邻
大优 势 。本 文主 要介绍 以下 2种 隐式 表示 方式 。
( )区间 图 表 示 方 法 。 区 间 图 由 一 系 列 区 1
原 来 的各 种 算 法 中 , 了没 有讨 论 图的存 储 形 除 式外 , 也都 没有 对 数 据 库 中的 图进 行 预 处 理 。本 文
数量出现 , 通常是海量信息 。当进行频繁子图的挖 掘时 , 就会存在如下问题。
( )图数据库中存在某些图是另外一些图的子 1
图 。将 表示 结点 的区 间 的端 点 按 序 排 列 , 后 按序 然
信 息 的使用 上 比路 径 索 引有 优 势 , 因此 本 文 主 要介
绍 和论 述此 方法 。
技术进行处理 : 图 G有 n 若 个结点, 则可定义 k 个布 尔变 量 , … . , 中 k为不 小 于 lg( ) 自 , 其 o: n 的
然 数 。使用 变量 集 X = ,: . 对 每个 结 点 编 … , 码 , 为 E( ) 记 “ 。为 了表示 结点 问 的关联 关 系 , 引入 另一 组 变量 X’= ’ ’ . ’ ,: … , 。把 E’ “ 称 为 () E u 的 后 继 编 码 , 里 E’ u 是 把 E( ) () 这 () u 中 ,
IS 1 7 S N 6 1—2 0 9o CN — 1 4 43 3 7/TD
采矿技术
第 1卷 1
第 5期
21 0 1年 9月
Se p.2 011
Mi i gTe h o o y,Vo . No 5 nn c n lg 11 1, .
频 繁 子 图 挖 掘 算 法 的 若 干 问 题
繁子 图挖 掘一般 步骤 的基 础 上 , 出 了通过 构 建频繁 子 图决策 树 ( S T 来 实现挖 掘 算 法 提 FD ) 的预 处理 问题 , 最后 初 步提 出宽度 优 先 子 图 同构 法 ( F I 来 实现 频繁 子 图 决 策树 ( s B S) F—
D ) T。
关键 词 : 频繁子 图 ; 图存储 方 式 ; 处理 ; 预 频繁 子 图决 策树
序 变量集 上 的布 尔 函数 , 规 范 和 紧凑 性使 其 空 间 其 需 求非 常小 , 而且 查 询等操 作速 度较 高 , 用 于图 的 适 数 量大 且需要 较 高 的查 询效 率 时 。主要采 用 了如下
量太大, 个图数据库的路径集合往往非常 巨大 , 1 该 索 引方 法在 长沙 矿 山研 究 院 的数 据 库应 用 中就存在 效率低 的缺点。而基于频繁子图的索引方法使用频 繁 子 图作 为索 引 , 融合 了部 分 图 的结 构信 息 , 在结 构
杨 盛
( 长沙矿山研究院 , 湖南 长沙 4 0 1 ) 102
摘
一
要: 介绍 了基 于频繁 子 图挖掘 算 法的 思想及 其相 关 算法 , 出 了频繁 子 图挖掘 算 法的 提 些 问题 , 所挖掘 图的存储 方 式进行 了讨 论 , 对 重点介 绍 了隐式存储 方 式及其优 点 。在频
在数据挖掘和机器学习的发展中, 人们渐渐的
意识 到传 统 的属 性值 和数 据项 集表 示模 式 已经不 能
扫 描这 些端 点 。如果有 1 或 以上 的区间 不与其 它 个 区间重 叠 , 么 这个 图就 不 是 连 通 的 。否 则就 是 连 那 通 的。另外 1 优 势是 存 储 图时 空 间很 省 , 个 只需 要 O( ) 凡 级别 的空 间 , 而且 还可 进行 有效 的遍历 。
( )用 B D来 表 示 图 。 。B D是 1 基 于有 2 D 。 D 个
满足许多实际应用领域的要求 ¨ , J则提 出了基于
频 繁子 图的索 引方 法 , 过 控 制频 繁 阈值 可 以控 制 通 频 繁 子 图的数量 。 目前 图结构 数据 的索 引方 法 主要 有 2种 : 于路径 的索 引方 法 ; 于频 繁子 图的索 引 基 基 方法 。基 于路径 的索引方 法存 在 自身 的缺点 , 首先 , 路 径太 简单 , 掉 了 图 的结 构 信 息 ; 丢 同时 , 径 的 数 路
提出对数据库 中的图结构数据进行频繁子图挖掘前
首先 要进 行预 处理 。
间集 合定 义 , 每个 区 间对 应 图 的 1个 结 点 , 2个结 点 间 的关 系通过 间 隔的重 叠来表 示 。这种 表示 方法 的
一
图结构数据在各个行业中一般都是 以非常大的
个优 势 是 可 以很 容 易 的判 断 1个 图是 否 是 连 通
1 频繁子 图挖掘算 法
1 1 图的存 储 .
用相 应 的 l , ’… , ’ ’ 2 , 替换 。如果 节
关 于 图的存 储也 可 以称 为 图 的表 示 (rp e— gahrp rsnai ) 目前 图 的表 示 有 邻 接 数 组 (  ̄aec eettn 。 o A cny
点i 和 之间存在边 E i ) 则生成 B D b E (, , . 『 D b : ()八 ’ , G 的所 有 关 联 关 系 可 表 示 如 下 : i () 图 ( )=Vb G 其 中 i 取 遍 1到 。如 果 i _ 相 , 和『 不
邻 , b . s。此 时 B D T( 已经 能 够 把 无 权 则 = e / D G)
图 G表示 出来 。 1 2 图数据 库 的预处理 .
Ar s 、 r y) 邻接链表 ( d cnyL t 、 a A j ec is 邻接矩阵 ( d a s) A— j ec a i 、 a nyM tx 隐式表示 ( s ao 其 中邻 接数 组主 要 用来 描 述 静 态 数 组 , 接 链 表 主 邻
要用 来 表示 动态 图 , 接矩 阵在 表 示 稠 密 图 上有 很 邻
大优 势 。本 文主 要介绍 以下 2种 隐式 表示 方式 。
( )区间 图 表 示 方 法 。 区 间 图 由 一 系 列 区 1
原 来 的各 种 算 法 中 , 了没 有讨 论 图的存 储 形 除 式外 , 也都 没有 对 数 据 库 中的 图进 行 预 处 理 。本 文
数量出现 , 通常是海量信息 。当进行频繁子图的挖 掘时 , 就会存在如下问题。
( )图数据库中存在某些图是另外一些图的子 1
图 。将 表示 结点 的区 间 的端 点 按 序 排 列 , 后 按序 然
信 息 的使用 上 比路 径 索 引有 优 势 , 因此 本 文 主 要介
绍 和论 述此 方法 。
技术进行处理 : 图 G有 n 若 个结点, 则可定义 k 个布 尔变 量 , … . , 中 k为不 小 于 lg( ) 自 , 其 o: n 的
然 数 。使用 变量 集 X = ,: . 对 每个 结 点 编 … , 码 , 为 E( ) 记 “ 。为 了表示 结点 问 的关联 关 系 , 引入 另一 组 变量 X’= ’ ’ . ’ ,: … , 。把 E’ “ 称 为 () E u 的 后 继 编 码 , 里 E’ u 是 把 E( ) () 这 () u 中 ,
IS 1 7 S N 6 1—2 0 9o CN — 1 4 43 3 7/TD
采矿技术
第 1卷 1
第 5期
21 0 1年 9月
Se p.2 011
Mi i gTe h o o y,Vo . No 5 nn c n lg 11 1, .
频 繁 子 图 挖 掘 算 法 的 若 干 问 题
繁子 图挖 掘一般 步骤 的基 础 上 , 出 了通过 构 建频繁 子 图决策 树 ( S T 来 实现挖 掘 算 法 提 FD ) 的预 处理 问题 , 最后 初 步提 出宽度 优 先 子 图 同构 法 ( F I 来 实现 频繁 子 图 决 策树 ( s B S) F—
D ) T。
关键 词 : 频繁子 图 ; 图存储 方 式 ; 处理 ; 预 频繁 子 图决 策树
序 变量集 上 的布 尔 函数 , 规 范 和 紧凑 性使 其 空 间 其 需 求非 常小 , 而且 查 询等操 作速 度较 高 , 用 于图 的 适 数 量大 且需要 较 高 的查 询效 率 时 。主要采 用 了如下
量太大, 个图数据库的路径集合往往非常 巨大 , 1 该 索 引方 法在 长沙 矿 山研 究 院 的数 据 库应 用 中就存在 效率低 的缺点。而基于频繁子图的索引方法使用频 繁 子 图作 为索 引 , 融合 了部 分 图 的结 构信 息 , 在结 构
杨 盛
( 长沙矿山研究院 , 湖南 长沙 4 0 1 ) 102
摘
一
要: 介绍 了基 于频繁 子 图挖掘 算 法的 思想及 其相 关 算法 , 出 了频繁 子 图挖掘 算 法的 提 些 问题 , 所挖掘 图的存储 方 式进行 了讨 论 , 对 重点介 绍 了隐式存储 方 式及其优 点 。在频
在数据挖掘和机器学习的发展中, 人们渐渐的
意识 到传 统 的属 性值 和数 据项 集表 示模 式 已经不 能
扫 描这 些端 点 。如果有 1 或 以上 的区间 不与其 它 个 区间重 叠 , 么 这个 图就 不 是 连 通 的 。否 则就 是 连 那 通 的。另外 1 优 势是 存 储 图时 空 间很 省 , 个 只需 要 O( ) 凡 级别 的空 间 , 而且 还可 进行 有效 的遍历 。
( )用 B D来 表 示 图 。 。B D是 1 基 于有 2 D 。 D 个
满足许多实际应用领域的要求 ¨ , J则提 出了基于
频 繁子 图的索 引方 法 , 过 控 制频 繁 阈值 可 以控 制 通 频 繁 子 图的数量 。 目前 图结构 数据 的索 引方 法 主要 有 2种 : 于路径 的索 引方 法 ; 于频 繁子 图的索 引 基 基 方法 。基 于路径 的索引方 法存 在 自身 的缺点 , 首先 , 路 径太 简单 , 掉 了 图 的结 构 信 息 ; 丢 同时 , 径 的 数 路
提出对数据库 中的图结构数据进行频繁子图挖掘前
首先 要进 行预 处理 。
间集 合定 义 , 每个 区 间对 应 图 的 1个 结 点 , 2个结 点 间 的关 系通过 间 隔的重 叠来表 示 。这种 表示 方法 的
一
图结构数据在各个行业中一般都是 以非常大的
个优 势 是 可 以很 容 易 的判 断 1个 图是 否 是 连 通