一种挖掘不确定性数据频繁项集的方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 1 GXNS DO 8 2 ) 0 1 F 1 0 5
通 讯 作 者 : 智 (9 3一 ) 男 , 西 梧 州 市 人 , 钟 16 , 广 副教 授 , 究 数 据库 与知 识 工 程 . 研
第 1 期
郭 乙江 , : 种 挖 掘 不 确 定 性 数 据 频 繁 项 集 的 方 法 等 一
关 键 词 : 确定 性数 据 ; — r r; 繁 模 式 ; F — re 不 U Api i o 频 U P T e 中 图分 类 号 : P 1 . 3 T 3 1 1 文献 标 识 码 : A
1 引 言
在过 去的 十几年里 , 有很 多 的研究 H ・ ' ,,, 都是对 精确 数据 库进行 频繁模 式 挖 掘 , : 市交 易 、 如 超 网
络 日志和点 击率 等 。但 是 , 多情 况下 用 户并 不 能 确 定一 些 项 集 或者 事 件 ,引是 否 发生 了 , 以需要 很 , 所 有效 的算法来 挖 掘不确 定性数 据 。为 了从不 确定性 数据 中挖掘 频繁 模 式 , C r nKa S n e n 在 as i a gL u g等 o — 人提 出了一种 基 于树 的 UF —rwt 法 的基 础 上 对 其 进 行 改 进 。实 验 验 证 了改 进 后 的新 算 法 的性 P go h算
・0 ・ 1 1
值趋 近 于 0 则说 明该 项 出现 在数 据库 里 的概 率很 低 ; 反 , , 相 如果 概 率 值 为 1 则 说 明它 肯定 出现 。除 此 ,
之外 , 同一 个项 在 相 同事物 里 的概率 值 可能不 相 等 , 在不 同事 物里 的值 可 能不 等 或 者 相 等 ; 同 的项 在 不 同一事 物 里 的概 率 可能 相 等 , 不 同事 物里 的概 率可 能相 等或 不 等 。 在 为 了有 效地 描述 不 确 定 性 数 据 , 建 了 一 个 UF —re 它 的每 个 节 点都 存 储 : 1 一 个 项 的名 称 ; 构 Pt , e ()
第 2 8卷 第 1 期
文章 编 号 :0 2 7 3 2 1 ) 1 10—0 1 0 —8 4 (0 1 0 —0 0 5
一
种 挖 掘 不 确 定 性 数 据 频 繁 项 集 的 方 法
郭 乙江 , 智 , 昌安 , 钟 元 罗锦 光
( 西师 范学 院 计算机 与信 息 工程 学院 , 西 南宁 5 0 2 ) 广 广 3 0 3
能。
精 确数 据和不 确定 性数据 的一 个重 要 的不 同是 后者 的 每个 事物 都 包含 了项集 和它 们 的存 在概 率 。 在一 个事物 t 里 的项集 - z的存 在概率 P( t) 示 出现 在 t 的可 能性 。用 “ 能世 界 ” 诠 释不 z, 表 里 可 来 确定性 数据 , 于一个 项集 z和 一个事 物 t 共有 两种 可能世 界 :1 W 项集 z包含 在 事物 t ) 对 () ( 里 ;
21 0 0年 3月
广 西 师范 学院 学 报 : 自然 科 学版
J u na fG u n iTe c e Edu a in Unie iy: t a ce c iin o r lo a gx a h  ̄ c to v  ̄ t Na ur lS i n eEd to
M a 2O1 r. 1 VO . 8 1 2 NO. 1
源自文库
2 UF — o h算 法 P Grwt
C ro i a gL u g等人 提 出 了一 种基 于 树 的 “ P go t ” 法 来 挖 掘 不确 定 性 数 据—— 称 asnKa S n e n — UF —rw h 算
其 为 “ 法一 ” 算 。该 算法 共分 为两部 分 : 1 构建 UF — e ;2 从 UF — e () Pt e ( ) r Pt e中挖掘频 繁项集 。 r
一
BI 1D T
—
e s () x u x =∑ [ p ) j H (I ( , × Ⅱ (一 (,)) 通 计算, pp s ( iw × ux n I PX T) 1 Py£)] 过
, 1
Y
J
“
如果模 式 x 的期望 支持度 大 于等于用 户 给定 的最小支 持度 , 则被 认为是 频繁 的 。
( ) ( 集 z不 包含 在事 物 t 里 ) 2 w 项 。尽 管不 知道这 两个世 界哪 一个才 能成 为现 实 , 是 , 但 如果世界 w
可能成 为真 实世 界 的概 率为 P( t)那 么 可能世 界 w 变成 现实 的概率就 为 1 z, , 一P( t) z, 。在事 物数 据库里 模式 x 的期 望支持度 的计 算是 通过将 每个 可能 世界 w.包含 w, ( 变成 真实 世界 的概率 ) x 的 里 支持度 相加求 和 :
摘 要 : 文 探 讨 挖 掘 不 确 定 性 数 据 频 繁 项 集 , C ro i a g L u g等 人 提 出 的 一 种 基 于 树 的 UF . 该 在 asn Ka S n e n — P
go h 法 的基 础 上 进 行 改 进 , 出 新 算 法— — uF —rwtT。实 验 表 明 , 算 法 可 以 有 效 地 挖 掘 不 确 定 性 数 据 rwt 算 提 Pgo h 该 的频 繁 项 集 , 拥 有 高效 性 和 伸 缩 性 。改 进 后 的 算 法 在 一 定 程 度 上 减 小 了 UF — e 的 大 小 , 快 了挖 掘 过 程 。 且 Pt e r 加
2 1 UF — e . P t e的 构 建 r
对 于不确 定性数 据 , 因为无 法确定 其值 , 以只 能使 用 ( , ] 所 0 1 的概 率 值来 表 示 它 的存 在 。如果 概 率
收稿 日期 : 0 1 1 O 2 1 —0 —2
*
基金 项 目: 西 自然 科 学 重 点 基 金 项 目: 发 事 件 跨 媒 体 空 间 数 据 智 能 集 成 处 理 及 挖 掘 研 究 ( o 广 突 N
通 讯 作 者 : 智 (9 3一 ) 男 , 西 梧 州 市 人 , 钟 16 , 广 副教 授 , 究 数 据库 与知 识 工 程 . 研
第 1 期
郭 乙江 , : 种 挖 掘 不 确 定 性 数 据 频 繁 项 集 的 方 法 等 一
关 键 词 : 确定 性数 据 ; — r r; 繁 模 式 ; F — re 不 U Api i o 频 U P T e 中 图分 类 号 : P 1 . 3 T 3 1 1 文献 标 识 码 : A
1 引 言
在过 去的 十几年里 , 有很 多 的研究 H ・ ' ,,, 都是对 精确 数据 库进行 频繁模 式 挖 掘 , : 市交 易 、 如 超 网
络 日志和点 击率 等 。但 是 , 多情 况下 用 户并 不 能 确 定一 些 项 集 或者 事 件 ,引是 否 发生 了 , 以需要 很 , 所 有效 的算法来 挖 掘不确 定性数 据 。为 了从不 确定性 数据 中挖掘 频繁 模 式 , C r nKa S n e n 在 as i a gL u g等 o — 人提 出了一种 基 于树 的 UF —rwt 法 的基 础 上 对 其 进 行 改 进 。实 验 验 证 了改 进 后 的新 算 法 的性 P go h算
・0 ・ 1 1
值趋 近 于 0 则说 明该 项 出现 在数 据库 里 的概 率很 低 ; 反 , , 相 如果 概 率 值 为 1 则 说 明它 肯定 出现 。除 此 ,
之外 , 同一 个项 在 相 同事物 里 的概率 值 可能不 相 等 , 在不 同事 物里 的值 可 能不 等 或 者 相 等 ; 同 的项 在 不 同一事 物 里 的概 率 可能 相 等 , 不 同事 物里 的概 率可 能相 等或 不 等 。 在 为 了有 效地 描述 不 确 定 性 数 据 , 建 了 一 个 UF —re 它 的每 个 节 点都 存 储 : 1 一 个 项 的名 称 ; 构 Pt , e ()
第 2 8卷 第 1 期
文章 编 号 :0 2 7 3 2 1 ) 1 10—0 1 0 —8 4 (0 1 0 —0 0 5
一
种 挖 掘 不 确 定 性 数 据 频 繁 项 集 的 方 法
郭 乙江 , 智 , 昌安 , 钟 元 罗锦 光
( 西师 范学 院 计算机 与信 息 工程 学院 , 西 南宁 5 0 2 ) 广 广 3 0 3
能。
精 确数 据和不 确定 性数据 的一 个重 要 的不 同是 后者 的 每个 事物 都 包含 了项集 和它 们 的存 在概 率 。 在一 个事物 t 里 的项集 - z的存 在概率 P( t) 示 出现 在 t 的可 能性 。用 “ 能世 界 ” 诠 释不 z, 表 里 可 来 确定性 数据 , 于一个 项集 z和 一个事 物 t 共有 两种 可能世 界 :1 W 项集 z包含 在 事物 t ) 对 () ( 里 ;
21 0 0年 3月
广 西 师范 学院 学 报 : 自然 科 学版
J u na fG u n iTe c e Edu a in Unie iy: t a ce c iin o r lo a gx a h  ̄ c to v  ̄ t Na ur lS i n eEd to
M a 2O1 r. 1 VO . 8 1 2 NO. 1
源自文库
2 UF — o h算 法 P Grwt
C ro i a gL u g等人 提 出 了一 种基 于 树 的 “ P go t ” 法 来 挖 掘 不确 定 性 数 据—— 称 asnKa S n e n — UF —rw h 算
其 为 “ 法一 ” 算 。该 算法 共分 为两部 分 : 1 构建 UF — e ;2 从 UF — e () Pt e ( ) r Pt e中挖掘频 繁项集 。 r
一
BI 1D T
—
e s () x u x =∑ [ p ) j H (I ( , × Ⅱ (一 (,)) 通 计算, pp s ( iw × ux n I PX T) 1 Py£)] 过
, 1
Y
J
“
如果模 式 x 的期望 支持度 大 于等于用 户 给定 的最小支 持度 , 则被 认为是 频繁 的 。
( ) ( 集 z不 包含 在事 物 t 里 ) 2 w 项 。尽 管不 知道这 两个世 界哪 一个才 能成 为现 实 , 是 , 但 如果世界 w
可能成 为真 实世 界 的概 率为 P( t)那 么 可能世 界 w 变成 现实 的概率就 为 1 z, , 一P( t) z, 。在事 物数 据库里 模式 x 的期 望支持度 的计 算是 通过将 每个 可能 世界 w.包含 w, ( 变成 真实 世界 的概率 ) x 的 里 支持度 相加求 和 :
摘 要 : 文 探 讨 挖 掘 不 确 定 性 数 据 频 繁 项 集 , C ro i a g L u g等 人 提 出 的 一 种 基 于 树 的 UF . 该 在 asn Ka S n e n — P
go h 法 的基 础 上 进 行 改 进 , 出 新 算 法— — uF —rwtT。实 验 表 明 , 算 法 可 以 有 效 地 挖 掘 不 确 定 性 数 据 rwt 算 提 Pgo h 该 的频 繁 项 集 , 拥 有 高效 性 和 伸 缩 性 。改 进 后 的 算 法 在 一 定 程 度 上 减 小 了 UF — e 的 大 小 , 快 了挖 掘 过 程 。 且 Pt e r 加
2 1 UF — e . P t e的 构 建 r
对 于不确 定性数 据 , 因为无 法确定 其值 , 以只 能使 用 ( , ] 所 0 1 的概 率 值来 表 示 它 的存 在 。如果 概 率
收稿 日期 : 0 1 1 O 2 1 —0 —2
*
基金 项 目: 西 自然 科 学 重 点 基 金 项 目: 发 事 件 跨 媒 体 空 间 数 据 智 能 集 成 处 理 及 挖 掘 研 究 ( o 广 突 N