满足均匀分布的不确定数据关联规则挖掘算法_陈爱东
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
首先依据泛化值之间可能的相交或包含关系将泛化值进行分层聚类为了保存与不确定数据集挖掘相关的重要信息给出了构建不确定频繁模式树的算法在此基础上提出了频繁项集挖掘子算法dataminingalgorithmforuncertainfrequentitemsetsufidm和关联规则生成子算法algorithmforgeneratingassociationrulesgar分别用于挖掘频繁项集和生成关联规则最后通过理论分析和实验比对论证了算法的可行性和有效性
A b s t r a c t l o u d c o m u t i n r o v i d e s a d i s l a a n d s h a r i n l a t f o r m f o r b i d a t a .D a t a o f t e n c o n t a i n s C p g p p y g p g r e v e n t a r t i f i c i a l u n c e r t a i n t i n o r d e r t o t h e i n f o r m a t i o n d i s c l o s u r e .H o w t o m i n e t h e u n c e r t a i n d a t a i s p y r o b l e m u r e n t t o b e s o l v e d i n d a t a s h a r i n .T h e u n c e r t a i n b i d a t a f o r s h a r i n a c h i e v e s u n i f o r m a n p g g g g , d i s t r i b u t e d c h a r a c t e r i s t i c t h r o u h d a t a t h i s c h a r a c t e r i s t i c i s n o t c o n d u c i v e t o e n e r a l i z i n r e c i s e g g g p ,w , h e r e a s i t i s c o n v e n i e n t f o r a s s o c i a t i o n r u l e s m i n i n .F i r s t o f a l l t h e r e c i s e u e r e n e r a l i z a t i o n g p q y g a r e e x a m i n e d w i t h h i e r a r c h i c a l c l u s t e r i n b a s e d o n t h e i n t e r s e c t i o n o r c o n t a i n m e n t r o b a b l e v a l u e s g p , r e l a t i o n s h i T h e n a n u n c e r t a i n f r e u e n t t r e e i s c o n s t r u c t e d t o s a v e i m o r t a n t i n f o r m a t i o n a t t e r n p. q p p , t o u n c e r t a i n d a t a s e t m i n i n .N e x t t h e U F I s uR s u b a l o r i t h m a r e r e l a t e d -DM - - g g g r o o s e d w i t h t h e f o r m e r u s e d f o r m i n i n f r e u e n t i t e m- s e t s w h i l e t h e l a t t e r u s e d f o r e n e r a t i n p p g q g g , a s s o c i a t i o n r u l e s . L a s t b u t n o t l e a s t w e d e m o n s t r a t e t h e f e a s i b i l i t a n d e f f e c t i v e n e s s o f t h e a l o r i t h m y g t h e c o m a r i s o n o f t h e o r e t i c a l a n a l s i s a n d e x e r i m e n t . w i t h p y p ;u ;d ; ; K e w o r d s b i d a t a n i f o r m d i s t r i b u t e d u n c e r t a i n d a t a a t a m i n i n a s s o c i a t i o n r u l e s f r e u e n t g g q y i t e m s e t s - 为了防 止 隐 私 泄 露, 这些数据中往往包含人为添加 摘 要 云 计算 为 大数据 提 供 了展 示 和 共 享 的 平 台 . 的不 确定 因素 , 如 何 挖掘 这些不 确定 数据 是 大数据 共 享亟待 解决 的 问 题 . 在 用 于 共 享 的 大 数 据 中, 不确 定 数据 通 过 对精确 数据 的 泛 化 处 理 来 实现 , 具有均 匀 分布 特 性 , 这一特 性 不 利 于 精 确 查 询, 但可为关联 规 则 的 挖掘 提 供 便 利 条 件 . 首先, 依 据 泛 化 值之 间 可 能的相 交 或 包含 关 系 , 将 泛 化 值 进 行分 层 聚 类 , 为了 保 存 与 不 确定 数据 集 挖掘 相 关 的 重要 信息 , 给 出了 构 建 不 确定 频繁 模 式 树 的 算 法 , 在 此 基 础 上, 提出了 ,U 频繁 项 集 挖掘 子 算 法 ( 和 关 联规 则 生 d a t a m i n i n a l o r i t h m f o r u n c e r t a i n f r e u e n t i t e m s e t s F I - -DM) g g q , , 成子 算 法 ( 分别 用 于 挖 掘 频 繁 项 集 和 生 成 关 联 规 则 , a l o r i t h m f o r a s s o c i a t i o n r u l e s GAR) e n e r a t i n g g g 最后, 通 过 理 论 分析 和实验 比 对 , 论 证 了 算 法的 可 行 性和有效性 . 均 匀 分布 不 确定 数据 ; 数据 挖掘 ; 关 联规 则 ; 频繁 项 集 关键词 大数据 ;
[ ] 2 3 -
2 不确定频繁模式树
本文中关联规则的表示形式为 X 称 X 对应 Y, , 集) 为泛化标识符( 的属性 ( e n e r a l i z a t i o n i d e n t i f i e r g ) , 集) 为敏感属性 . 设I= { G I Y 对应的属性 ( I I = 1, 2} { …, 表 示 项 的 集 合, 其 中I x x I中 项 的 1, n} 1 表示 G 集合 , I 2 表示敏感属性中项的集合并满足如下关 …, 设D 系: I I I I I. S= ?T1 , T2 , Tn ? 1∩ 2= , 1∪ 2= ) 表示 一 个 数 据 集 , 其中 T 表示一条记 i∈ [ 1, n] i( 录, 该记录有唯一标识符 , 并 由I 1 中 一 个 项 和I 2 中 多个项组成 . 记录 ( 的支持数为 D A, B) S中 G I值 包 , , 含 A 同时敏感属性 值 包 含 B 的 记 录 数 即 A∈ I 1, 当( 的支持数不小于项 A 对应的最小 B I A, B) 2. 支持数ξ A 时称项集 B 对项 A 是频繁的 . 为更好地描述 , 引入以下示例 . 例 1.设表 1 表示一个 医 疗 数 据 集 D 表2表 S, 示与表 1 对 应 的 泛 化 数 据 集 UD 其 中, S, D i s e a s e s …, , } , 属性的值域为 { 每个元素代表一种 a, b, s n o n e 假定最小支持数都为 2. 疾病 .
满足均匀分布的不确定数据关联规则挖掘算法
陈爱东 刘国华 费 凡 周 宇 万小妹 貟 慧
( ) 东华大学计算机科学与技术学院 上海 2 0 1 6 0 0 ( c h e n a i d o n 1 6 3@1 2 6. c o m) g g
A s s o c i a t i o n R u l e s M i n i n A l o r i t h m f o r U n c e r t a i n D a t a w i t h t h e U n i f o r m D i s t r i b u t i o n g g
中图法分类号 T P 3 1 1
通 云计算为大数 据 提 供 了 展 示 和 共 享 的 平 台 . , 过对大数据的分析 与 挖 掘 能 够 更 好 地 发 现 数 据 中
- - 2 0 1 3 0 5 1 5 收稿日期 :
的价值 , 提高预测的准确性 . 出于 隐 私 保 护 的 目 的 , 大数据中往往包含人为
计算机研究与发展 J o u r n a l o f C o m u t e r R e s e a r c h a n d D e v e l o m e n t p p
I S S N 1 0 0 0 1 2 3 9 C N 1 1 1 7 7 7 T P - ? - ? ( ) : , 5 0 S u l . 1 8 6 9 5 2 0 1 3 -1 p p
, , ,W , C h e n A i d o n L i u G u o h u a F e i F a n, Z h o u Y u a n X i a o m e i a n d Y u n H u i g
( ) S c h o o l o C o m u t e r S c i e n c e a n d T e c h n o l o D o n h u a U n i v e r s i t S h a n h a i 2 0 1 6 0 0 f p g y, g y, g
) 国家自然科学基金项目 ( 6 1 0 7 0 0 3 2 基金项目 :
陈爱东等 : 满足均匀分布的不确定数据关联规则挖掘算法
1 8 7
[8] 据的频繁项挖掘算法 U 等. 不同于 以 上 F r o w t h1 -g
添加的不确定因素 , 现有的数据挖掘技术在应用到
1] , 该类 不 确 定 数 据 时 效 率 低 下 或 不 可 行 [ 如何有效
本文针对均匀分布的不确定数据 , 利用聚类和 研究 , 树的优势 , 提出了一种有效的关联规则挖掘算法 .
挖掘这些不确定数据是目前大数据共享亟待解决的 在用于共享的大数据中 , 不确定数据通过对精 问题 . 确数据的泛化处理 来 实 现 具 有 均 匀 分 布 的 特 性 , 这 一特性不利于精确 查 询 , 但为关联规则的挖掘提供 了便利条件 . 关联规 则 挖 掘 是 数 据 挖 掘 领 域 最 基 本 的分析方法 , 其目的 是 从 大 量 数 据 中 发 现 项 集 或 属 性间有价值的关联关系
A b s t r a c t l o u d c o m u t i n r o v i d e s a d i s l a a n d s h a r i n l a t f o r m f o r b i d a t a .D a t a o f t e n c o n t a i n s C p g p p y g p g r e v e n t a r t i f i c i a l u n c e r t a i n t i n o r d e r t o t h e i n f o r m a t i o n d i s c l o s u r e .H o w t o m i n e t h e u n c e r t a i n d a t a i s p y r o b l e m u r e n t t o b e s o l v e d i n d a t a s h a r i n .T h e u n c e r t a i n b i d a t a f o r s h a r i n a c h i e v e s u n i f o r m a n p g g g g , d i s t r i b u t e d c h a r a c t e r i s t i c t h r o u h d a t a t h i s c h a r a c t e r i s t i c i s n o t c o n d u c i v e t o e n e r a l i z i n r e c i s e g g g p ,w , h e r e a s i t i s c o n v e n i e n t f o r a s s o c i a t i o n r u l e s m i n i n .F i r s t o f a l l t h e r e c i s e u e r e n e r a l i z a t i o n g p q y g a r e e x a m i n e d w i t h h i e r a r c h i c a l c l u s t e r i n b a s e d o n t h e i n t e r s e c t i o n o r c o n t a i n m e n t r o b a b l e v a l u e s g p , r e l a t i o n s h i T h e n a n u n c e r t a i n f r e u e n t t r e e i s c o n s t r u c t e d t o s a v e i m o r t a n t i n f o r m a t i o n a t t e r n p. q p p , t o u n c e r t a i n d a t a s e t m i n i n .N e x t t h e U F I s uR s u b a l o r i t h m a r e r e l a t e d -DM - - g g g r o o s e d w i t h t h e f o r m e r u s e d f o r m i n i n f r e u e n t i t e m- s e t s w h i l e t h e l a t t e r u s e d f o r e n e r a t i n p p g q g g , a s s o c i a t i o n r u l e s . L a s t b u t n o t l e a s t w e d e m o n s t r a t e t h e f e a s i b i l i t a n d e f f e c t i v e n e s s o f t h e a l o r i t h m y g t h e c o m a r i s o n o f t h e o r e t i c a l a n a l s i s a n d e x e r i m e n t . w i t h p y p ;u ;d ; ; K e w o r d s b i d a t a n i f o r m d i s t r i b u t e d u n c e r t a i n d a t a a t a m i n i n a s s o c i a t i o n r u l e s f r e u e n t g g q y i t e m s e t s - 为了防 止 隐 私 泄 露, 这些数据中往往包含人为添加 摘 要 云 计算 为 大数据 提 供 了展 示 和 共 享 的 平 台 . 的不 确定 因素 , 如 何 挖掘 这些不 确定 数据 是 大数据 共 享亟待 解决 的 问 题 . 在 用 于 共 享 的 大 数 据 中, 不确 定 数据 通 过 对精确 数据 的 泛 化 处 理 来 实现 , 具有均 匀 分布 特 性 , 这一特 性 不 利 于 精 确 查 询, 但可为关联 规 则 的 挖掘 提 供 便 利 条 件 . 首先, 依 据 泛 化 值之 间 可 能的相 交 或 包含 关 系 , 将 泛 化 值 进 行分 层 聚 类 , 为了 保 存 与 不 确定 数据 集 挖掘 相 关 的 重要 信息 , 给 出了 构 建 不 确定 频繁 模 式 树 的 算 法 , 在 此 基 础 上, 提出了 ,U 频繁 项 集 挖掘 子 算 法 ( 和 关 联规 则 生 d a t a m i n i n a l o r i t h m f o r u n c e r t a i n f r e u e n t i t e m s e t s F I - -DM) g g q , , 成子 算 法 ( 分别 用 于 挖 掘 频 繁 项 集 和 生 成 关 联 规 则 , a l o r i t h m f o r a s s o c i a t i o n r u l e s GAR) e n e r a t i n g g g 最后, 通 过 理 论 分析 和实验 比 对 , 论 证 了 算 法的 可 行 性和有效性 . 均 匀 分布 不 确定 数据 ; 数据 挖掘 ; 关 联规 则 ; 频繁 项 集 关键词 大数据 ;
[ ] 2 3 -
2 不确定频繁模式树
本文中关联规则的表示形式为 X 称 X 对应 Y, , 集) 为泛化标识符( 的属性 ( e n e r a l i z a t i o n i d e n t i f i e r g ) , 集) 为敏感属性 . 设I= { G I Y 对应的属性 ( I I = 1, 2} { …, 表 示 项 的 集 合, 其 中I x x I中 项 的 1, n} 1 表示 G 集合 , I 2 表示敏感属性中项的集合并满足如下关 …, 设D 系: I I I I I. S= ?T1 , T2 , Tn ? 1∩ 2= , 1∪ 2= ) 表示 一 个 数 据 集 , 其中 T 表示一条记 i∈ [ 1, n] i( 录, 该记录有唯一标识符 , 并 由I 1 中 一 个 项 和I 2 中 多个项组成 . 记录 ( 的支持数为 D A, B) S中 G I值 包 , , 含 A 同时敏感属性 值 包 含 B 的 记 录 数 即 A∈ I 1, 当( 的支持数不小于项 A 对应的最小 B I A, B) 2. 支持数ξ A 时称项集 B 对项 A 是频繁的 . 为更好地描述 , 引入以下示例 . 例 1.设表 1 表示一个 医 疗 数 据 集 D 表2表 S, 示与表 1 对 应 的 泛 化 数 据 集 UD 其 中, S, D i s e a s e s …, , } , 属性的值域为 { 每个元素代表一种 a, b, s n o n e 假定最小支持数都为 2. 疾病 .
满足均匀分布的不确定数据关联规则挖掘算法
陈爱东 刘国华 费 凡 周 宇 万小妹 貟 慧
( ) 东华大学计算机科学与技术学院 上海 2 0 1 6 0 0 ( c h e n a i d o n 1 6 3@1 2 6. c o m) g g
A s s o c i a t i o n R u l e s M i n i n A l o r i t h m f o r U n c e r t a i n D a t a w i t h t h e U n i f o r m D i s t r i b u t i o n g g
中图法分类号 T P 3 1 1
通 云计算为大数 据 提 供 了 展 示 和 共 享 的 平 台 . , 过对大数据的分析 与 挖 掘 能 够 更 好 地 发 现 数 据 中
- - 2 0 1 3 0 5 1 5 收稿日期 :
的价值 , 提高预测的准确性 . 出于 隐 私 保 护 的 目 的 , 大数据中往往包含人为
计算机研究与发展 J o u r n a l o f C o m u t e r R e s e a r c h a n d D e v e l o m e n t p p
I S S N 1 0 0 0 1 2 3 9 C N 1 1 1 7 7 7 T P - ? - ? ( ) : , 5 0 S u l . 1 8 6 9 5 2 0 1 3 -1 p p
, , ,W , C h e n A i d o n L i u G u o h u a F e i F a n, Z h o u Y u a n X i a o m e i a n d Y u n H u i g
( ) S c h o o l o C o m u t e r S c i e n c e a n d T e c h n o l o D o n h u a U n i v e r s i t S h a n h a i 2 0 1 6 0 0 f p g y, g y, g
) 国家自然科学基金项目 ( 6 1 0 7 0 0 3 2 基金项目 :
陈爱东等 : 满足均匀分布的不确定数据关联规则挖掘算法
1 8 7
[8] 据的频繁项挖掘算法 U 等. 不同于 以 上 F r o w t h1 -g
添加的不确定因素 , 现有的数据挖掘技术在应用到
1] , 该类 不 确 定 数 据 时 效 率 低 下 或 不 可 行 [ 如何有效
本文针对均匀分布的不确定数据 , 利用聚类和 研究 , 树的优势 , 提出了一种有效的关联规则挖掘算法 .
挖掘这些不确定数据是目前大数据共享亟待解决的 在用于共享的大数据中 , 不确定数据通过对精 问题 . 确数据的泛化处理 来 实 现 具 有 均 匀 分 布 的 特 性 , 这 一特性不利于精确 查 询 , 但为关联规则的挖掘提供 了便利条件 . 关联规 则 挖 掘 是 数 据 挖 掘 领 域 最 基 本 的分析方法 , 其目的 是 从 大 量 数 据 中 发 现 项 集 或 属 性间有价值的关联关系