基于兴趣度的隐私保护关联规则挖掘算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

() it n算 法 设计 过 程 中 , 义 引 入 了敏 感 规 则 的左 2在  ̄h e 本 件 并进 行 了 算 法 证 明 ,理 论 卜 析 并完 善 了 通 过 删 除 项 的启 分
发 式关联规则挖掘算 法。
l 基 本概 念
关 联 规 则 是 Aga a. 人 l 9 年 首 次 提 出 的重 要 数 据 rw 1 R等 93
联规 则。
2 1,V 1 2 N . 15 0 o 3 , o6 1 . 2 2
miC n) 1m=  ̄ J y _D nup l n o f 、 / x l ISI Sp) 、 + u miLeabharlann Baidu+
v I ( U l = NT[ y _ x
/ ^ I ' / =,
l * n of(一 n o f+ , 中 I 0 示 向 _ miC n) 1 micn) l其 / ) NT 表
个 关联规则定义 为 x , 中 x ,_ , 且 X —y 其 _ly I并 C nY: 。x称 为规则的左件 , Y称 为规 则 的 右 件 。置 信 度 定 义 为 : u lx , l y/ 1 x l
其 中 表 示 事 务 集 中 包 含 x的事 务 的 数 量 。x y表 示 事 务 集 lU l 中 同 时 包 含 X 和 Y 的 事 务 的 数 量 。 规 则 的 支 持 度 计 算 为
Emal bu @ 1 3 o — i cmt 6 . m :l t
刘彬 ,孟凡荣,汪楚娇 :基 于兴趣度的 隐私保 护关联规 则挖掘算法
A r r算法 足 当 前 最 有 影 响 的布 尔 频 繁 项 集 关 联 规 则 挖 pi i o 掘 算 法 。 算 法 的 挖 掘 过 程 主 要包 含 两 个 阶 段 : 先 , 出 所 此 首 找 有 的高 频 项 目组 ( 繁 项 集 )要 求 高 频 项 目组 的 支 持 度 大 于 或 频 , 等 于 所 设 定 的 最 小 支 持 度 阈 值 。 其 次 ,从 高 频 项 目组 中 构 造 强 关 联 规 则 ,即 找 出 同 时满 足 最 小 支 持 度 和 最 小 置 信 度 的 关
挖 掘 研 究 课 题 。 针 对 一 个 具 有 关 系 模 型 的数 据 集 , 设 数 据 假 库 中 的 项 集 表 示 为 I {', ,} 事 务 的 集 合 表 示 为 D ={, : ii… i , l : t
t… ,}其 中 每 个 事 务 t 必 须 含 有 项 集 I 的 项 , : I 一 : t, , N 都 中 即 t 。 _ c
Ke r s p ia y p e e v n ; a s c ai nr l ; d t n n ; i tr s e s r ; s n i v l s y wo d : rv c r s r i g s o ito u e aa mi ig n e e t a u e m e st er e i u
隐私 保 护 过 程 中 , 仅 希 望 达 到 隐藏 敏 感 规 则 的 目的 , 不 尽 量减小对原始数据库 的改动 。同时希望在修改数据 库时 , 尽 量 提 高 数 据 的可 用 性 ,不 要 产 生新 的 规 则 或 者 意 外 隐 藏 非 敏 感 规则, 样算法设计过程 中就需要采取 相应的策略 。 这 由关 联 规 则 的 支 持 度 和 置 信 度 计 算 公 式 得 出 ,在 不 产 生 新 规 则 的 前 提 下 , asn E等 人 提 出 两 种 启 发 式 策 略 来 隐 藏 D sei 敏感规 则 x 。 —y () 定 l 和 的值 不 变 的 情 况 F, 了 降低 规 则 x 1设 X l 为 —y的 支 持 度 与 置 信 度 , 以适 当 地 减 少 l 的值 , 到 其 支 持 度 和 置 可 Y l 直 信度小于设 定的最小支持度 或最小置信度 ; () 持 l和 n 值 不 变 , 理 地 减 少 『的 值 , 可 以 降 低 2维 y 的 J 合 x f 也 规则 x —y的 支 持 度 和 置 信度 , 到 支 持 度 和 置 信 度 小 于 设 定 直
关键 词: 隐私 保 护 ; 关 联 规 则 ; 数 据 挖 掘 ; 兴 趣 度 ; 敏 感 规 则
中图法分类号 :P l T 31
文 献标识码 : A
文 章 编 号 : 007 2 2 1) 622 —5 10—0 4(0 1O —140
P i a yp e e vn s o ito u em ii gag rt m s do n e e t e s r rv c r s r i g a s cai nr l n n lo i h ba e n i tr s a u e m
对 上 述 不 足 ,在 算 法 设 计 过 程 中 引 入 了兴 趣 度 和 逐 步 移 项 的 思 想 ,通 过 对 敏 感 规 则 的 左 右 件 选 择 性 地 适 当处 理 ,不 仅 成 功 隐藏 了指 定 隐 私 规 则 集 , 时 降 低 了对 非 敏 感 规 则 支持 度 的 影 响 , 高 了数 据 的 可 用 性 。 理 论 和 实验 结 果 表 明 ,fhn算 法 同 提 ite - 具有 较好的 隐私性和 高效性 。
p r n a e u t s o t a eag r h o - e s i h y efce t n a o o dp i a y ei me tl s l h w t h l o i m fi t n i g l f in dh sg t o rv c . r s h t t fh h i a g
收稿 日期 :2 1—12 ;修订日期 :2 1-12 。 0 01-2 0 l0 —7 基金项目:国家 自然科学基金项 目 (0 7 0 6。 56 4 8 )
右 件 逐 步 交 叉 删 除 插 入 的 思 想 ,这 样 既 可 很 好 的 隐 藏 其 他 非
敏 感 规 则 , 提 高 了数 据 的可 用 性 。 又
( 国矿 业 大学 计 算机 科 学与技 术 学院 ,江苏 徐 州 2 11) 中 2 l6
摘 要 :基 于 启 发 式 的 隐 私 保 护 关 联 规 则 挖 掘 算 法 常 通 过 删 除 项 或 增 加 项 改 变规 则 的 支 持 度 ,现 有 的 通 过 删 除 项 的 隐 私 保
护 关联 规 则 挖 掘 算 法 设 计 过 程 中 通 常 忽 略 了兴 趣 度 和 规 则 的左 件 , 致 对 非敏 感 规 则 的 支持 度 和 数 据 可 用性 影 响 很 大 。 针 导
22 2 1, o 3, o 计 算 机 工程 与设 计 C m u r ni e n d e g 1 4 01 V 1 2 N . . 6 o pt E g er g n D s n e n i a i
基于兴趣度的隐私保护 关联规则挖掘算法
刘 彬 , 孟 凡 荣 , 汪 楚 娇
Iu lDI 其 中 I 是 规 则集 D 中 所 有 事 务 的 总 数 。 x y/ 。 l Dl
作者简介:刘彬 (96 ) 1 8 - ,男,江苏徐 州人 ,硕士研究生,研 究方 向为数据挖掘与信息安全: 孟凡荣 (9 2 ) 16 - ,女,辽宁沈阳人 ,博士,教 授 ,CC F会 员 , 研 究方 向为 数据 库 技 术 与 数 据挖 掘 : 汪 楚娇 (9 6 , 女 ,湖 北 麻 城 人 , 博士 研 究 生 ,研 究 方 向为 智能 优 化 与煤 矿 数 字 化 。 17 ~)
srigag rtm s rp s d T o g rn igitrs me s r n rp ri m (eto ih at d a, rd cn dligr t , evn lo h i p o o e . r u hbign eet a uea dp o e e i n t 1f r g t r) e l e u igmo i n ai r p y o
ag e trd g e f i ig i d i e sd g e mp c o en n s n i v ue a ema et o T e r t a n l ssa d e — r a e e r eo d n sma e wh l al s e r ei a t rt o —e st er lsc n b d . h o ei l ay i n x h e f h i o c a
下 取 整 数 , 而 易 见 , =1、 ≥n 对 于 敏 感 规 则 x y 根 据 给 显 u 1v 。 1 — , 定 的 支 持 度 和 置 信 度 , 们 提 出 以下 启 发 式 策 略 来 进 行 规 则 我
隐藏 。 () 除 项 为敏 感 规 则 的右 件 : 1删
2 问题 描 述
Ab t a t I r e h n et e s p o f u e , t e h u it p r a h sa eu u l e l e y d lt g a e o n et g i m. sr c : n o d r o c a g h u p r o ls h e rsi a p o c e r s al r ai d b ee i n i m ris r n e t t r c y z n t i t E it g p i a yp e e v n s o it n r l nn l o i m s yr m o i g i m s al e lce tr s e s r n elf a d o x si r c r s r ig a s c a i u emi i g ag rt n v o h b e v n e u u l n g e td i e e t a u e a d t t h n f t y n m h e r ls wh c f c o ・e t ci er l p o n v i b t f aan g t ey F c s go es o t o n , a f ci e r a yp e ue , iha e t n r s t es p r a da a l i o d t e a i l . o u i nt h r mi g n i r v u u t a y v n h c ne e t i c r — v p v
L U Bi, ME a . n , WANG C uja I n NG F nr g o h- o i
( c o l f o ue ce c dT c n lg ,Chn iesyo nn n eh oo y Xu h u2 , C ia S h o mp tr in eAn eh oo y oC S iaUnv ri f t Miiga dT c n lg , z o 2 11 1 6 hn )
0 引 言
近 年 来 , 私 保 护 数 据 挖 掘 已经 成 为 数 据 挖 掘 领 域 的 研 隐 究 热 点 之 ~ , 联 规 则 挖 掘 作 为 数 据 挖 掘 研 究 的 一个 重 要 分 关 支 , 隐 私 保 护 方 而 已 受 到 广 泛 的 关 注 , 得 了很 大 进 展 。 在 取 我 们 发 现 , 实 际 应 用 仪 考 虑 支 持 度 和 信 度 是 / 够 的 , 在 _ 卜 f 现 有 的 众 多 关 联 规 则 挖 掘 算 法 在 设 计 q 已 经 引 入 了 第 3个 1 阈 值—— 兴 趣 度 , 并给 出 了兴趣 度 的 形 式 化 定 义 和 计算 方 法 , 这 里 对 用 户 有 价 值 的 规 则 称 之 为 “ 趣 的 ” 同 理 , 隐私 保 有 。 在 护数据清洗过程 中, 务项对用户的敏感程度是不一样的 , 事 这 里 对 用 户 有 价 值 的 事 务 项 称 之 为 “ 趣 的 ” 有 。 为 了进 一 步 提 高 数 据 库 的 质 量 , 降低 隐 藏 失 败 率 和 规 则 丢 失率 “ 本 文 延 续 文 献 【.】 工作 并 引 入 了 兴趣 度和 敏 感 规 , 24 的 则左件 的概念, 要贡献有两 点: 主 () 文 提 出 的 算 法 弓入 了 兴趣 度 的 概 念 , 时在 删 除 兴 1本 l 同 趣 度 低 的项 的 过 程 中 借 鉴 并延 伸 了 文 献 【] 的 方 法 , 5中 引入 左
相关文档
最新文档