一种条件函数依赖挖掘算法的分析与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规则集 。
函数依赖在数据库及知识发现领域都是一个很 重要概 念 , 而它对规则 的挖掘而言却不太充分 , 然 因为现实 中的规 则往往是带有条件的 , 如[ 例 邮编] [ 道名] 整个世 界 一 街 在 范 围内是不成立 的, 但若前提 为在英 国时, 它是成立的 。 文献E 3 4正是考虑到这种情况 , 最初 出于数据 清洗 的 目 的而 提 出条 件 函数 依 赖 ( o dt n l u ci a Dee d C n io a F n t n l pn — i o e c, F , F 是 在 F 的 基 础 上 加入 语 义 约束 扩 展 而 来 neC D)C D D
表 1 示 例 数 据 集
定义在 属性 集 x上 的的某个模板 记为 [ , 中 , x] 其 x

_
at( ) t t R , r p是相应 X 上 的各属性均取特 定值 的属性值集
合, 这种取值有如下特点 :
1 B∈X. t B 为模板 t x 中 B分量 取得的值 ; ) 则 K ] K ] 2 K B ∈{o ( U { } , 中 t E ] d r( )t ] d r B) ☆ } 其 a p B C o B) a
TP 1. 3 3 1 1 中 图分 类 号
Ana yss a d I p e e t to fa g rt m fCo dii n l i n m lm n a i n o n Al o ih o n to al Fu to a e e e i sM i ng nc i n lD p nd nce ni
1 引言
在实际 的数据应用 中, 由于来 源复杂繁多 , 时效性不一 致或录入错误 , 主客观原因导致数据库存在着不一 致、 不正 确、 不完全 等 脏 数 据 的现 象 , 种 问 题 称 为 数 据 质 量 问 这
题 。
到不一致的数据 并进行恢 复 。显 然 , 这类 基于规 则的数 据 清洗方法的关键技术之一就是寻找能衡量正确数据 实例的
对存在质量问题 的数 据 , 我们 可通过 数据清 洗技 术来 提高数据的质量 。数据 清洗 , 简言 之就是通 过填 写缺 失的 值、 光滑噪声数据 、 别或删除离群点并解决不一致性 来提 识 高数据质量 , ]其基本 思路 是通过 找到 能描述数 据库 实例 正确数据特征的规则集 , 并将数据库实例与之 对 比, 而找 从
基金项目: 广东省科技攻关项 目( 编号 :003 16 0 2 ) 2 1 1 0 0 0 6 资助 。 0 作者简介 : 周健 昌, , 男 硕士研究生 , 研究方向 : 数据库与数据挖掘 。刘波 , 硕士 , 女, 副教授 , 研究方向 : 数据库理论及软件开发 、 数据挖
掘等
21 0 2年第 9期
表 1 一 个 关 系 实 例 , C D 的 定 义 , 们 可 得 如 下 是 按 F 我
CF D:

定 义 3 模 板 间 的 泛 化 关 系 : 为 给 C D赋 予 语 义 , 们 为模 板 的 变 量 值 与 常 量 值 定 F 我 义 出一 个 关 系符 “ ” 称 泛 化 。 ,
约束条件 , 关于 RHS的部 分看 成结 果 , 合 t E 这个 条 符 p X ̄
件 的元组组成 一个 关 系实例 /( 的一个 子集 ) 则 C D就 r , F
是 r 的标 准 的 F 这 就 是 上 述 b的 标 准 F 的 含 义 ) 上 D( D 。
定 义 1 等 价类 ( q iaet ls) : E uvln as : C
ZHOU i n ha LI Bo J a c ng U
( ia ie s y S h o f n o main a d Te h iu ,Gu n z o 5 0 3 ) Jn n Un v ri c o l f r t n c nq e t oI o a g h u 1 6 2
・ : 的 某 一 实 例 rR


w 、 y、 R 的 属 性 集 合 X、 Z: d r( : o B)r中属 性 B 的 值 域 a
F 与 C D的关系 : D F
・ t ( : 的 全 体 属 性模板元 组 中关于 L HS的部 分 t ̄ 看 成是一个 p x]
a xt n i n o u c i n ld p n e c F n e e so ff n to a e e d n e( D)m i i g t a d i g s ma t n l ss n u r n l s d i a a q a iy d t c i n CFD n n n n h t a d n e n i a a y i ,a d c r e ty u e n d t u l e e t . c t o mi i g d h o t e mor i - r i e f r to smi e ef ne g a n d i o ma i n n swhih b s d o n c a e n FD n n mi i g,s h i ec m p e t fCFD n n sh g rt a h te .Th s o t e t o lxiy o m mi i g i i he h n t e l t r a i
的 , F 表 达 更 具 体 的 约 束 , 而 更 适 合 于 对 规 则 的 挖 比 D 从 掘 , 更适合于数据质量控制。 也 本 文 主 要 介 绍 一 种 经 典 的 C D 挖 掘 算 法 , C ANE F 即 T
使用质量存 在问题 的数据 的后果 可能 十分 严重 , 给 它 决策者提供错误信息 , 而误导其作出错误决策 , 从 轻则造成
时, 表示 取 一个 固定 值 , 否则 t [ ] “ ( 变量 ) , p B 一 ☆” 称 时 “ 表示对应属 性可取域 中 的任 何 值 , ☆” 但应 符合 已存在 的
蕴 涵 及 约束 关 系 。
直观而 言 , 模板可认 为是 比等 价类 在语 义上更 抽象 化
的一 种 归纳 。
算法[ 分析它的不足 , , 并提 出它 的优化实现技 巧并通过实 验结果对 比使用这些技巧后 的时空性能优势 。
2 条 件 函数 依 赖 相 关概 念
在分析 C NE算法前 , TA 先约定一些 默认符号 :
* 收 稿 日期 :0 2年 3月 1日 , 回 日期 :0 2年 4月 2 21 修 21 8日
进行更细粒度的信息挖掘 , 其时间复杂度较高 。文章详细介 绍一 种经典 的 C D挖 掘方法 ( C F 即 TAN E算法 ) 对其实现方法 提 出了优化措 , 施, 并通过实验 比较 了不同实现方法 的效率 , 出了优化措施 改进效率 的结论 。 得 关键词 数据挖掘 ; 数据质量 ;一致性检测 ;数据清洗 ; 条件函数依赖 ; TANE算法 C
义 如下 :
奶 :{ ( 性别 、 学院 } { 一 宿舍 } { 、 ,女 信息学 院} J周 转 B J{
p p rito c st eal faca scag rt m o a e n rdu e hed t i o ls i lo ih f rCFD nn - s miig CTANE,a d p o o e o p i z dt c nq e o t m pe e t t n, n r p s ss meo tmie e h iu sfrisi lm n ai o a lo c mp r st x rme tlr s lswhc l tae heo i ie p r ahe mp o et e efce c . ndas o a e hee pei n a e ut ih iusrt st pt zd a p o c si r v h fiin y l m Ke o d d t iig,d t u l y,d t nc n it n y d tcin,d t la ig,e ndt n 1f n to a e e d nc ,CTANE lo yW rs aam nn aaq ai t aai o sse c ee to aa ce nn o io a u cin ld p n e e i ag — rt m ih Cls a s Numb TP3 1 1 er l.3
属性集 X 的某一等 价类 E] 是 指在给定 关 系实例 中 , tx
所有 与元组 t x 上取值对 应相 等 ( 在 简称 与 t X 上 取值 在
相等 , 同) 下 的元 组 的 集合 。
定 义 2 模 板 ( atr ) : Pt n: e
另外 , C D的模板 中只含变量 , 若 F 则它是一个 F D。

计算 机与数字工程

R: 系 的 模 式 关
A、 C、 R 的 一 个 属 性 B、 D:
2 、 HS两 方 都 出现 变 量 , 这 是 变 量 C D。 )I HS R 则 F 3 )除 以 上 两 种 情 况 外 的 仅 L HS或 R HS一 方 含 变 量
是 不 可 能 出现 C D的 。 F
Abs r c Th ic v r fc n iin lfncin ld p n e c CFD)fo d tba ei ni p ra td tb s nay i e h iu , ta t eds o e yo o dto a u to a e e d n e( r m a a s sa m o tn aa a ea lsstc nq e whihi c s
经济损 失, 则带来毁灭性打击 。 重
据 资料 , 在英 国, 数据 质量 问题每 年造成 6 0 美元 0 0亿
以 上 的经 济 损 失 l 。 显然 , 着 信 息 化 技 术 的推 广 , 据 库 _ 2 ] 随 数 技 术 与 日常 工作 生 活 的更 紧 密 结 合 , 据 质 量 的 重 要 性 E 数 t 趋 明显 的 同 时 , 视 它 的危 害 也 必 将 日趋 严 重 。 忽


条件 函数依赖( o dt nl u ci a e ed ne C D 的挖掘是 一种重要 的数据库分 析技术 , 是在函数依赖 ( u cin l C n io a F n t n l pn ec , F ) i o D 它 F n t a o
D pn e c , D) 掘 的基 础 上 加 入 条 件 分 析 功 能扩 展 而 来 , e ed ne F 挖 当前 被 应 用 于 数 据质 量 检 测 。CF 挖 掘 是 在 F 挖 掘 的 基 础 上 通 过 条 件 分 析 D D
( 专 业 ) 学 院 ) { ) 1☆ ) { 一 +{ ,☆ l { ) ( 宿舍 ) 学 院 } { 如 C栋 } I文 学 院 } { .{ ,真 『{ )
奶 :{ ( 性别 、 专业 } { 一 宿舍 ) { 、 } ☆ } ,☆ ☆ … )

首先 , 对模板 的同一属性分量取值 、z 的泛化关 系定
总第 2 5 7 期
2 1 第 9期 0 2年
计 算机与数 字工 程
C mp tr& Dii lEn iern o ue gt gn eig a
Vo. 0 No 9 14 .


种 条 件 函数依 赖挖 掘 算 法 的分 析 与 实现
周健 昌 刘 波
广州 5 0 3 ) 1 6 2 ( 暨南大学信息科 学与技术学院
相关文档
最新文档