基于关联规则的分类规则约简方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者 苜介: 王
琦( 7-) 男 , 师、 1 8 , 9 讲 硕士 , 主研 方向: 数据挖掘 ;
李 霞 ,副教授、硕士
收稿 日 : 0 ll l Ema :w j@16 o 期 2 1・1 4 - - i qj 2 . r l s cn
第3卷 8
第9 期

琦, 李
霞 :基于关联规则 的分类规则约筒 方法
第3 8卷 第 9期
、0 _8 ,l3






21 0 2年 5月
M a 2 2 y 01
NO9 .
Co u e n i e rn mp trE g n e i g
软件 技术 与数 据库 ・
 ̄ltg.10_48 02 .06 文献标识码t : lt 0 32(1) _ 4— 3 ti o 2 0 0 A
r n e Ⅱ ( r. ) / c =r 一 1 a a / . . 一 修正 r e的置信度
E i nd f
En i df En f r d o r1f=r . f . l c1 t e e r i ht r . f .g = c1t r e
r t c. .G =r
“ 或”等 关系组 成的比较复杂的公式 ,由引理可 以对其进行
d c so yse . e ii n s t m
[ y r s aamiig c sict nrl; soit nrl; I a ; DS 7d t Ke d ld t n ; l s ai e asc i e UC t S SDR aa wo n a f ou i ao u da
关健词 :数据挖掘 ;分类规则 ;关联规则 ;U I C 数据 ;S S R D SD 7数据
Cl s i c t0 l d c i n M e h d Ba e n As o i t0 l a sf a i n Ru eRe u t0 t o s d 0 s ca i n Ru e i
[ src]T ipp r rp ss lsict nrl rd cinme o yaay igh orl ino a r ue l s ct nrl .t ba sh Ab ta t hs ae o oe cas a o e e ut t db lz e r a o f ti ts ca i ai e Io ti e p a i f i u o h n n t c et tb n i sf o u s n t i

用来抽取能描述重要数据集合 的模型 ,用于 预测未知数
分类质量的前提下 ,对分类规则前件 中的子项进行约简 ,具 有重要 的理论意义及应用价值 。本文提 出一种基于关联规则 的分类规则约筒方法 ,利 用 U I C 机器 学习及 S SD 71数 DS R [1 3
据进行实验 。
Байду номын сангаас
据对象 的离散类别 ,已广泛应用在市场 营销 、金融投资、天 文 、地理 的数据 分析 与决 策等领域【。近年来 ,国内外学者 J j 在分类规则 的研究上做了大量工作 。首 先是分类规则提取方
3 算法分析 . 3
分 类 规 则 处 理 算 法 ( g rh o lsict n ue Aloi m f C as a o R l t i f i Po es gAC P分为 :()P树构造及关联规则获取过程 ; rcsi , R ) n 1F () 2 第 1 2第 行~ 0行是本文算法的核心部分 ,需要遍历分类规 则集( c =d) 设IJ 1及关联规 则集 A II 2,核 心运算( 4行~ ( : ) A d 第 第 9行) 在两重 F r o 循环 中,时间复杂 度为 O d d ) (l 2 ,另外 , x 算法第 5行判断是否 r ̄ a 需要调用( c r, 或重写) 字符串匹配函 数, 复杂度与训练集数据背景 的维度 W有关 , 但远小于 O w ) ( 。
算法 是在 决策树构造过程、生成规则的过程 中,通过选择理
的交易项 目集合 ,D 中每一个交易 r是 Ie 中的一组项 目 B st
集 合 ,即 T_st c . e。 l
定义 1设 P=In …n l Ie( 1 , 七, 尸是长 I hn ,i st= , …, 称  ̄ i 2 ) 度为 k的模式 。 定义 2形如 P Q的蕴涵式,其 中,P_ e,Q le 且 cI t c st s P Q=O,称 P N jQ为关联规则 ;若 Q为类属性 ,则称 P jQ
r . f e 1f— ar g t c 1 t . tr . h e =r e i
定义 5设 , = : > 二g是一条产生式规 则,若 P 、q分别为 由
』构成的简单合取式 ,称 r 为一条简单规则 。 般地 ,获取规则前件和后件是 由各种属性( 的 “ 值) 并”

/ / 删除 r.f 中属于 r.g t 分,r.g t不变 e1 e t ar h 部 i er h i
D0I 1 .9 9 .s . 0 -4 82 1.90 4 : 03 6/i n1 03 2 .0 20 .1 js 0
l 概 述
分 类是数据 挖掘和 机器 学 习领 域中 的重 要研 究内容 之

效率 ,而分类规 则前件 的属性值之间可能存在一 些具有蕴 涵
关系 的相关性 ,因此,如果能够利用这种相 关性 ,在 不影响
为分类规则 。
定义 3模式 P D 在 B中的支持度为 aPD )l/  ̄。 (IB:eI l l D
定义 4设 P和 Q为 2个模式且{ fn ) ,其 中, 尸} { = 户 P n n ;9 QI Q n Q ,则 关联规则 尸 = 在 】 …n : n 2 …n 朋 =Q >
r ÷PC /I s r n o PC — /n et it r
En f r d o
取 式的简 单规 则。证 明参考文献【6。 1]
定义 6设 r aA 2 …A OA O aA k…A > e lah OA …A jaA a= 是 A =

En d
条分类规则 ,r: xa二口 A a aA > 研 o 是一 条关联规 则,称分类 =
WANG Qi LI a , Xi“
(. p r n f mp tr cec & T cn lg ; . u l mp t ec igDeat n, u ce gUnvri , uc e g04 0 , ia aDe at t Co ue in e me o S eh oo y b P biCo ue T ahn p r c r metY n hn iesy Y n h n 4 0 0Chn ) t
中圈 号t P8 分类 1 T
基 于 关联 规 则 的分 类规 则 约 简方 法
壬 琦 ,李 霞
( 学院 a 计算机科学与技术系 ; . 共计算机教学部 ,山西 运城 04 0) 运城 . b公 400

要 :分析分类规则 内属性之 间的相关性 ,提出一 种分类 规则约简 方法 。针对原始训练集构造 F P树 ,获取相应 的关联规则集 ,对关联
a s cain r es tb n lzn 山e c reain a n h t iue anig st d srb stei o tnc e e n teca sfc t n r l y so it ul e y a ay ig o o rlt mo g teat b tsoft i n e. e cie mp ra e d  ̄ e i lsi ai ueb o r r h h i o u igted ge fc n d nc f h so ito ul. heltrp r tea s cain r l. o ea i lre a h eh l le r sd ltdi sn e reo o f e en o t ea s cainr e T e at h i a ofh so ito e wh s s ag rt n trs odvau / eee u h ,i n teca sfc to l.Ex ei na e u t aiaeta i t o shg e lsi c t n e e tv n s y u ig UCIa d S S d t ste h lsi ain r e i u p rme tlrs lsv l t h tt sme d ha ih rca sf ai f cie e sb s d h h i o n DS aa a n h
法 的研 究,如通过构造并改进决策树进行 学习分类规则 ,是 种贪 心思 想, 具有高效、可理解性 强等特征 基于统计 。; 学的分 类方法 :贝叶斯分类法l 】 以用于大型数据库 中, 】 ,可 具有较高分 类质量( 正确率) ;概念格[6 5] -分类法 ,通过格结点

2 关联规则与分类规则的基本概念及性质
基金项 目:山西省 高等学校科技研究开发基金资助项 目(09 10; 20 15)
运城学院基金 资助项 H(C 2 0 0 5 J -0 9 1)
消除冗余 后处理 ,即在 已经 生成规则集的基础上进行 后续处 理 ,消除冗余 。文 献【 】 出的规则过滤方法是一种典型 的 l提 2 规则后处理。然而 ,后处理过程完全脱离原始数据集 ,在得 到较好的处理效率 的同时,极易使有价值信息流失 ,有可 能 影响分类 的质量 。不论直接处理还是后处理,消除的冗余及 冲突存在于规 则之 间,对于高维度背景数据 ,获取 的分类规 则前件将 是较 长的字符 串严重影响分类或预测过程中的匹配
4 7
小置信度% 。 ,频 繁模式集 的生成 问题[-] 高关联规则 [1是提 4 5
挖掘效率 的关键 , 目前频 繁模式 生成方法主要 有 A r r J pi i ol
和 F —eI 。 Pt e”等 r
/ / 后位置一致 ,若不一致 ,则需采用 串中找字符操作 ,且属性 ( 间 值) / / 合取( 析取) 关系一致 ,即 r_r c a  ̄
本文主要通过分析分类规则内属性 之间的相关性 ,减少
分类规则 长度 ,给 出以下基本概念 。 给定一个数据库 D B,I t {12 厶} D s = l1, e , …, 是 B中 1个不 同 " 1
间的关系获取 的分类规则 , 具有精确性、分类质量高 的特点 , 但是知识集容量 较大 ;此外 ,粗集 、模糊集 、遗传算法 J J 等理论在( 尤其是 不确 定背景下) 分类规则 的获取 上也有较好 的应 用。其次针对分类规则集 中存在 的冗余、冲突现象 ,以 提高分类质量和效率为 目标的分类规 则集 的处理 ,分为直接 处理和后处理 2种I 。直接处理是指在分类规则获取 的过程 J … 中伴随剪枝操作 , 是一种改进算法 , 例如 , una Q il R的 C . n 45
想的测试属性及对规则 的剪枝 减少和消除冗余 。文献D ] 0采 用闭集的方法对 关联 、分类规则进行后处理 ,并构造相应 的
分类器 。文 献【 1 1] 在构造 C A分类器 的过程中采用这种技术 B
D B中的置信度为 a  ̄QD ) ' N /B/(/B。 ( P /B =o QD ) PD ) ( P o 在 D 中获取关联规则 ,需要设置最小支持度 i和最 B
规则 后件属性( , 用置信度 描述该属性( 相对于其所在分类规则的重要程度。在分类规则集 中,约筒 d 集) 采 集) 值小于 阈值 , 7 的属性 ,从而
约简分 类规 则长度 。利 用 U I C 机器学 习及 S S R 数据进 行实验 , D SD 7 结果表 明该方法具有较高的分类效率。
规 范。
/c n tu t u e r / o sr c l r
引理 设 P= 是一 条规则 ,其中,P =9 > 、9为 由 及联接 词 “” V A 、“ ”构成的任 意复杂公式 ,则存在与 J Q 等价 的析 P ) ( 取 范式 P ( ) ’ ,即原 式可等价分解为若干前( 件 为简单合 Q’ 后)
相关文档
最新文档