规则不确定性的几种度量及其相互关系
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
→d) =
H
(d ) H
H (d (Q )
Q)
(3)
在 H (d Q ) 给定的情况下, Q 对 U 的划分越细, H (Q ) 越大, GR 越小Ζ
3. 3 S 和 loc S det
文献[ 3 ]中使用“最小描述长度原则”将规则不确定性量化为描述规则预测问题所需的信息量, 用下式
计算:
H M (Q → d ) = H (Q ) + H M (d Q )
Abstract: M ea su res ba sed on rough set theo ry and info rm a tion en trop y fo r ru le uncerta in ty have w ide2 ly go t resea rch, bu t the rela tion sh ip s betw een them have no t a ttracted m uch a tten tion so fa r. In th is p a2 p er, severa l uncerta in ty m ea su res ba sed on rough set theo ry and info rm a tion en trop y a re com p a red and ana lyzed. W e p roved tha t they ex ist incon sistency in eva lua ting uncerta in ty of ru les and gave the neces2 sa ry cond ition of occu rring the incon sistency. A lso the rela tion sh ip s am ong these m ea su res a re summ a2 rized from d ifferen t view s. F ina lly the fu rther d irection s of bu ild ing m o re efficien t uncerta in ty m ea su re a re p ropo sed. Key words: da ta m in ing; ru le ex tracting; uncerta in ty; rough sets; info rm a tion en trop y
收稿日期: 2002212212 资助项目: 国家自然科学基金 (60275020) 作者简介: 李仁璞 (1976- ) , 男, 博士研究生, 主要研究方向为神经网络和数据挖掘; 王正欧 (1938- ) , 男, 教授, 博士生 导师, 主要研究方向为神经网络、系统建模和优化、数据挖掘和知识管理等
d , 〈X , Y 〉∈Q det d }, 可以看出, V 是 U 中能被规则 Q →d 确切分类的所有对象的集合, 也是 Q →d 中所 有一致性规则对应的对象的集合Ζ 则近似度定义为:
Χ(Q → d ) =
V U
(1)
3 表示集合3 的基数Ζ 若 Χ= 1, 则所有规则都是确定的, Χ越小, 规则的不确定度越大Ζ
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
84
系统工程理论与实践
2004 年 1 月
2 主要概念
2. 1 粗糙集
在粗糙集理论中, 数据一般以信息系统或决策表的形式给出Ζ
一个信息系统 S = (U , A , V , f ) , 其中, U 是一个非空有限的对象集合, 称为论域; A 是一个非空有限
则定义
其中 p i=
6 H det (Q → d ) = H (Ω) =
i
p i lo g2
1 pi
Ui U
, 若 iΦ t Ζ 由文献[ 3 ]知
1 , 其他
U
H det (Q → d ) = H (Q ) + H det (d Q )
6 H det (d Q ) = (1 - Χ) log2 U -
的属性集合; V =
∪V
a∈A
a
是属性的值域集合, V
a
是属性
a
的值域;
f
:U
×A
→V
被称为信息函数, 对Π x ∈U ,
Π a ∈A 有 f (x , a) ∈V aΖ 如果 A = C ∪D 且 C ∩D = ф, 则信息系统又可称为决策表, 其中 C 为条件属性
集, D 为决策属性集Ζ 通常D 可简化为单一决策属性 d , 即 A = C ∪{d }Ζ
P 3 (X ) = {y ∈ U : [ y ] IND (P ) ∩ X ≠ ф}
2. 2 信息熵
设对象集合 S 由 k 类 (S 1, S 2, …, S k ) 对象组成, 其概率对应为 p 1, p 2, …, p k , 则 S 的熵定义为:
6 H (S ) =
k
p i lo g2
i= 1
第1期
规则不确定性的几种度量及其相互关系
85
6 6 H (d Q ) =
n
m
P i p ij lo g2
i= 1
j= 1
1 p ij
Q u in lan 在决策树算法 ID 3[5]中使用信息增益 (Ga in) 来衡量规则的不确定性, 其定义如下:
G a in (Q → d ) = H (d ) - H (d Q )
1 pi
设 P Α A , U P = {C 1, C 2, …, C t}, 则U 中对象 x 属于等价类 C i 的概率为 p i= C i
U , I = 1, 2, …, t,
于是定义 P 对 U 的划分得到的熵为:
t
6 H (U , P ) =
i= 1
Ci U
lo g2
U Ci
在不至于混淆的情况下, H (U , P ) 常简化为 H (P ) Ζ
3 几种规则不确定性的量度
设一个决策表 T = (U , C ∪{d }, V , f ) , Q Α C , X ∈U Q , Y ∈U d Ζ定义Q →d Α U Q ×U d 为由Q 到
d 的规则集, 有〈X , Y 〉∈Q →d α] X Α Q 3 (Y ) Ζ 定义Q det d Α U Q ×U d 为由Q 到 d 的一致性规则集,
在数据挖掘领域, 基于粗糙集理论和信息熵的不确定性的度量已得到了广泛的研究[3, 4]Λ 但这些不确 定性的度量之间的关系却未见人研究, 这也影响了这些度量准则的正确使用Λ本文对其中的几种被广泛应 用的不确定性度量准则进行了比较分析, 通过定理证明了它们之间存在不一致性以及发生不一致时的必 要条件, 进而通过对不确定性度量的不同角度揭示了它们之间的相互联系以及在实际应用中应考虑的问 题Λ
对任意 P Α A 且 P ≠ф, 定义二元关系 IND (P ) 为不可分辨关系:
IND (P ) = { (x , y ) ∈ U × U : f (x , a) = f (y , a) , Π a ∈ P }
Байду номын сангаас
对 Π x ∈U , 称[ x ] IND (P) {y ∈U : f (y , a) = f (x , a) , a ∈P }为 U 在 P 上的一个不可分辨类, 也称等价类Ζ
有〈X , Y ) ∈Q det d α] X Α Y Ζ 可以看出, 如果〈X , Y 〉∈Q det d , 则 X 中的对象确切地 (唯一地) 属于 d 中的某一类Ζ 3. 1 近似度
粗糙集理论常用近似度来度量规则中的不确定性Ζ 定义Q →d 的正域为: V = ∪{X ∈U Q : ϖ Y ∈U
2004 年 1 月
文章编号: 100026788 (2004) 0120083205
系统工程理论与实践
第 1 期
规则不确定性的几种度量及其相互关系
李仁璞, 王正欧
(天津大学系统工程研究所, 天津 300072)
摘要: 对目前广泛应用的基于粗集理论和信息熵的几种规则不确定性度量准则进行了比较分析, 通过 定理证明了它们之间存在不一致性以及发生不一致时的必要条件, 并从不同角度揭示了它们之间的相 互关系Λ 最终为下一步构建更有效的不确定性度量的指明了方向Λ 关键词: 数据挖掘; 规则抽取; 不确定性; 粗糙集; 信息熵 中图分类号: T P183 文献标识码: A
假定 H (d ) < log2 U , 则得到 H loc (Q →d ) 的正规化为
S loc (Q → d ) = 1 -
H
loc (Q lo g2
→ d) U-
H
H (d ) (d )
=
lo g2 U - H (Q ) - H (d Q ) log2 U - H (d )
(4)
2) 假定只有U Q 是已有知识Ζ这种情况下, 只有一致性规则对应的对象集合V 中的对象能被确切地
1 引言
规则抽取是数据挖掘的一项重要内容Λ现实数据由于受到噪声等因素的影响, 往往导致从中抽取的规 则具有不确定性Λ 如何度量规则中含有的不确定性, 不仅直接影响最终规则的准确度和复杂度, 而且对规 则抽取的前期步骤如属性选择、连续属性离散化等都具有重要意义Λ
粗糙集理论[1]是由 Z. Paw lak 于 1982 年提出的一种处理模糊性和不确定性的数学工具, 它以不可分 辨关系对论域的划分为基础, 用一对上、下近似集合对给定概念加以近似, 从而对不确定性的度量提供了 一系列严密的分析与操作Λ信息熵[2]是信息理论中用于分析不确定程度的一种重要度量, 它从统计学角度 得到描述一个给定问题所需的最小信息量, 从而以所需信息量的多少来衡量不确定性的程度Λ信息熵起初 应用于通讯领域, 由于对不确定性具有良好的解释现在已广泛应用于模糊逻辑系统、决策支持、数据挖掘 等各个领域Λ
(2)
由于 Ga in 偏好Q 对 U 的较细划分, 因此 ID 3 容易产生复杂且支持度差的规则, 降低规则的分类精度Ζ 为
了弥补以上缺陷, Q u in lan 在 C 4. 5[6]系统中对 Ga in 作了改进, 提出了增益率 (Ga in R a tio, GR ) 度量, 定义
为
GR (Q
3. 2 信息增益与增益率
设 U Q = {U 1, U 2, …, U n}, U d = {C 1, C 2, …, Cm }Ζ 令
Pi =
Ui U
, p ij =
U i ∩Cj
Ui
,
i=
1,
2,
…,
n;
j=
1,
2,
…, m
则定义已知 Q 下 d 的条件熵为
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
分为 d 中的某一类, 而非一致性规则对应的对象U V 的分类则为未知知识, 其不确定性被假定为最大, 即
U V 中的每一个对象均对应一个单独的类Ζ 设U Q = {U 1, U 2, …, U n}, V = U 1∪…∪U t, t≤nΖ 定义等价
关系
IND (7 ) = { (x , y ) ∈ U × U : x = y ∨ Π i ≤ t, x , y ∈ U i}
其中 H (Q ) 反映了划分 U Q 的复杂程度, H M (d Q ) 则度量了在已知知识 U Q 的条件下对 U d 进行预
测时的不确定性Ζ 基于对论域U 的认识程度的不同假设,M 有不同的形式Ζ
1) 假设 U Q 和 U d 均为已知知识, 定义
H loc (Q → d ) = H (Q ∪ d ) = H (Q ) + H (d Q )
IND (P ) 在 U 上形成的等价类构成对 U 的一个划分, 即 U IND (P ) = {S 1, S 2, …, S K }, U IND (P ) 简记为
U PΖ
对任意 X Α U , P Α A , 定义 X 的 P 下近似集合和 P 上近似集合如下:
P 3 (X ) = {y ∈ U : [ y ] IND (P ) Α X }
Severa l M ea su res of U ncerta in ty of R u les and T heir R ela t ion s
L I R en2p u, W AN G Zheng2ou
( In stitu te of System s Eng ineering, T ian jin U n iversity, T ian jin 300072)