粗糙集方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IND(D) {{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}}
PosC (D) U
1)计算缺少一个属性的等价关系
IND(C \{a1}) {{1,3},{2},{4,8},{5,9},{6.7},{10},{11},{12,14},{13}} IND(C \ {a2}) {{1,8},{2},{3},{4},{5,10},{6},{7},{9},{11},{12},{13},{14}} IND(C \ {a3}) {{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12},{13},{14}}
即:
fa (x) fa ( y)
成立,称对象x和y是对属性A的等价关系, 表示为:
IND( A) {( x, y) | (x, y) U U ,a A, fa (x) fa ( y)}
(3)等价类定义
在U中,对属性集A中具有相同等价关系的 元素集合称为等价关系 IND(A) 的等价类, 表示为:
X {a,b,c}{b,c}
例2
对上例1的等价关系A有集合 X {b, c, f } 是粗糙集,计算集合X的下近似、上近似、 正域、负域和边界。 U中关于A的划分为:
A {{a,b,c},{d,e},{ f }}
有:
X {a,b,c}{b,c}
X {d, e}
X {f}{f}
可知有:
A ( X ) { f } A (X ) {a,b,c}{ f } {a,b,c, f }
A ( X ) PosA ( X ) BNDA ( X )
对于元素 xBND(X ) ,是无法确定其是否属于 X,因此对任意元素 x A(X ) ,只知道x可能属 于X。
(4)粗糙集定义
若 A (X ) A(X ) ,即 BND(X ) 即边界为空,称X 为A的可定义集;
否则X为A不可定义的, 即 A (X ) A(X ) ,称X为A的Rough集(粗糙集)
(3)正域定义 设决策属性D的划分 A {y1, y2...yn},条件属性C 相对于决策属性D的正域定义为:
PosC (D) C _( y j )
(4)条件属性C相对于决策属性D的约简定义 若 c C,如果Pos(C{c}) (D) PosC (D) , 则称c是C中相对于D不必要的,即可约简的,
由此可知,属性a2,a3是相对于决策属性d可省略的, 但不一定可以同时省略, 属性a1和a4是相对决策属性不可省略的,因此:
Core(c) {a1, a4}
2)计算同时减少{a2,a3}的等价关系和正域
IND(C \ {a2, a3}) {{1,8,9},{2,11}.{3,13},{4,5,10},{6,14},{7,12}}
从上面可见:
A ( X ) A ( X ) BNDA (X )
用图说明正域、负域和边界,每一个小长方形表 示一个等价类。
NEG(X)
Pos(X)
= A ( X )
X
正域
负域
图8.1 正域、负域和边界
BND(X) 边界
任意一个元素 x Pos(X ) ,它一定属于X; 任意一个元素 x NEG,(X )它一定不属于X;集 合X的上近似是其正域和边界的并集,即
CoreD (C) redD (C)
一般情况下,信息系统的属性约简集有多个,但约 简集中属性个数最少的最有意义。
属性约简实例
气候信息表是4个条件属性(天气a1,温 度a2,湿度a3,风a4)和1个决策属性(类别 d),见表8.1。
NO.
属性
类别
天气
气温
湿度

1



无风
N
2



有风
N
3
多云

E1 [a]A [b]A [c]A {a,b, c}
E2 [d]A [e]A {d, e}
E3 [ f ]A { f }
U中对属性A的划分为:
A {E1, E2 , E3} {{a,b,c},{d,e},{ f }}
(1)集合X的下近似定义
对任意一个子集 X U 属性A的等价类
粗糙集以等价关系(不可分辨关系)为 基础,用于分类问题。
它用上、下近似两个集合来逼近任意一 个集合,
该集合的边界线区域被定义为上近似集 和下近似集之差集。
上、下近似集可以通过等价关系给出确 定的描述,边界域的含糊元素数目可以 被计算出来。
模糊集(Fuzzy)是用隶属度来描述集合 边界的不确定性,隶属度是人为给定的, 不是计算出来的。
SGF(a,C, D) (C, D) (C {a}, D)
其中 (C {a},D) 表示在缺少属性a后,条件属性与决 策属性的依赖程度。 SGF(a,C, D) 表示C中缺少属性a后,导致不能被准确分 类的对象在系统中所占的比例。
2. SGF(a,C, D性) 质
(1) SGF(a,C, D∈) [0,1]
PosA ( X ) A ( X ) { f }
NEGA (X ) U A (X ) {d,e}
BNDA (X ) A (X ) A (X ) {a,b,c}
8.1.2属性约简的粗糙集理论
属性约简概念 在信息表中根据等价关系,我们可以用等
价类中的一个对象(元组)来代表整个等价 类,这实际上是按纵方向约简了信息表中数 据。
Pos(C \{a2 ,a3}) (D) {3,4,5,6,7,10,12,13,14} U
说明{a2,a3}同时是不可省略的。
3) 在{a2,a3}中只能删除一个属性 即存在两个约简:
redD (C){{a1, a2, a3},{a1, a2, a4 }}
从实例计算可以看出,信息表的属性约简是在 保持条件属性相对决策属性的分类能力不变的 条件下,删除不必要的或不重要的属性。 一般来讲,条件属性对于决策属性的相对约简不 是唯一的,即可能存在多个相对约简。
否则称c是C中相对于D必要的。
(5)条件属性C相对于决策属性D的核定义 若 R ,C 如果R中每一个都是相对于D必要的, 则称R是相对于D独立的。如果R相对于D独 立的,且 PosR (D) PosC (D) ,则称R是C中相对于D 的约简,记为redD (C),所有这样简约的交称为C的D 核,记为:
(1)约简定义 给定一个信息表IT(U,A),若有属性集 B A 且满足 IND(B) IND(A), 称B为A的一个约简。记为red(A)
B=red(A)
(2)核定义 属性集A的所有约简的交集称为A的核。记作
core(A) red(A)
Core(A)是A中为保证信息表中对象可精确定义 的必要属性组成的集合,为A中不能约简的重要 属性,它是进行属性约简的基础。
第8章
集合论方法
(一) 粗糙集方法
8.1粗糙集方法
8.1.1粗糙集概念 8.1.2属性约简的粗糙集理论 8.1.3属性约简的粗糙集方法 8.1.4粗糙集方法的规则获取 8.1.5粗糙集方法的应用实例
8.1.1粗糙集概念
粗 糙 集 ( Rough Set) 是 波 兰 数 学 家 Z.Pawlak于1982年提出的。

A (X ) x | [x]A X
表示等价类 Ei [x]A 中的元素x可能属于X, 即x A (X ),则x可能属于X,也可能不属于X。
(3)正域,负域和边界的定义
全集U可以划分为三个不相交的区域,即正域 (Pos),负域(NEG)和边界(BND):
PosA ( X ) A ( X ) NEG A ( X ) U A ( X ) BNDA ( X ) A ( X ) A (X )
对信息表中的数据按横方向进行约简就是 看信息表中有无冗余的属性,即去除这些属 性后能保持等价性,使对象分类能力不会下 降。
约简后的属性集称作属性约简集,约简集 通常不唯一。
求最小约简集(含属性个数最少的约简集) 同样是一个困难问题,实际上它是一个NPhard问题。
研究者提出了很多启发式算法,如基于遗 传算法的方法等。
[x]A {y | (x, y) IND(A)}
(4)划分的定义
在U中对属性A的所有等价类形成的划分表 示为: A {Ei | Ei [x]A,i=1,2....}
具有特性: (i.) Ei (ii.)当 i j时,Ei E j (iii.) U= Ei
例1
U {a( 体温正常),b(体温正常),c(体
温正常),d (体温高),e(体温高),f(体 温很高} 对于属性A(体温)的等价关系有:
IND( A) {(a,b), (a, c), (b, c), (d, e), (e, d ), (a, a), (b,b), (c, c), (d, d ), (e, e), ( f , f ),}
属性A的等价类有:
②若0< <1,则称D部分依赖于C(D Rough依赖于 C),即在已知条件C下,只能将U上那些属于正 域的个体分类到决策属性D的类别中去。
③若 =0,则称D完全不依赖C,即利 用条件C不能分类到D中的类别中去。
2.属性重要度定义 ,CD A,C为条件属性集,D为决策属性集,a∈ ,
属性Ca关于D的重要度定义为:
粗糙集理论用在数据库中的知识发现主要 体现在:
(1)利用等价关系对数据库进行属性约简。
(2)利用集合的上、下近似关系获取分 类规则。
(1)信息表定义
信息表S=(U,R,V,f)的定义为: U:是一个非空有限对象(元组)集合,
U={x1 x2 …xn},其中xi为对象(元组)。 R:是对象的属性集合,分为两个不相交的子集,
8.1.3粗糙集的属性约简方法
1.属性依赖度定义 信息表中条件属性C和决策属性D,属性D依赖
属性C的依赖度为:
(C, D) | PosC (D) | / | U |
其中 | PosC (D) |表示正域 PosC (D) 的元素个数, |U | 表示整个对象集合的个数。
(C,D) 的性质:
①若 =1,意味着 IND(C) IND(D,) 即已知条件 C下,可将U上全部个体准确分类到决策属性D的 类别中去,即D完全依赖于C。
即条件属性C和决策属性D, R=C D V:是属性值的集合, V a是属性的值域。 f :是 U R V 的一个信息函数,它为每个对
象x的每个属性a赋予一个属性值,即
a R, x U , fa (x) Va
(2)等价关系定义
对 于 a A( A 中 包 含 一 个 或 多 个 属
性),A R, x U, y U ,它们的属性值相同,

无风
P
4

适中

无风
P
5


正常
无风
P
6


正常
有风
N
7
多云

正常
有风
P
8

适中

Baidu Nhomakorabea
无风
N
9


正常
无风
P
10

适中
正常
无风
P
11

适中
正常
有风
P
12
多云
适中

有风
P
13
多云

正常
无风
P
14

适中

有风
N
令 C {a1, a2 , a3, a4}, D {d}
IND(C) {{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}}
(2)若 SGF(a,C, D)
=0,表示属性a关于D是
可省的。因为从属性集中去除属性a后, C-{a}中的信息,原来可被准确分类所有 对象仍能准确划分到各决策类中去。
(3) SGF(a,C, D) ≠0,表示属性a关于D是 不可省的。因为为从属性集C中去除属性a 后,某些原来可被准确分类的对象不再能 被准确划分。
IND(C \{a4}) {{1,2},{3},{4,14},{5,6},{7},{8},{9},{10},{11},{12},{13}}
计算减少一个条件属性相对决策属性的正域
Pos(C\{a1}) (D) {2,5,9,10,11} U Pos(C \{a2}) (D) U Posc (D) Pos(C\{a3}) (D) U Posc (D) Pos(C\{a4})(D) {1,2,3,7,8,9,10,11,12,13} U
A ( X ) Ei | Ei A Ei X
或 A ( X ) x | [x]A X
有:E i
[ x]A
表示等价类 Ei [x]A中的元素x都属于X, 即x A(X ) ,则x一定属于X。
(2)集合X的上近似定义
对任意一个子集 X U ,属性A的等价类 Ei [x]A 有:
A ( X ) Ei | Ei A Ei X
相关文档
最新文档