粗糙集理论介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X1
红
圆形
小
X2
蓝
方形
大
X3
红
三角形
小
X4
蓝
三角形
小
X5
黄
圆形
小
X6
黄
方形
小
X7
红
三角形
大
X8
黄
三角形
大
取不同的属性组合,可得不同的等价关系(粒度)为: IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}} IND(R1,R2)={{x1}, {x2}, {x3,x7}, {x4}, {x5}, {x6}, {x8}}
信息系统实例:其中U={1,2,3,4,5}; Q={A1,A2,A3,A4}; V=VA1∪ VA2∪VA3∪VA4={0,1,2} f,将对象属性映射到它的值域
U
A1
A2
A3
A4
1
0
0
1
0
2
1
0
2
1
3
1
1
1
0
4
0
2
1
1
5
1
2
1
0
返回
基本概念(2):知识
RS中,知识被认为是一种分类能力。人们的行为是基于 分辨现实的或抽象的对象的能力。那些根据事务的特征 差别将其分门别类的能力都可以看作是某种“知识”。
粗糙集在数据挖掘中的应用 基于粗糙集的数据约简
返回
1. 粗糙集在数据挖掘中的应用
粗糙集对不精确概念的描述是通过上、下近似这两 个精确概念来表示的。
粗糙集理论的的数学基础:假定所研 究的每一个对象都涉及到一些信息(数据、 知识),如果对象由相同的信息描述,那 么它们就是相似的或不可区分的。
Example 例3 含6个流感病例的表
对于任何一个属性集合P,不可分辨关系用IND表 示,定义如下: IND(P)={(x,y) U×U:f(x,a)=f(y,a), aP}
不可分辨关系就是U上的等价关系
基本集:由论域中相互间不可区分的对象组成的 集合,是组成论域知识的颗粒。
返回
例1 一玩具积木的集合如下表描述(表1)
R1(颜色) R2(形状) R3(体积)
(表4-3)
病 头 肌肉 体 流 例 疼 疼 温感
P1 否 是 高 是
P2 是 否 高 是
P3 是
是
很 高
是
Step1. 寻找不可分辨关系: “头疼”:{p2,p3,p5},{p1,p4,p6} “肌肉痛”:{p1,p3,p4,p6},{p2,p5} “体温”:{p1,p2,p5},{p3,p6},{p4} “头疼+肌肉痛”:
例2的粗糙度 =2/5
返回
基本概念(6)粗糙隶属函数 (Rough membership function)
含糊集合没有清晰的边界,即,根据论域中现有知识无法判定某 些元素是否属于该集合。在RS中,不确定(uncertainty)这个概 念是针对元素隶属于集合的程度而言。
例2中,I为属性{R1}上构成的等价关系时,x1对 集合X的粗糙隶属函数为:2/3
粗糙度与粗糙隶属函数
vague(粗糙度):用来描述集合,指集合的 边界不清楚
uncertainty(粗糙隶属函数):描述元素,指 某个元素是否属于某集合是不确定的。
返回
粗糙集理论的基本概念 粗糙集理论的应用(规则挖掘和属性约简) 其他
粗糙集的应用
是一种刻划不完整性和不确定性的数学工具, 能有效地分析不精确,不一致,不完整等各种不完 备的信息, 还可以对数据进行分析和推理, 从中 发现隐含的知识, 揭示潜在的规律
基本概念(4) 集合的上近似、下近似和边界区
一个对象a是否属于集合X根据现有知识来 判断,可分为三种情况:
1)a肯定属于集合X 2) a可能属于也可能不属于集合X 3) a肯定不属于集合X
返回
Let U为论域(非空对象集合 ),I为U中的一组等价关系,
Then
•集合X关于I的下近似(Lower approximation)是由那些根据现有
311100 402111 512101 610100
正区域为:{4},{5,7} So, POSC(D)= POS{A1,A2}({A5})={4,5,7}
712211 800211
γQ(P)=3/8=0.375
返回
属性的重要性
不同属性对于决定条件属性和决策属性之间的依 赖关系起着不同的作用
属性a加入C,对于分类U/IND(D)的重要程度定义为: SGF(a, C, D)=γC(D)-γC-{a}(D)
粗糙集理论介绍
问题的提出:知识的含糊性
术语的模糊性,如高矮 数据的不确定性,如噪声 知识自身的不确定性,如规则的前后件间的 依赖关系不完全可靠 不完备性,数据缺失
由此,提出了包括
概率与统计、证据理论:理论上还难以令人信服,
不能处理模糊和不完整的数据
模糊集合理论:能处理模糊类数据,但要提供隶属
函数(先验知识)
if a=A1,then γC-{a}(D)= γ{A2}(D)=3/8 if a=A2,then γC-{a}(D)= γ{A1}(D)=0
SO,
SGF(A1, C, D)=0 SGF(A2, C, D)=3/8 说明属性A2比属性A1更重要
返回
冗余属性
对于属性集D和R,属性a属于R,如果 POSR(D)= POSR-{a}(D),
使用两个属性进行划分的情况
加入第二个属性
负区域
正区域(下近似)
边界区域
上近似
综合表示 返回
基本概念(5)粗糙度
下近似、上近似及边界区等概念称 为可分辨区,刻化了一个边界含糊 (vague)集合的逼近特性。粗糙程度 按右边公式计算。
式中|#|表示集合的基数或势,对有 限集合表示集合中所包含的元素个 数。
so
例2: (表2)
R1(颜色) R2(形状) R3(体积) class
X1
红
圆形
小
1
X2
蓝
方形
大
1
X3
红
三角形
小
1
X4
蓝
三角形
小
1
X5
黄
圆形
小
2
X6
黄
方形
小
2
X7
红
三角形
大
2
X8
黄
三角形
大
2
等价类IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
X={X1,X2,X3,X4}
下近似得到的:
RULE1:IF (头疼=否)and(肌肉痛=是)and(体温=高) THEN 患有流感 RULE2:IF (头疼=是)and(肌肉痛=是)and(体温=很高) THEN 患有流 感 RULE3:IF (头疼=否)and(肌肉痛=是)and(体温=很高) THEN 患有流 感 负区得到的: RULE4:IF (头疼=否)and(肌肉痛=是)and(体温=正常) THEN 没患流 感 边界区得到的: RULE5:IF (头疼=是)and(肌肉痛=否)and(体温=高) THEN 可能
粗糙集理论:能处理具有不精确性和不确定性的知
识
等各种理论和方法
模糊集和基于概率方法,有时需要一些数据的 附加信息或先验知识, 如模糊隶属函数,基本概 率指派函数和有关统计概率分布等, 而这些信 息有时并不容易得到
粗糙集无需提供问题所需处理的数据集合之外 的任何先验信息, 所以对问题的不确定性的描 述或处理可以说是比较客观的
知识判断肯定属于X的对象所组成的最大集合,有时也称为X的正 区(positive region),记做POS(X)
X U
•集合X关于I的上近似(Upper approximation)是由所有与X相交
非空的等效类I(x)的并集,是那些可能属于X的对象组成的最小 集合。
如果上下近似是相等的, 则这是一个精确集合, 否 则它是一个粗糙集, 其中下近似称为该概念的正区 域, 上下近似的差称为边界。上近似以外的区域称 为负区域(Negative region),记为NEG(x)。
Then,there are:
I*(x)={x2,x4} 回 I*(x)={x1,x3,x7,x2,x4} 回
回24
近似的示意图
假定有一个信息系统, 有两个属性. 属性一有5个值, 属性二有6个值. 现在有一个要近似的集合(X), 在图
中用红色的圆表示.
仅使用第一个属性进行划分的情形. 正区域为空. 蓝色区域为负区域.
Step2. 针对各个属性下的初等集合寻找下近似和上近似。
以“头疼+肌肉痛+体温”为例,设集合X为患流感的 人的集合,I为3个属性构成的一个等效关系: {p1},{p2,p5},{p3},{p4},{p6}, 则
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
{p1,p4,p6},{p2,p5},{p3} “头疼+体温”:
P4 否
是
正 常
否
{p1},{p2,p5},{p3},{p4},{p6} “肌肉痛+体温”:
P5 是 否 高 否
{p1},{p2,p5},{p3,p6},{p4}
p6 否
是
很 高
是
“头疼+肌肉痛+体温”: {p1},{p2,p5},{p3},{p4},{p6}
粗糙集理论的基本观点
粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系,而等 价关系构成了对该空间的划分。粗糙集理论将知 识理解为对数据的划分,每一被划分的集合称为 概念。
粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知 识来(近似) 刻画。
以“肌肉痛+体温”为例:
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3,p6},{p4}}
RULE1:IF (肌肉痛=是)and(体温=高) THEN 患有流感 RULE2:IF (肌肉痛=是)and(体温=很高) THEN 患有流 感 RULE3:IF (肌肉痛=是)and(体温=正常) THEN 没患流 感 RULE4:IF (肌肉痛=否)and(体温=高) THEN 可能
可以处理不完整的数据的体现
返回
2. 基于粗糙集的数据约简
不可分辨关系 近似集(下近似和上近似) 属性的依赖度 属性的重要性 冗余属性 属性约简
返回
属性的依赖度
利用两个属性集合D、C之间的相互依赖程度,确定 在决策属性D之下的条件属性集合C的重要性
即,决策属性集合D 对条件属性集合C的依赖程度用
如下定义来表示:
论域中相互间不可分辨的对象组成的集合。是组成知识 的颗粒(granule)。知识是有粒度的. 粒度越小, 能精确 表达的概念越多. 粒度的形式表示:不可分辨关系/等价类. 粒度是知识的最小单位。
返回
基本概念(3)不可分辨关系与基本集
不可分辨关系IND(P)/等价关系:分类过程中,相差不大
的个体被归于同一类,他们的关系就是不可区分关系。
集合X的下近似为 I*(X)=POS(X)={p1,p3,p6} 集合X的上近似为 I*(X)={p1,p2,p3,p5,p6} 集合X的负区为 NEG(X)={p4} 集合X的边界区为 BND(X)= {p2,p5}
Step3. 获取规则
根据上面的分析可得出关于属性“头疼+肌肉痛+体温”的规则:
有属性a 的依赖度
没有属性a的 依赖度
例5. 属性的重要性计算
表4
U A1 A2 A3 A4 A5 100100 210211 311100 402111 512101 610100 712211 800211
令C={A1,A2},D={A5} 有POSC(D)={4,5,7} γC(D)=3/8=0.375
粗糙集理论的历史
20世纪70 年代, 波兰数学家Z. Pawlak 和一些 波兰科学院,波兰华沙大学的逻辑学家们,一起 从事关于信息系统逻辑特性的研究. 1982. Z.Pawlak发表论文“Rough Set”.宣告 RS的诞生 1991. Z.Pawlak出版著作“Rough Sets: Theoretical Aspects of Reasoning about Data ” 1992. 召开首次国际研讨会,应用专集. 之后得到飞速发展, 在数据挖掘, 模式识别, 粗 糙逻辑等方面取得较大进展.
C
(
D)
|
POS C |U
( |
D)
|
POSc(D)是属性集C在U/IND(D)中的正区域。 example
例4. 属性依赖度的计算 令C={A1,A2}, D={A5}
U A1 A2 A3 A4 A5 依据属性A1、A2,可得到
100100
U/IND(D):
210211
{{1,8},{2,6},{3},{4},{5,7}}
Outline:
粗糙集理论的基本概念 粗糙集理论的应用(规则挖掘和属性约简) 其他
基本概念
1 信息系统,决策表 2 知识 3 等价关系,不可分辨关系与基本集 4 下、上近似
正区域Biblioteka Baidu负区域,边界域 5 粗糙度 6 粗糙隶属函数
基本概念(1) 信息系统
信息系统是四元组(U,Q,V,f). 其中 U是对象集合 Q是属性集合(包括条件属性C和决策属性 D), V是属性的值域 f是一种映射,反应对象集合之间的值