粗糙集理论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《Rough sets: theoretical aspects of reasoning about data》;
2015-3-28
3
粗糙集发展历程
1992年,Slowinski主编的《Intelligence decision
support: handbook of applications and advances of
rough sets theory》的出版,奠定了粗糙集理论的基础,有
力地推动了国际粗糙集理论与应用的深入研究。
1992年,在波兰召开了第一届国际粗糙集理论研讨会,有
15篇论文发表在1993年第18卷的 《Foundation of computingand decision sciences》上。 1995年,Pawlak等人在《ACM Communications》上发表 “Rough sets”,极大地扩大了该理论的国际影响。
2015-3-28
令C0是M中的核属性集,则有C0
A.
22
利用区分矩阵进行属性约简
算法步骤: 第1步. 将核属性列入属性约简后得到的属性集合,即red=C0; 第2步. 在可辨识矩阵中找出所有不包含核属性的属性组合S,即
S {Bi : Bi red , i 1,2,, s}
称xi, xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj) 对所有的pP 成立,即xi, xj不能用P 中的属性加以区别。
2015-3-28
11
等价关系示例:
fact 1
weather misty
road icy
time day
accident yes
2
3 4 5
foggy
misty sunny foggy
由R = {Headache, Temp.} 划
分出来的等价类有:
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
wk.baidu.com
X1 = {u | Flu(u) = yes} = {u2, u3, u6, u7} RX1 = {u2, u3}
R X1 = {u2, u3, u6, u7, u5, u8}
2015-3-28
u1
u2
a, c, d
u3
a, c, d
u4
a, d c a, d
u5
a, b, c, d
a, b, d
25
利用区分矩阵进行属性约简
由上述差别矩阵很容易得到核为: {c} 区分函数fM(S)为:c∧(a∨d),即
icy
not icy icy not icy
night
night day dusk
yes
yes no yes
6
2015-3-28
misty
not icy
night
no
12
等价关系示例:
可知,
U = {1, 2, 3, 4, 5, 6} R = 2{ weather, road, time, accident }
5
2015-3-28
主要内容
������
粗糙集发展历程 粗糙集的基本理论介绍
������
粗糙集的属性约简算法研究
������
粗糙集的扩展模型
在文本分类中的应用 现有工具简介
2015-3-28
6
粗糙集的基本理论介绍
主要优点
除数据集之外,无需任何先验知识(或信息) 对不确定性的描述与处理相对客观 ……
第3步. 将属性组合S与red表示为合取范式的形式,即 P=red∧{∨ bi,k :(i=1,2,...,s;k=1,2,...,m)}
第4步. 将P转化为析取范式形式; 第5步. 根据需要选择满意的属性组合.如需属性数最少,可直接选择合取式中属 性数最少的组合;如需规则最简或数据约简量最大,则需先进行属性值约简. 观看演示
在数据挖掘阶段,可将粗糙集理论用于分类规则的发 现。 在解释与评估过程中,粗糙集理论可用于对所得到的 结果进行统计评估。
2015-3-28
8
粗糙集理论的基本概念
“知识”的定义
使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。
“知识库”的形式化定义
等价关系集R中所有可能的关系对U的划分
粗糙集理论及其应用
2015-3-28
1
主要内容
������
粗糙集发展历程 粗糙集的基本理论介绍
������ ������
粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2015-3-28
2
粗糙集发展历程
1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学
P ( X ) card ( P X ) P ( X ) P ( X ) card ( P X )
注:card(X) 表示集合X中元素个数
设S为一信息系统,PA,且令={X1,X2, …, Xn}是U 的一个分类(子集族),其中 X i U ,则 的 P- 下近似和 P-上近似分别表示为: P {PX 1 , PX 2 , , PX n }
2015-3-28
15
上、下近似关系举例:
U U1 U2 U3 U4 U5 U6 U7 U8 Headache Yes Yes Yes No No No No No Temp. Normal High Very-high Normal Hi g h Very-high Hi g h Very-high Flu No Yes Yes No No Yes Yes No
mi , j {1}, xi , x j D的不同等价类,对 c C , f (c, xi ) f (c, x j ) {c C : f (c, xi ) f (c, x j )}, xi , x j D的不同等价类
其中,1 i j n。
【说明】:在大多数情况下,分类是由几个甚至一个属性来
决定的,而不是由关系数据库中的所有属性的微小差异来决定。
属性约简及核的概念为提取系统中重要属性及其值提供了有力的 数学工具,而且这种约简是本着不破坏原始数据集的分类质量的,
通俗地说,它是完全“保真”的。
2015-3-28
19
主要内容
若P = {weather, road},则
[x] IND(P) = [x] IND{weather} [x] INP{road}
= { {1, 3, 6}, {2, 5}, {4} }{ {1, 2, 4}, {3, 5, 6}}
= { {1}, {2}, {4}, {3, 6}, {5} }
一个关系数据库可看作一个信息系统,其“列”为“属性”, “行”为“对象”。
V pAVP
2015-3-28
10
粗糙集理论的基本概念
设PA, xi, xj U, 定义二元关系INDP称为等价关系:
IND( P) {( xi , x j ) U U | p P, p( xi ) p( x j )}
2015-3-28 23
利用区分矩阵进行属性约简
实例:T=(U,A,V,f),A={a,b,c,d}∪{e}
U/A u1 u2 a 1 0 b 0 0 c 2 1 d 1 2 e 0 1
u3
u4
2
0
0
0
2
2
1
2
0
2
u5
2015-3-28
1
1
2
1
0
24
利用区分矩阵进行属性约简
区分矩阵:
u u1 u2 u3 u4 u5
【说明】:Bayes理论(先验分布 )、证据理论(隶 属度函数)等都需要先验知识,具有很大的主观性。
2015-3-28
7
粗糙集理论在知识发现中的作用
在数据预处理过程中,粗糙集理论可以用于对特征更 准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性,
对数据集进行降维操作。
2015-3-28
18
属性约简
&
“核”
属性约简(Attribute Reduction):在一个信息系统S中,设是
S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分
类质量,即存在RPQ,使得R() =P() ,称之为属性集P的约简,记作REDU(P) 。 所有-约简的交集称为-核,即CORE(P) = REDU(P),核是 信息系统中一系列最重要的属性之一。
P•
X是XU上必然被分类的那些元素的集合,即包含在X内的最大可定义集;
• P X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。 •BndP(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集 合。
2015-3-28 14
集合的上、下近似概念示意图
AprA X
X
AprA X
2015-3-28
4
粗糙集发展历程
1996~1999年,分别在日本、美国、美国、日本召开 了 第4-7届粗糙集理论国际研讨会。 2001~2002,中国分别在重庆、苏州召开第一、二届 粗 糙集与软计算学术会议。 2003年,在重庆召开粗糙集与软计算国际研讨会。 2004年,在瑞典召开RSCTC国际会议(年会) 。 2005年,在加拿大召开RSFDGrC国际会议(年会)。 ……
表示为:K = (U, R)
2015-3-28
9
粗糙集理论的基本概念
“信息系统”的形式化定义
S = {U, A, V, f}, U:对象的有限集 A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子集 V: , Vp是属性P的域 f:U × A → V是总函数,使得 对每个xi U, q A, 有f(xi, q) Vq
������
粗糙集发展历程 粗糙集的基本理论介绍
������
粗糙集的属性约简算法研究
������
粗糙集的扩展模型
在文本分类中的应用 现有工具简介
2015-3-28
20
利用区分矩阵进行属性约简
区分矩阵(discernibility matrix): 在信息系统T= (U, CD, V, f)中,C为条件属性,D为决 策属性,设对象全集 U 按决策属性 D 被分成不相交的类族, 即{X1,X2,…,Xm},则S中C的区分矩阵M(C)= {mi,j}nxn定义 为: , xi , x j D的同一等价类
2015-3-28
P {PX 1 , PX 2 , , PX n }
17
近似精度 & 分类质量
由属性子集PA确定的分类的分类质量为 :
P ( )
card( P X
i 1
n
i
)
card (U )
分类质量表示通过属性子集P正确分类的对象数与信 息系统中所有对象数的比值。这是评价属性子集P的重要 性的关键指标之一。
家,在研究信息系统逻辑特性的基础上,提出了粗糙集理 论的思想。 在最初的几年里,由于大多数研究论文是用波兰文发表 的,所以未引起国际计算机界的重视,研究地域仅限于东 欧各国。 1982年,Pawlak发表经典论文《Rough sets》,标志着 该理论正式诞生。 1991年,Pawlak的第一本关于粗糙集理论的专著
2015-3-28
X2 = {u | Flu(u) = no}
= {u1, u4, u5, u8}
RX2 = {u1, u4}
R X2 = {u1, u4, u5, u8, u6, u7}
16
近似精度 & 分类质量
设S = {U, A, V, f}为一信息系统,且XU, PA, 则 S上X的近似精度为:
2015-3-28 21
利用区分矩阵进行属性约简
中
令M是决策表T的可辨识矩阵,A={a1,a2,...,an},是T
所有条件属性的集合.S是M中所有属性组合的集合,且S 中
不包含重复项.令S中包含有s个属性组合,每个属性组合 表
示为Bi,其公式化描述为: Bi∈S, Bj∈S, Bi≠Bj (i,j=1,2,...,s). 令Card(Bi)=m,则Bi中每个条件属性表示为 bi,k ∈ Bi (k=1,2,...,m)
2015-3-28
13
集合的上近似 & 下近似
在信息系统S = {U, A, V, f}中,设XU是个体全域上的子集, PA,则X的下和上近似集及边界区域分别为:
P X {Y U / P : Y X }
PX {Y U / P : Y X }
BndP ( X ) PX PX