粗糙集理论及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
区分矩阵:
u u1 u2 u3 u4 u5 u1 u2
2010-12-29 13
集合的上近似 & 下近似
在信息系统S = {U, A, V, f}中,设X⊂U是个体全域上的子集,P⊆A, 则X的下和上近似集及边界区域分别为: :
P X = {Y ∈ U / P : Y ⊆ X }
P X = {Y ∈ U / P : Y I X ≠ ∅ }
Bnd P ( X ) = P X − P X
2010-12-29 23
利用区分矩阵进行属性约简
实例:T=(U,A,V,f),A={a,b,c,d}∪{e}
U/A u1 u2 u3 u4 u5
2010-12-29
a 1 0 2 0 1
b 0 0 0 0 1
c 2 1 2 2 2
d 1 2 1 2 1
e 0 1 0 2 0
24
利用区分矩阵进行属性约简
% mi, j = {−1}, xi , x j ∈ D的不同等价类,对 ∀c ∈ C, f (c, xi ) = f (c, x j ) % {c ∈ C : f (c, xi ) ≠ f (c, x j )}, xi , x j ∈ D的不同等价类
其中,1 ≤ i < j ≤ n。
2010-12-29
X2 = {u | Flu(u) = no} = {u1, u4, u5, u8} RX2 = {u1, u4}
RX2 = {u1, u4, u5, u8, u6, u7}
16
近似精度 & 分类质量
设S = {U, A, V, f}为一信息系统,且X⊂U, P⊆A,则 S上X的近似精度 近似精度为: 近似精度 µ P ( X ) card ( P X ) µP(X ) = = µ P ( X ) card ( P X )
2010-12-29
18
属性约简 &
“核” 核
属性约简(Attribute Reduction):在一个信息系统S中,设Ψ是 属性约简 S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分 类质量,即存在R⊆P⊆Q,使得γR(ψ) =γP(ψ) ,称之为属性集P的Ψ属性集P 属性集 约简,记作REDUΨ(P) 。 约简 所有Ψ-约简的交集称为Ψ-核,即COREΨ(P) = ∩REDUΨ(P),核是 Ψ 信息系统中一系列最重要的属性之一。 【说明】:在大多数情况下,分类是由几个甚至一个属性来 说明】 决定的,而不是由关系数据库中的所有属性的微小差异来决定。 属性约简及核的概念为提取系统中重要属性及其值提供了有力的 数学工具,而且这种约简是本着不破坏原始数据集的分类质量的, 数学工具 通俗地说,它是完全“保真”的。
2010-12-29 17
近似精度 & 分类质量
分类质量为 由属性子集P⊆A确定的分类Ψ的分类质量 : 分类质量
γ P (ψ ) =
∑
n
i =1
card ( P X i ) card (U )
分类质量表示通过属性子集P正确分类的对象数与信 分类质量 息系统中所有对象数的比值。这是评价属性子集P的重要 性的关键指标之一。
2010-12-29
4
粗糙集发展历程
1996~1999年,分别在日本、美国、美国、日本召开了 第4-7届粗糙集理论国际研讨会。 2001~2002,中国分别在重庆、苏州召开第一、二届粗 糙集与软计算学术会议。 2003年,在重庆召开粗糙集与软计算国际研讨会。 2004年,在瑞典召开RSCTC国际会议(年会) 。 2005年,在加拿大召开RSFDGrC国际会议(年会)。 ……
X
AprA ( X )
2010-12-29
15
下近似关系举例: 上、下近似关系举例:
U U1 U2 U3 U4 U5 U6 U7 U8 Headache Yes Yes Yes No No No No No Temp. Normal High Very-high Normal High Very-high High Very-high Flu No Yes Yes No No Yes Yes No
S = {U, A, V, f}, U:对象的有限集 A:属性的有限集,A=C∪D,C是条件属性子集,D是决策属性子 A=C∪D C D 集 V V: = U p∈AVP , Vp是属性P的域 f:U × A → V是总函数,使得 对每个xi ∈ U, q ∈ A, 有f(xi, q) ∈ Vq
一个关系数据库可看作一个信息系统, 一个关系数据库可看作一个信息系统,其“列”为“属性”, 属性” 对象” “行”为“对象”。
《Rough sets: theoretical aspects of reasoning about data》;
2010-12-29 3
粗糙集发展历程
1992年,Slowinski主编的《Intelligence decision
support: handbook of applications and advances of rough sets theory》的出版,奠定了粗糙集理论的基础,有
2010-12-29
7
粗糙集理论在知识发现中的作用
在数据预处理过程中,粗糙集理论可以用于对特征更 对特征更 准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性, 对数据集进行降维操作。 对数据集进行降维操作。 在数据挖掘阶段,可将粗糙集理论用于分类规则的发 用于分类规则的发 现。 在解释与评估过程中,粗糙集理论可用于对所得到的 对所得到的 结果进行统计评估。 结果进行统计评估。
由R = {Headache, Temp.} 划
分出来的等价类有: {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
X1 = {u | Flu(u) = yes} = {u2, u3, u6, u7} RX1 = {u2, u3}
RX1 = {u2, u3, u6, u7, u5, u8}
2010-12-29
22
利用区分矩阵进行属性约简
算法步骤: 算法步骤 第1步. 将核属性列入属性约简后得到的属性集合,即red=C0; 第2步. 在可辨识矩阵中找出所有不包含核属性的属性组合S,即 S = {Bi : Bi ∩ red = ∅, i = 1,2,L , s} 第3步. 将属性组合S与red表示为合取范式的形式,即 P=red∧{∨ bi,k :(i=1,2,...,s;k=1,2,...,m)} 第4步. 将P转化为析取范式形式; 第5步. 根据需要选择满意的属性组合.如需属性数最少,可直接选 择合取式中属性数最少的组合;如需规则最简或数据约简量最大,则需 先进行属性值约简. 观看演示
力地推动了国际粗糙集理论与应用的深入研究。 1992年,在波兰召开了第一届国际粗糙集理论研讨会,有 15篇论文发表在1993年第18卷的 《Foundation of computingand decision sciences》上。 1995年,Pawlak等人在《ACM Communications》上发表 “Rough sets”,极大地扩大了该理论的国际影响。
2010-12-29
8
粗糙集理论的基本概念
“知识 知识”的定义 知识
使用等价关系集R对离散表示的空间U进行划 分,知识就是R对U划分的结果。
“知识库 知识库”的形式化定义 知识库
等价关系集R中所有可能的关系对U的划分 表示为:K = (U, R)
2010-12-29 9
wk.baidu.com
粗糙集理论的基本概念
“信息系统”的形式化定义 信息系统”
注:card(X) 表示集合X中元素个数
设S为一信息系统,P⊆A,且令Ψ={X1,X2, …, Xn}是U 的一个分类(子集族),其中Xi⊆U,则Ψ的P-下近似和 P-上近似分别表示为:
PΨ = {P X 1, P X 2 ,K , P X n }
PΨ = {P X 1, P X 2 ,K , P X n }
accident yes yes yes no yes no
12
等价关系示例:
可知, U = {1, 2, 3, 4, 5, 6} R = 2{ weather, road, time, accident } 若P = {weather, road},则 [x] IND(P) = [x] IND{weather} ∩ [x] INP{road} = { {1, 3, 6}, {2, 5}, {4} }∩{ {1, 2, 4}, {3, 5, 6}} = { {1}, {2}, {4}, {3, 6}, {5} }
2010-12-29
5
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2010-12-29 6
粗糙集的基本理论介绍
主要优点
除数据集之外,无需任何先验知识(或信息) 对不确定性的描述与处理相对客观 …… 【说明】:Bayes理论(先验分布 )、证据理论(隶 属度函数)等都需要先验知识,具有很大的主观性。
2010-12-29 21
利用区分矩阵进行属性约简
令M是决策表T的可辨识矩阵,A={a1,a2,...,an},是T中 所有条件属性的集合.S是M中所有属性组合的集合,且S中 不包含重复项.令S中包含有s个属性组合,每个属性组合表 示为Bi,其公式化描述为: Bi∈S, Bj∈S, Bi≠Bj (i,j=1,2,...,s). 令Card(Bi)=m,则Bi中每个条件属性表示为 bi,k ∈ Bi (k=1,2,...,m) 令C0是M中的核属性集,则有C0 ⊂ A.
2010-12-29
10
粗糙集理论的基本概念
设P⊂A, xi, xj ∈U, 定义二元关系IND(P)称为等价关系 等价关系: 等价关系
IND( P ) = {( xi , x j ) ∈U × U | ∀p ∈ P, p ( xi ) = p ( x j )}
称xi, xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj) 对所有的p∈P 成立,即xi, xj不能用P 中的属性加以区别。
2010-12-29
19
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2010-12-29 20
利用区分矩阵进行属性约简
区分矩阵( matrix) 区分矩阵(discernibility matrix): 在信息系统T= (U, C∪D, V, f)中,C为条件属性,D为决 策属性,设对象全集U按决策属性D被分成不相交的类族, 即{X1,X2,…,Xm},则S中C的区分矩阵M(C)= {mi,j}nxn定义 为: % φ, xi , x j ∈ D的同一等价类
2010-12-29
11
等价关系示例:
fact 1 2 3 4 5 6
2010-12-29
weather misty foggy misty sunny foggy misty
road icy icy not icy icy not icy not icy
time day night night day dusk night
粗糙集理论及其应用
刘坤 2010-12-29
1
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2
2010-12-29
粗糙集发展历程
1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学 家,在研究信息系统逻辑特性的基础上,提出了粗糙集理 论的思想。 在最初的几年里,由于大多数研究论文是用波兰文发表 的,所以未引起国际计算机界的重视,研究地域仅限于东 欧各国。 1982年,Pawlak发表经典论文《Rough sets》,标志着 该理论正式诞生。 1991年,Pawlak的第一本关于粗糙集理论的专著
• P X是X⊂U上必然被分类的那些元素的集合,即包含在X内的最大可定义集; • P X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。 •BndP(X)是既不能在X⊂U上被分类,又不能在U-X上被分类的那些元素的集 合。
2010-12-29 14
集合的上、下近似概念示意图
AprA ( X )
u u1 u2 u3 u4 u5 u1 u2
2010-12-29 13
集合的上近似 & 下近似
在信息系统S = {U, A, V, f}中,设X⊂U是个体全域上的子集,P⊆A, 则X的下和上近似集及边界区域分别为: :
P X = {Y ∈ U / P : Y ⊆ X }
P X = {Y ∈ U / P : Y I X ≠ ∅ }
Bnd P ( X ) = P X − P X
2010-12-29 23
利用区分矩阵进行属性约简
实例:T=(U,A,V,f),A={a,b,c,d}∪{e}
U/A u1 u2 u3 u4 u5
2010-12-29
a 1 0 2 0 1
b 0 0 0 0 1
c 2 1 2 2 2
d 1 2 1 2 1
e 0 1 0 2 0
24
利用区分矩阵进行属性约简
% mi, j = {−1}, xi , x j ∈ D的不同等价类,对 ∀c ∈ C, f (c, xi ) = f (c, x j ) % {c ∈ C : f (c, xi ) ≠ f (c, x j )}, xi , x j ∈ D的不同等价类
其中,1 ≤ i < j ≤ n。
2010-12-29
X2 = {u | Flu(u) = no} = {u1, u4, u5, u8} RX2 = {u1, u4}
RX2 = {u1, u4, u5, u8, u6, u7}
16
近似精度 & 分类质量
设S = {U, A, V, f}为一信息系统,且X⊂U, P⊆A,则 S上X的近似精度 近似精度为: 近似精度 µ P ( X ) card ( P X ) µP(X ) = = µ P ( X ) card ( P X )
2010-12-29
18
属性约简 &
“核” 核
属性约简(Attribute Reduction):在一个信息系统S中,设Ψ是 属性约简 S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分 类质量,即存在R⊆P⊆Q,使得γR(ψ) =γP(ψ) ,称之为属性集P的Ψ属性集P 属性集 约简,记作REDUΨ(P) 。 约简 所有Ψ-约简的交集称为Ψ-核,即COREΨ(P) = ∩REDUΨ(P),核是 Ψ 信息系统中一系列最重要的属性之一。 【说明】:在大多数情况下,分类是由几个甚至一个属性来 说明】 决定的,而不是由关系数据库中的所有属性的微小差异来决定。 属性约简及核的概念为提取系统中重要属性及其值提供了有力的 数学工具,而且这种约简是本着不破坏原始数据集的分类质量的, 数学工具 通俗地说,它是完全“保真”的。
2010-12-29 17
近似精度 & 分类质量
分类质量为 由属性子集P⊆A确定的分类Ψ的分类质量 : 分类质量
γ P (ψ ) =
∑
n
i =1
card ( P X i ) card (U )
分类质量表示通过属性子集P正确分类的对象数与信 分类质量 息系统中所有对象数的比值。这是评价属性子集P的重要 性的关键指标之一。
2010-12-29
4
粗糙集发展历程
1996~1999年,分别在日本、美国、美国、日本召开了 第4-7届粗糙集理论国际研讨会。 2001~2002,中国分别在重庆、苏州召开第一、二届粗 糙集与软计算学术会议。 2003年,在重庆召开粗糙集与软计算国际研讨会。 2004年,在瑞典召开RSCTC国际会议(年会) 。 2005年,在加拿大召开RSFDGrC国际会议(年会)。 ……
X
AprA ( X )
2010-12-29
15
下近似关系举例: 上、下近似关系举例:
U U1 U2 U3 U4 U5 U6 U7 U8 Headache Yes Yes Yes No No No No No Temp. Normal High Very-high Normal High Very-high High Very-high Flu No Yes Yes No No Yes Yes No
S = {U, A, V, f}, U:对象的有限集 A:属性的有限集,A=C∪D,C是条件属性子集,D是决策属性子 A=C∪D C D 集 V V: = U p∈AVP , Vp是属性P的域 f:U × A → V是总函数,使得 对每个xi ∈ U, q ∈ A, 有f(xi, q) ∈ Vq
一个关系数据库可看作一个信息系统, 一个关系数据库可看作一个信息系统,其“列”为“属性”, 属性” 对象” “行”为“对象”。
《Rough sets: theoretical aspects of reasoning about data》;
2010-12-29 3
粗糙集发展历程
1992年,Slowinski主编的《Intelligence decision
support: handbook of applications and advances of rough sets theory》的出版,奠定了粗糙集理论的基础,有
2010-12-29
7
粗糙集理论在知识发现中的作用
在数据预处理过程中,粗糙集理论可以用于对特征更 对特征更 准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性, 对数据集进行降维操作。 对数据集进行降维操作。 在数据挖掘阶段,可将粗糙集理论用于分类规则的发 用于分类规则的发 现。 在解释与评估过程中,粗糙集理论可用于对所得到的 对所得到的 结果进行统计评估。 结果进行统计评估。
由R = {Headache, Temp.} 划
分出来的等价类有: {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
X1 = {u | Flu(u) = yes} = {u2, u3, u6, u7} RX1 = {u2, u3}
RX1 = {u2, u3, u6, u7, u5, u8}
2010-12-29
22
利用区分矩阵进行属性约简
算法步骤: 算法步骤 第1步. 将核属性列入属性约简后得到的属性集合,即red=C0; 第2步. 在可辨识矩阵中找出所有不包含核属性的属性组合S,即 S = {Bi : Bi ∩ red = ∅, i = 1,2,L , s} 第3步. 将属性组合S与red表示为合取范式的形式,即 P=red∧{∨ bi,k :(i=1,2,...,s;k=1,2,...,m)} 第4步. 将P转化为析取范式形式; 第5步. 根据需要选择满意的属性组合.如需属性数最少,可直接选 择合取式中属性数最少的组合;如需规则最简或数据约简量最大,则需 先进行属性值约简. 观看演示
力地推动了国际粗糙集理论与应用的深入研究。 1992年,在波兰召开了第一届国际粗糙集理论研讨会,有 15篇论文发表在1993年第18卷的 《Foundation of computingand decision sciences》上。 1995年,Pawlak等人在《ACM Communications》上发表 “Rough sets”,极大地扩大了该理论的国际影响。
2010-12-29
8
粗糙集理论的基本概念
“知识 知识”的定义 知识
使用等价关系集R对离散表示的空间U进行划 分,知识就是R对U划分的结果。
“知识库 知识库”的形式化定义 知识库
等价关系集R中所有可能的关系对U的划分 表示为:K = (U, R)
2010-12-29 9
wk.baidu.com
粗糙集理论的基本概念
“信息系统”的形式化定义 信息系统”
注:card(X) 表示集合X中元素个数
设S为一信息系统,P⊆A,且令Ψ={X1,X2, …, Xn}是U 的一个分类(子集族),其中Xi⊆U,则Ψ的P-下近似和 P-上近似分别表示为:
PΨ = {P X 1, P X 2 ,K , P X n }
PΨ = {P X 1, P X 2 ,K , P X n }
accident yes yes yes no yes no
12
等价关系示例:
可知, U = {1, 2, 3, 4, 5, 6} R = 2{ weather, road, time, accident } 若P = {weather, road},则 [x] IND(P) = [x] IND{weather} ∩ [x] INP{road} = { {1, 3, 6}, {2, 5}, {4} }∩{ {1, 2, 4}, {3, 5, 6}} = { {1}, {2}, {4}, {3, 6}, {5} }
2010-12-29
5
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2010-12-29 6
粗糙集的基本理论介绍
主要优点
除数据集之外,无需任何先验知识(或信息) 对不确定性的描述与处理相对客观 …… 【说明】:Bayes理论(先验分布 )、证据理论(隶 属度函数)等都需要先验知识,具有很大的主观性。
2010-12-29 21
利用区分矩阵进行属性约简
令M是决策表T的可辨识矩阵,A={a1,a2,...,an},是T中 所有条件属性的集合.S是M中所有属性组合的集合,且S中 不包含重复项.令S中包含有s个属性组合,每个属性组合表 示为Bi,其公式化描述为: Bi∈S, Bj∈S, Bi≠Bj (i,j=1,2,...,s). 令Card(Bi)=m,则Bi中每个条件属性表示为 bi,k ∈ Bi (k=1,2,...,m) 令C0是M中的核属性集,则有C0 ⊂ A.
2010-12-29
10
粗糙集理论的基本概念
设P⊂A, xi, xj ∈U, 定义二元关系IND(P)称为等价关系 等价关系: 等价关系
IND( P ) = {( xi , x j ) ∈U × U | ∀p ∈ P, p ( xi ) = p ( x j )}
称xi, xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj) 对所有的p∈P 成立,即xi, xj不能用P 中的属性加以区别。
2010-12-29
19
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2010-12-29 20
利用区分矩阵进行属性约简
区分矩阵( matrix) 区分矩阵(discernibility matrix): 在信息系统T= (U, C∪D, V, f)中,C为条件属性,D为决 策属性,设对象全集U按决策属性D被分成不相交的类族, 即{X1,X2,…,Xm},则S中C的区分矩阵M(C)= {mi,j}nxn定义 为: % φ, xi , x j ∈ D的同一等价类
2010-12-29
11
等价关系示例:
fact 1 2 3 4 5 6
2010-12-29
weather misty foggy misty sunny foggy misty
road icy icy not icy icy not icy not icy
time day night night day dusk night
粗糙集理论及其应用
刘坤 2010-12-29
1
主要内容
粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介
2
2010-12-29
粗糙集发展历程
1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学 家,在研究信息系统逻辑特性的基础上,提出了粗糙集理 论的思想。 在最初的几年里,由于大多数研究论文是用波兰文发表 的,所以未引起国际计算机界的重视,研究地域仅限于东 欧各国。 1982年,Pawlak发表经典论文《Rough sets》,标志着 该理论正式诞生。 1991年,Pawlak的第一本关于粗糙集理论的专著
• P X是X⊂U上必然被分类的那些元素的集合,即包含在X内的最大可定义集; • P X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。 •BndP(X)是既不能在X⊂U上被分类,又不能在U-X上被分类的那些元素的集 合。
2010-12-29 14
集合的上、下近似概念示意图
AprA ( X )