粗糙集理论及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017/6/28
13
粗糙集的基本理论介绍
模糊集虽然解决了边界域元素的“亦此亦彼”的 现象,但: 未给出计算含糊元素数目的数学公式 未给出描述含糊元素隶属度的形式化方法 隶属度函数本身不确定
2017/6/28
14
粗糙集的基本理论介绍
粗糙集运用集合论中的“等价关系(不可区分关 系)”,将边界线区域定义为“上相似集”与“ 下相似集”的差集 在“真”、“假”二值之间的“含糊度”可计算 给出了含糊元素数目的计算公式
2017/6/28
11
粗糙集的基本理论介绍
(2)“含糊”问题的提出 1904年,谓词逻辑创始人G. Frege 首次提出将含糊 性归结到“边界线区域” 在论域上存在一些个体,既不能被分到某一子集 上,也不能被分到该子集的补集上。
2017/6/28
12
粗糙集的基本理论介绍
(3)模糊集合的提出 1965年,美国Zadeh教授首次提出个体x与集合S的 关系——x以一定的程度属于S。
【说明】:Bayes理论(先验分布 )、证据理论(隶 属度函数)等都需要先验知识,具有很大的主观性。
2017/6/28
17
粗糙集理论在知识发现中的作用
在数据预处理过程中,粗糙集理论可以用于对特征更 准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性, 对数据集进行降维操作。 在数据挖掘阶段,可将粗糙集理论用于分类规则的发 现。 在解释与评估过程中,粗糙集理论可用于对所得到的 结果进行统计评估。
2017/6/28
28
近似精度 & 分类质量
由属性子集PA确定的分类的分类质量为 :
P ( )
card( P X
i 1
n
i
)
card (U )
分类质量表示通过属性子集P正确分类的对象数与信 息系统中所有对象数的比值。这是评价属性子集P的重要 性的关键指标之一。
2017/6/28
2017/6/28
21
等价关系示例:
fact 1 weather misty road icy time day accident yes
2
3 4 5
foggy
misty sunny foggy
icy
not icy icy not icy
night
night day dusk
yes
yes no yes
2017/6/28
23
集合的上近似 & 下近似
在信息系统S = {U, A, V, f}中,设XU是个体全域上的子集,PA, 则X的下和上近似集及边界区域分别为:
P X {Y U / P : Y X }
PX {Y U / P : Y X }
BndP ( X ) PX PX
力地推动了国际粗糙集理论与应用的深入研究。 1992年,在波兰召开了第一届国际粗糙集理论研讨会,有 15篇论文发表在1993年第18卷的 《Foundation of computingand decision sciences》上。 1995年,Pawlak等人在《ACM Communications》上发表 “Rough sets”,极大地扩大了该理论的国际影响。
注:card(X) 表示集合X中元素个数
设S为一信息系统,PA,且令={X1,X2, …, Xn}是U 的一个分类(子集族),其中 XiU ,则 的 P- 下近似和 P-上近似分别表示为: P {PX 1 , PX 2 , , PX n }
P {PX 1 , PX 2 ,, PX n }
2017/6/28
20
粗糙集理论的基本概念
设PA, xi, xj U, 定义二元关系INDP称为等价关系:
IND( P) {( xi , x j ) U U | p P, p( xi ) p( x j )}
称xi, xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj) 对所有的pP 成立,即xi, xj不能用P 中的属性加以区别。
2017/6/28
31
利用启发式搜索进行属性约简
几个概念: 正区域:在信息系统S=(U, CD, V, f)中,设 D*= {X1,X2,…,Xm},属性子集PC关于决策属性D 的“正区域”定义为:
POSP ( D) {BX : X D }
*
P关于D的正区域表示那些根据属性子集P就能 分入正确类别的所有对象。
由R = {Headache, Temp.} 划
分出来的等价类有:
来自百度文库
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
X1 = {u | Flu(u) = yes} = {u2, u3, u6, u7} RX1 = {u2, u3}
R X1 = {u2, u3, u6, u7, u5, u8}
•若
大可定义集;
,则X是可定义的,否则是不可定义的,即粗糙的
• P X 是 XU 上必然被分类的那些元素的集合,即包含在 X 内的最
• P X 是 U 上可能被分类的那些元素的集合,即包含 X 的最小可定 义集。
2017/6/28
24
集合的上近似 & 下近似
上、下近似集将论域U划分成三个区域:正域、边界域和负域,其定义如 下:
2017/6/28
9
粗糙集的基本理论介绍
自然界中大部分事物所呈现的信息都是: 不完整的、不精确的、模糊的、含糊不清的 经典集合论和逻辑方法无法准确的描述和解决这 些问题。 粗糙集理论的提出,主要是为了描述并处理“含 糊”信息
2017/6/28
10
粗糙集的基本理论介绍
(1)经典集合 特点:集合的边界没有宽度 每个元素要么属于 S ,要么不属于,具有 确定性。
【说明】:在大多数情况下,分类是由几个甚至一个属性来 决定的,而不是由关系数据库中的所有属性的微小差异来决定。 属性约简及核的概念为提取系统中重要属性及其值提供了有力的 数学工具,而且这种约简是本着不破坏原始数据集的分类质量的, 通俗地说,它是完全“保真”的。
2017/6/28
30
主要内容
������ 粗糙集发展历程 粗糙集的基本理论介绍 ������ 粗糙集的属性约简算法研究
《Rough sets: theoretical aspects of reasoning about data》;
2017/6/28
3
粗糙集发展历程
1992年,Slowinski主编的《Intelligence decision
support: handbook of applications and advances of rough sets theory》的出版,奠定了粗糙集理论的基础,有
2017/6/28
18
粗糙集理论的基本概念
“知识”的定义
使用等价关系集R对离散表示的空间U进行划 分,知识就是R对U划分的结果。
“知识库”的形式化定义
等价关系集R中所有可能的关系对U的划分 表示为:K = (U, R)
19
2017/6/28
粗糙集理论的基本概念
“信息系统”的形式化定义
BndP ( X ) PX PX
•BndP(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集 合。
2017/6/28
25
集合的上、下近似概念示意图
AprA X
X
AprA X
2017/6/28
26
上、下近似关系举例:
U U1 U2 U3 U4 U5 U6 U7 U8 Headache Yes Yes Yes No No No No No Temp. Normal High Very-high Normal Hi g h Very-high Hi g h Very-high Flu No Yes Yes No No Yes Yes No
2017/6/28
15
粗糙集的基本理论介绍
边 界 线 的 不 确 定 性
模糊集用隶属度(非精确方法) 来描述 粗糙集用精确的边界线(上、 下近似集)来描述
相 互 补 充
2017/6/28
16
粗糙集的基本理论介绍
主要优点
除数据集之外,无需任何先验知识(或信息) 对不确定性的描述与处理相对客观 用于分类,发现不准确数据或噪声数据内的结构联系 ……
2017/6/28
4
粗糙集发展历程
1996~1999年,分别在日本、美国、美国、日本召开了 第4-7届粗糙集理论国际研讨会。 2001~2002,中国分别在重庆、苏州召开第一、二届粗 糙集与软计算学术会议。 2001年至今,每年召开CRSSC。 2003年,在重庆召开粗糙集与软计算国际研讨会。 2004年,在瑞典召开RSCTC国际会议(偶数年会) 。 2005年,在加拿大召开RSFDGrC国际会议(奇数年会)。 2006年至今,每年召开RSKT。 ……
29
属性约简
&
“核”
属性约简(Attribute Reduction):在一个信息系统S中,设是 S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分 类质量,即存在RPQ,使得R() =P() ,称之为属性集P的约简,记作REDU(P) 。 所有-约简的交集称为-核,即CORE(P) = REDU(P),核是 信息系统中一系列最重要的属性之一。
2017/6/28
5
主要内容
������ 粗糙集发展历程 粗糙集的基本理论介绍 ������ 粗糙集的属性约简算法研究
2017/6/28
6
粗糙集的基本理论介绍
1980年,德国数学家克莱因在《数学:确定性的 丧失》中指出:数学也存在不确定性问题。
确定问题的研究 经典的数学工具,如 集合论 拓展的数学工具,如 概率论、模糊集、粗 糙集等
7
不确定问题的研究
2017/6/28
粗糙集的基本理论介绍
随机性 不 确 定 性 模糊性 不完整性 不稳定性 不一致性 主要的特性
……
2017/6/28
8
粗糙集的基本理论介绍
随机性:由于条件不能决定结果而表现出来的不 确定性,反映了因果律的问题。解决随机性问题 的典型数学方法是概率论。 模糊性:由于概念外延边界的不清晰而表现出的 不确定性,反映了排中律的问题。解决模糊性的 典型数学方法是模糊集理论。
粗糙集理论及其应用
刘坤 2017/6/28
1
主要内容
������ 粗糙集发展历程 粗糙集的基本理论介绍 粗糙集对集合理论的扩展 粗糙集的属性约简算法研究
������
2017/6/28
2
粗糙集发展历程
1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学 家,在研究信息系统逻辑特性的基础上,提出了粗糙集理 论的思想。 在最初的几年里,由于大多数研究论文是用波兰文发表 的,所以未引起国际计算机界的重视,研究地域仅限于东 欧各国。 1982年,Pawlak发表经典论文《Rough sets》,标志着 该理论正式诞生。 1991年,Pawlak的第一本关于粗糙集理论的专著
S = {U, A, V, f}, U:对象的有限集 A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子 集 V pAVP , Vp是属性P的域 V: f:U × A → V是总函数,使得 对每个xi U, q A, 有f(xi, q) Vq
一个关系数据库可看作一个信息系统,其“列”为“属性”, “行”为“对象”。
2017/6/28
X2 = {u | Flu(u) = no}
= {u1, u4, u5, u8}
RX2 = {u1, u4}
R X2 = {u1, u4, u5, u8, u6, u7}
27
近似精度 & 分类质量
设S = {U, A, V, f}为一信息系统,且XU, PA,则 S上X的近似精度为: P ( X ) card ( P X ) P ( X ) P ( X ) card ( P X )
6
2017/6/28
misty
not icy
night
no
22
等价关系示例:
可知, U = {1, 2, 3, 4, 5, 6} R = 2{ weather, road, time, accident } 若P = {weather, road},则 [x] IND(P) = [x] IND{weather} [x] INP{road} = { {1, 3, 6}, {2, 5}, {4} }{ {1, 2, 4}, {3, 5, 6}} = { {1}, {2}, {4}, {3, 6}, {5} }