第七章粗糙集理论案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
粗糙集的研究现状与展望
2
概论:粗糙集理论的提出及发展
粗糙集(Rough Sets)是波兰数学家Z. Pawlak于1982年提 出的[1](为开发自动规则生成系统及研究软计算问题而引入)。 由于最初关于粗糙集理论的研究大部分是用波兰语发表的,因此 当时没有引起国际计算机学界和数学界的重视。研究地域也局限 在东欧一些国家,直到80年代末才引起各国学者的注意。九十年 代初,人们才逐渐认识到它的意义。 1992年在波兰Kiekrz召开了第一届国际RS研讨会。这次会议 着重讨论了集合近似定义的基本思想及应用,其中RS环境下的机 器学习基础研究是这次会议的四个专题之一。
–随机性:因为事物的因果关系不确定,从而导致事件发生的结果不确 定性。用概率来度量。概率表示事件发生可能性的大小。概率论的运 用是从随机性中去把握广义的因果律——概率规律。 –模糊性:因为事件在质上没有明确的含义,在量上没有明确的界限, 导致事件呈现“亦此亦彼”的性态,是事物类属的不确定性,用隶属 度来度量。隶属度表示事物多大程度属于某个分类。模糊集合论的运 用从模糊性中去确立广义的排中律——隶属规律。 –粗糙性:因为描述事件的知识(或信息)不充分、不完全,导致事件 间的不可分辨性。粗糙集把那些不可分辨的事件都归属一个边界域。 因此,粗糙集中的不确定性是基于一种边界的概念,当边界域为一空 集时,则问题变为确定性的。
6
粗糙集理论
性质:粗糙集理论是一种处理不精确、不确定与不完全数据的新的数学方法。
应用领域:机器学习与知识发现、数据挖掘、决策支持与分析、专家系
统、归纳推理、模式识别来自百度文库方面的广泛应用,现已成为一个热门的研究领域[2]。
RS理论主要兴趣在于它恰好反映了人们用Rough集方法处理不分明问题的常规性, 即以不完全信息或知识去处理一些不分明现象的能力。或依据观察,度量到的某些不确 定的结果而进行分类数据的能力[4]。 粗糙集理论的优点及局限性主要优点
7. AI Magazine 8. AI Communications 9. European Journal of Operational Research 10.International Journal of Approximate Reasoning 11.Theoretical computer sciences 12.Decision support Systems 13.International Journal of Man-Machine studies 14.Fundamenta Informaticae 15.Intelligent Automation Sciences
11
(2)知识表达系统
– 一个知识表达系统或信息系统S可以表示为有序四元组 S={U,R,V,f} 其中,U={x1,x2,…,xn}为论域,它是全体样本的集合; R=C∪D 为属性集合,其中子集C是条件属性集,反映对象的特征,D为决策属性集, 反映对象的类别; V Vr 为属性值的集合,V 表示属性r的取值范围; r rR f:U×R→V 为一个信息函数,用于确定U中每一个对象x的属性值,即任一xi∊U,r∊R, 则f(xi,r)=Vr
优点:除数据集之外,无需任何先验知识(或信息) 对不确定性的描述与处理相对客观
……
【说明】:Bayes理论、模糊集理论、证据理论等都需要先验知识,具有很大的主 观性。
7
1、不确定性理论
• 自然界和人类的社会活动的各种现象:确定性现象和不确定性 现象。 • 确定性现象:在一定条件下必然会出现的现象。 (1)不确定性的分类:
3
1993年在加拿大Banff召开第 二届国际RS理论与知识发现研讨 会。这次会议积极推动了国际上 对RS理论与应用的研究。由于当 时正值KDD(数据库知识发现)成 为研究的热门话题,一些著名KDD 学习者参加这次会议,并且介绍 了许多应用扩展RS理论的知识发 现方法与系统。 1996年在日本东京召开了第5 届国际RS研讨会,推动了亚洲地 区对RS理论与应用的研究。 1995年,ACM Communication 将其列为新浮现的计算机科学的 研究课题。
属性 对象 x1 x2 x3 x4 x5 x6 头疼r1 是 是 是 否 否 否 条件属性C 肌肉疼r2 是 是 是 是 否 是 体温r3 正常 高 很高 正常 高 很高 决策属性D 流感 否 是 是 否 否 是
12
• (3)不可分辨关系
– 在粗糙集中,论域U中的对象可用多种信息(知识)来描述。当两个不同 的对象由相同的属性来描述时,这两个对象在该系统中被归于同一类, 它们的关系称之为不可分辨关系。即对于任一属性子集 B⊆R ,如果对象 xi,xj∊U ,∀ r∊B ,当且仅当 f(xi,r)=f(xj,r) 时,xi 和xj 是不可分辨的,简 记为Ind(B)。不可分辨关系称为等价关系。 – 例如:只用黑白两种颜色把空间中的一些物体划分成两类: { 黑色物体} 、 { 白色物体},那么同为黑色的物体就是不可分辨的,因为描述它们特征 属性的信息是相同的,都是黑色。如果引入方、圆的属性,可将物体进 一步划分为4 类:{黑色方物体}、{黑色圆物体}、{白色方物体}、{白色 圆物体}。这时,如果有两个同为黑色方物体,则它们还是不可分辨的。 – 不可分辨关系这一概念在 RS 中十分重要,它反映了我们对世界观察的不 精确性。 – 另一方面,不可分辨关系反映了论域知识的颗粒性。知识库中的知识越 多,知识的颗粒度就越小,随着新知识不断加入到知识库中,粒度会不 断减小,直致将每个对象区分开来。但知识库中的知识粒度越小,则导 致信息量增大,存储知识库的费用越高。
BUN(X )
H(X )
NEG (
X)
X 的边界线
16
•
(7)粗糙度(近似精确度)
– 对于知识R(即属性子集),样本子集X的不确定程度可以用粗糙度α R(X)来表示为 Card R X R X Card R X
4
1998年,国际信息科学杂志(Information Sciences)为粗糙集理论的研究出了一期专辑[2,3]。
第一届中国RS理论与软计算学术研讨会,于2001年5月 在重庆举行。
第二届中国RS理论与软计算学术研讨会,于2002年10月 在苏州大学举行。 第三届中国RS理论与软计算学术研讨会,于2003年8月 在重庆举行。 第四届中国RS理论与软计算学术研讨会,将于2004年在 舟山举行。
人工智能
Artificial Intelligence
粗糙集理论与应用
董春游(Chunyou Dong) PhD,Professor
Email:chunyoudong@126.com
研究生学院
1
第十七讲 粗糙集与数据约简
1 2
不确定性理论
粗糙集的基本理论与方法
3
4 5 6
知识的约简
决策表的约简
粗糙集数据约简的具体实现与应用
0.6 0.4 0.2 0.0
0.2
0.4
0.6
0.8
1.0
9
2、 粗糙集的基本理论与方法
1
粗糙集的基本概念
2
粗糙集的基本思想
3
粗糙集的基本特点
10
1)粗糙集的基本概念
(1)知识与分类
– 在粗糙集理论中,知识被认为是一种分类能力。 人们的行为基本是分辨现实的或抽象的对象的 能力。 – 假定我们起初对论域内的对象(或称元素、样 本、个体)已具有必要的信息或知识,通过这 些知识能够将其划分到不同的类别。若我们对 两个对象具有相同的信息,则它们是不可区分 的,即根据已有的信息不能将其划分开。 – 粗糙集理论的核心是等价关系,通常用等价关 系替代分类,根据这个等价关系划分样本集合 为等价类。 基本思想:从知识库的观点看,每个等价类被称 为一个概念,即一条知识(规则)。即,每个等 价类唯一地表示了一个概念,属于一个等价类 的不同对象对该概念是不可区分的。
14
(5)下近似集和上近似集
– 下近似集:根据现有知识 R,判断U中所有肯定属于集合 X的对象所组成的集合, 即 R-(X)={x∊U,[x]R ⊆X} 其中, [x]R 表示等价关系R下包含元素x的等价类。 – 上近似集:根据现有知识 R,判断U中一定属于和可能属于集合 X的对象所组成的 集合,即 R-(X)={x∊U,[x]R ∩X≠φ } 其中, [x]R 表示等价关系R下包含元素x的等价类。 – 给定知识表达系统S={U,R,V,f},对于每个样本子集X ⊆U和等价关系R,所有包含 于X的基本集的并(逻辑和)为R-(X);所有与X的交(逻辑积)不为空集的基本集的 并为R-(X)。
第八届中国粗糙集与软计算学术会议 , 2008 年 8 月 22 5 日至 8 月 24日在河南省新乡市召开中国
粗糙集的理论及应用的文章 主要发表在以下杂志
国际: 1.Information Sciences 2.Fuzzy sets and systems 3.International Journal of Computer and Information Sciences 4.Communication of the ACM 5.Computational Intelligence 6.Journal of computer and system sciences 国内: 1.模式识别与人工智能 2.软件学报 3.科学通报 4.计算机科学 5.计算机学报 6.模糊系统与数学 7.计算机应用与软件 8.计算机研究与发展 9.计算技术与自动化
8
(2)经典集合、模糊集合、粗糙集的关系
– 经典集合认为一个集合完全有其元素所决定,一个元素要么属于这个集合,要么 不属于这个集合。其隶属函数μ X(x)∊{0,1}是二值逻辑。 – 模糊集合认为事物具有中介过渡性质,而非突然改变,集合中每一个元素的隶属 函数μ X(x)∊[0,1],即在闭区间[0,1]可以任意取值,隶属函数可以是连续光滑的, 因此模糊集合对不确定信息的刻划是精细而充分的。但隶属函数不可计算,凭人 的主观经验给定。 – 粗糙集合把用于分类的知识引入集合。一个元素x是否属于集合X,需要根据现有 知识来判定,可分为三个情况:①x肯定不属于X;②x肯定属于X;③x可能属于 也可能不属于 X 。到达属于哪种情况依赖于我们所掌握的关于论域的知识。粗糙 集的隶属函数为阶梯状,对不确定性信息的描述是粗糙的, 1.0 但粗糙隶属函数是可计算的。粗糙集主 0.8 要用于对信息系统进行约简和分类。
15
(6)正域、负域和边界域 – 正域: Pos(X)=R-(X) ,即根据知识 R , U中能完全确定地归入集合X的元素的 集合。 – 负域: Neg(X)=U-R-(X) ,即根据知识 R , U 中不能确定一定属于集合 X 的元 素的集,它们是属于X的补集。 – 边界域: Bnd(X)= R-(X) - R-(X) , 图 6.1 粗糙集概念示意图 边界域是某种意义上论域的不确定域, 根据知识R,U中既不是肯定归入集合 其中, H ( X ) = H ( X ) +BUN ( X ); U 为整个方框区域。 X ,又不能肯定归入集合 ~X ,的元素 构成的集合。 – 边界域为集合 X 的上近似与下近似之 差,如果 Bnd(X) 是空集,则称集合 X 关于 R 是清晰的;反之,如果 Bnd(X) 不是空集,则称集合X为关于R的粗糙 集。因此,粗糙集中的“粗糙”(不 确定性)主要体现在边界域的存在。 集合 X 的边界域越大,其确定性程度 就越小。
13
(4)基本集合
– 由论域中相互不可分辨的对象组成的集合称之为基本集合,它是组成论域知识的 颗粒。 决策属 属性 条件属性C 性D – 例如:考虑条件属性:头疼和 对象 头疼r1 肌肉疼r2 体温r3 流感 肌肉疼。对于x1,x2,x3这三个 x1 是 是 正常 否 对象是不可分辨的。x4,x6在这 x2 是 是 高 是 两个属性上也是不可分辨的。 x3 是 是 很高 是 由此构成的不可分辨集{x1,x2, x4 否 是 正常 否 x3},{x4,x6},{x5}被称为基本 x5 否 否 高 否 x6 否 是 很高 是 集合。 – 设论域U为有限集,R是U的等价关系簇,则K={U,R}称为知识库,知识库的知识粒 度由不可分辨关系Ind(R)的等价类反映。