粗糙集理论ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Exceltek Electronics (HK) Ltd Confidential
• 定义11-4 设R是非空集合U上的二元系,如果它
是自反的、对称的和可传递的,则称R为U上的等
价关系。若,(x,y) R 则称x与y有关系,记为
;若xRy
,(x则,y) 称xR与y没有关系,记为

等价x 关R_ 系y的一个重要特点是用它可以构成U的一个
Exceltek Electronics (HK) Ltd Confidential
• 粗糙集的研究对象是由一个多值属性(特征、症状 、特性等)集合描述的一个对象(观察、病历等)集 合,对于每个对象及其属性都有一个值作为其描 述符号,对象、属性和描述符是表达决策问题的3 个基本要素。
Exceltek Electronics (HK) Ltd Confidential
• 集合 X={e2,e3,e6,e7,e8} 是U上的一个子集。则X无法用基本等价
类U/R的并集精确表示,所以X是U上的一个粗糙集合。故有:
• X的下近似集为: Pos(X)=R(X)={e6,e7,e8} • X的上近似集为: R(X)={e1,e2,e3,e4,e5,e6,e7,e8} • X的负区域: NEGR (X)={e5} 。
• 为了处理这些数据,我们需要进行知识的表达, 即知识表达系统。决策表是特殊的知识表达系统 。
Exceltek Electronics (HK) Ltd Confidential
11.2.1 知识表达系统
• 定义11-7 一个知识表达系统S可以定义为,其中 U为对象的集合,称为论域;=R为属性集合;子集 C和D分别称为条件属性和决策属性; 为属性值的 集合;表示了属性的属性值范围;是一个信息函 数,它指定了U中每一对象x的属性值。
• 粗糙集理论是由波兰华沙理工大学Pawlak教授于20世纪80 年代初提出的一种研究不完整、不确定知识和数据的表达 、学习、归纳的理论方法,它是一种刻画不完整性和不确 定性的数学工具,能有效地分析不精确、不一致 (inconslsteni)、不完整(incomPlete)等各种不完备的信 息,还可以对数据进行分析和推理,从中发现隐含的知识 ,揭示潜在的规律。
• U/R1={{e1,e2 ,e3,e4},{e5,e6 ,e7 ,e8}} 和U/R2 ={{e1,e2},{e3,e4},{e5,e6,e7,e8}} 。
U/R1中的 {e1,e2,e3,e4} ,代表 [e1]R1
的等价类。
• 论域U被R划分的基本等价类为: U/R ={{e1,e2},{e3,e4},{e5},{e6,e7 ,e8}}
• 粗糙集理论逐渐应用于数据挖掘领域中,并在对 大型数据库中不完整数据进行分析和学习方面取 得了显著的成果,使得粗糙集理论及数据挖掘的 研究成为热点领域。最近几年,粗糙集理论越来 越受到众多研究人员的重视,它的应用研究得到 了很大的发展。
Exceltek Electronics (HK) Ltd Confidential
• 当能表达成某些基本等价类的并集时,称为可定 义的;否则称为不可定义的。R可定义集能在这个 知识库中被精确地定义,所以又称为R精确集。
• R不可定义集不能在这个知识库中被精确定义,只 能通过集合逼近的方式来刻画,因此也称为R粗糙 集 (Roughset)。
Exceltek Electronics (HK) Ltd Confidential
是一个关系系统K ={U Q,P}P,其中Q U是论域,PQ是U
上的一个等价类簇。如果

,则
(Q的所有等价类的交也是一个等价关系),称Q为
不可分辨关系,记作IND(Q)。
Exceltek Electronics (HK) Ltd Confidential
Βιβλιοθήκη Baidu
11.1.3 上、下近似集
• 给定论域U,一族等价关系R将U划分为互不相交的 基本等价类U/R。令 XgU为R上的一个等价关系。
11.1.2 不可分辨关系
• 在粗糙集理论中,“知识”被认为是一种分类的 能力。不可分辨关系的概念是粗糙集理论的基石 ,它揭示出论域知识的颗粒状结构。假定关于论 域的某种知识,并使用属性和属性值来描述论域 中的对象,如果两个对象(或对象集合)具有相同 的属性和属性值,则它们之间具有不可分辨关系 。
Exceltek Electronics (HK) Ltd Confidential
• 集合上的等价关系和集合上的划分是一一对应, 相互唯一决定的。从数学意义上讲,集合上的等 价关系和集合的划分是等价的概念,即划分就是 分类。
Exceltek Electronics (HK) Ltd Confidential
• 粗糙集应用于数据挖掘领域,能提高对大型数据 库中的不完整数据进行分析和学习的能力,具有 广泛的应用前景和实用价值。
• 粗糙集方法仅利用数据本身提供的信息,无须任 何先验知识。
Exceltek Electronics (HK) Ltd Confidential
• 粗糙集是一个强大的数据分析工具,它能表达和 处理不完备信息;能在保留关键信息的前提下对 数据进行化简并求得知识的最小表达式;能识别 并评估数据之间的依赖关系,揭示出概念的简单 模式;能从经验数据中获取易于证实的规则知识 。
11.1.1 知识和知识库
• 知识是人类通过实践对客观世界的运动规律的 认识,是人类实践经验的总结和提炼,具有抽象 和普遍的特性。
• 从认知科学的观点来看,知识来源于人类对 客观事物的分类能力,概念是事物类别的描述或 者符号,知识则是概念之间的关系和联系。任何 一个物种都是由一些知识来描述与分类的,利用 物种的不同属性知识描述来产生对物种的不同分 类。
Exceltek Electronics (HK) Ltd Confidential
• 定义11-8 设U={U1,U2,U3,…,Un } 是一个 论域 ,U (i=1,2,…,n)是研究对象。 P是属性集 , P = C + D , C 为条件属性集, D 为决策属性
集,T = ( U , P , C , D) 是决策表。决策表中
NEGR (X)=U-RX
•称
为X的R负域。
Exceltek Electronics (HK) Ltd Confidential
• 例11-1 设论域 U={e1,e2,e3,e4,e5,e6,e7,e8} ,U上的一族等价关系 R={R1,R2},R1和R2是两个等价关系。根据这两个等价关系可 以将论域U进行划分:
数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社
Exceltek Electronics (HK) Ltd Confidential
第11章 粗糙集理论
本章包括: 粗糙集的基本概念 知识表达 粗糙集在数据预处理中的应用
Exceltek Electronics (HK) Ltd Confidential
划分。划分即是分类,将研究对象分成不同的类
,这些类之间互不相交,且每一对象均包含在某
一类中。
Exceltek Electronics (HK) Ltd Confidential
• 定义11-5 设U是一个论域,R是U上的等价关系,
U/R表示U上由R导出的所有等价类。 • [x]R表示包含元素x∈U的R等价类。一个知识库就
• 定义11-2 K=(U,R)其中K为知识库,U为全体对象 的集合称为论域,R为论域U上的等价关系(等价关 系与分类的概念等同),它是一种属性或多种属性 的集合。可以根据不同的R对U进行不同形式的分 类。知识库也被称作近似空间。
Exceltek Electronics (HK) Ltd Confidential
11.2.2 决策表
• 决策表包含了某一领域的大量数据,是领域的样 本数据库。它记录了大量样本的属性值和决策情 况,是领域知识的载体。
• 知识获取的目的就是要通过分析这个实例库来得 到该领域中有用的、规律性知识。决策表在决策 应用中有十分重要的地位,可用于表达绝大多数 决策问题。对于决策表,最重要的是决策规则的 生成。
• 知识表达系统的数据以关系表的形式表示,关系 表的行对应要研究的对象,列对应对象的属性, 对象的信息是通过指定对象的各属性值来表达。
Exceltek Electronics (HK) Ltd Confidential
• 例11-2:表11.1是一个轿车信息决策表,条件属 性集为{e1,e2,e3,e4}分别代表价格、油耗、速度 和安全性,决策属性为d,表示质量。
• 两个精确集, • 即粗糙集的上近似集 (UpperApproximation)和下
近似集 (LowerApproximation)来近似地定义粗糙 集。 • 粗糙集理论引入上近似和下近似等概念来刻画知 识的不确定性和模糊性。
Exceltek Electronics (HK) Ltd Confidential
; ;
Exceltek Electronics (HK) Ltd Confidential
11.2知识表达
• 知识表达在智能数据处理中占有十分重要的地位 。在智能系统中,经常会碰到要处理的对象可能 是用语言方式表达,也可能使用数据表达;可能 是精确的数据,可能会有一些缺省的信息或者相 互矛盾的信息。
IND(P) IND(Q)
• 对于两个知识库K=(U,P)和M=(U,Q),当 时,称知识库P比知识库Q更精细,或者说Q比P更 粗糙。当P比Q更精细时,我们称P为Q的特化,Q为 P的推广。由以上可知,推广是将某些范畴组合在 一起,而特化则是将范畴分割成更小的单元。
Exceltek Electronics (HK) Ltd Confidential
• 定义11-3 K=(U,P)和M=(U,Q)是两个知识库,若 IND(P)P=IQND(Q),K则 M称K和M(或Q和P)是等价的, 记作 (或者) 。因此,当K和M是同样的基本 范畴集时,知识库K和M中的知识都能使我们确切 地表达关于论域的完全相同的事实。这个概念意 味着可以用不同的属性集对对象进行描述,以表 达关于论域的完全相同的事实。
U
• 定义11-1 设 讨论的对象组成的有限集合,称为 论域(Universe),对于论域中由等价关系划分出 来的任意子集,都可以称为论域U中的一个概念 (concept)或范畴(category)。为规范起见,认为 空集必也是一个概念。论域U中的任意概念族称为 关于论域的抽象知识,它代表了对论域中个体的 分类,简称为知识。
Exceltek Electronics (HK) Ltd Confidential
• 粗糙集在机器学习、决策支持系统、机器发现、 归纳推理、数据库中的知识发现、模式识别等领 域都得到了广泛的应用。
Exceltek Electronics (HK) Ltd Confidential
11.1粗糙集基本概念
Exceltek Electronics (HK) Ltd Confidential
表11.1 轿车信息决策表
车型U e1 e2 e3 e4 d 1 高低快好高 2 低高中差低 3 中 中 慢 一般 低 4 中 高 慢 一般 中 5 低高中差低 6 高低快好高
Exceltek Electronics (HK) Ltd Confidential
每一行就是一条决策规则: dx| C ->dx | D , dx | B 表示个体x关于属性集B 的值。
Exceltek Electronics (HK) Ltd Confidential
• 定义11-9 若决策表T 中任意的dx≠dy,由dx | C = dy | C ,可得dx| D = dy| D ,则称决策规则 dx 是一致的,否则,称决策规则dx 是不一致的。 如果T 中每条决策规则都是一致的,则称决策表T 是一致的,否则称决策表T是不一致的。
X U
• 定义11-6 设集合 ,R是一个等价关系,称 • RX={ x |xU |,且[x]R X }为集合X的R下近似集;
• 称 RX={ x |x U |,且[x]R X} 为集合X的R上近似集;
• 称集合 BNR(X ) RX RX为X的R边界域;
• 称 POSR (X)=RX 为X的R正域;
相关文档
最新文档