粗糙集理论ppt
合集下载
粗糙集理论优质获奖课件
点之
若rij=1, 且 i≠j, 则rji=0
对M2中1所 在位置,M 中相应位置 都是1
假如两 假如顶
点之
点xi
间有边, 到xj有边,
一定
xj
13
4、等价关系
等价关系旳定义:设R是非空集合A上旳关系,假如满足 ⑴ R是自反旳; ⑵ R是对称旳; ⑶ R是传递旳; 则称R是A上旳等价关系。
21
内容提要
一、概述 二、知识分类 三、知识旳约简 四、决策表旳约简 五、粗糙集旳扩展模型 六、粗糙集旳试验系统 七、粒度计算简介
22
一、 概述
现实生活中有许多模糊现象并不能简朴地 用真、假值来表达﹐怎样表达和处理这些现 象就成为一种研究领域。早在1923年谓词逻 辑旳创始人G.Frege就提出了模糊(Vague)一 词,他把它归结到边界线上,也就是说在全 域上存在某些个体既不能在其某个子集上分 类,也不能在该子集旳补集上分类。
自反性 反自反性 对称性 反对称性 传递性
12
关系性质旳三种等价条件
体 现 式
关系 矩阵
关系图
自反性 IAR
主对角 线元素 全是1
每个顶 点都有 环
反自反性 R∩IA=
主对角线 元素全是 0
每个顶点 都没有环
对称性 R=R1
反对称性 R∩R1 IA
传递性 RRR
矩阵是对称 矩阵
假如 两个 顶
定义 假如一种集合满足下列条件之一: (1)集合非空, 且它旳元素都是有序对 (2)集合是空集 则称该集合为一种二元关系, 简称为关系,记作R. 如<x,y>∈R, 可记作 xRy;假如<x,y>R, 则记作xRy
实例:R={<1,2>,<a,b>}, S={<1,2>,a,b}. R是二元关系, 当a, b不是有序对时,S不是二元关系 根据上面旳记法,能够写1R2, aRb, aSb等.
若rij=1, 且 i≠j, 则rji=0
对M2中1所 在位置,M 中相应位置 都是1
假如两 假如顶
点之
点xi
间有边, 到xj有边,
一定
xj
13
4、等价关系
等价关系旳定义:设R是非空集合A上旳关系,假如满足 ⑴ R是自反旳; ⑵ R是对称旳; ⑶ R是传递旳; 则称R是A上旳等价关系。
21
内容提要
一、概述 二、知识分类 三、知识旳约简 四、决策表旳约简 五、粗糙集旳扩展模型 六、粗糙集旳试验系统 七、粒度计算简介
22
一、 概述
现实生活中有许多模糊现象并不能简朴地 用真、假值来表达﹐怎样表达和处理这些现 象就成为一种研究领域。早在1923年谓词逻 辑旳创始人G.Frege就提出了模糊(Vague)一 词,他把它归结到边界线上,也就是说在全 域上存在某些个体既不能在其某个子集上分 类,也不能在该子集旳补集上分类。
自反性 反自反性 对称性 反对称性 传递性
12
关系性质旳三种等价条件
体 现 式
关系 矩阵
关系图
自反性 IAR
主对角 线元素 全是1
每个顶 点都有 环
反自反性 R∩IA=
主对角线 元素全是 0
每个顶点 都没有环
对称性 R=R1
反对称性 R∩R1 IA
传递性 RRR
矩阵是对称 矩阵
假如 两个 顶
定义 假如一种集合满足下列条件之一: (1)集合非空, 且它旳元素都是有序对 (2)集合是空集 则称该集合为一种二元关系, 简称为关系,记作R. 如<x,y>∈R, 可记作 xRy;假如<x,y>R, 则记作xRy
实例:R={<1,2>,<a,b>}, S={<1,2>,a,b}. R是二元关系, 当a, b不是有序对时,S不是二元关系 根据上面旳记法,能够写1R2, aRb, aSb等.
AI_05_16粗糙集理论人工智能课程浙江大学研究生
(3)粗糙集理论不是万能的,它不可能解决 一切含糊的、模糊的不确定性问题。
(4) 需要其它方法的补充。
一般地,将粗糙集理论与模糊集理论、 Dempster-Shafer证据理论等其它相关的不确定性 处理方法构成互补,是一种非常自然而又可行的 方法。
1.2 粗糙集理论的发展简况
(1)20世纪70年代,Pawlak和一些波兰科学院、华 沙大学的逻辑学家,诞生以来,经过许多数学家和 计算机科学家的努力,其理论上日趋成熟,特别 是在20世纪80年代末和90年代初,由于粗糙集理 论在数据挖掘、知识发现等领域得到了成功的应 用,它受到了国际上的广泛关注。
相对于其它处理不确定和模糊性的理论工具 (如模糊集理论、Dempster-Shafer证据理论等)
可分为两大类:有决策的分析和无决策的分析。 (1)有决策的分析,主要包括:监督学习与决策 分析;(2)对无决策的分析,主要是数据压缩、 化简、聚类、模式发现、机器发现等。
Jelonek等人成功地应用粗糙集理论对神经网 络的输入属性及属性域进行约简。用粗糙集理论 获取知识和进行机器学习的有代表性的应用实例 是,Kansas大学开发的“基于粗糙集方法的学习 系统”(LERS)。这个系统的规则发现能力能帮 助那些用不完全知识进行工作的专家系统建立知 识库。
粗糙集理论认为,“概念”就是对象的集合, “知识”就是将对象进行分类的能力。将概念看
成是“对象的集合”的思想,实质上是一种强调
概念的“外延”的表达方式。假设我们对全域中 的对象具有必要的“信息”或“知识”,这些 “知识”可以被认为是关于对象的内涵(如属性、 特征或描述)的某种刻划。通过这些知识就能够
研究生《人工智能》课件
粗糙集理论及其应用
Rough Set Theory and its Applications
(4) 需要其它方法的补充。
一般地,将粗糙集理论与模糊集理论、 Dempster-Shafer证据理论等其它相关的不确定性 处理方法构成互补,是一种非常自然而又可行的 方法。
1.2 粗糙集理论的发展简况
(1)20世纪70年代,Pawlak和一些波兰科学院、华 沙大学的逻辑学家,诞生以来,经过许多数学家和 计算机科学家的努力,其理论上日趋成熟,特别 是在20世纪80年代末和90年代初,由于粗糙集理 论在数据挖掘、知识发现等领域得到了成功的应 用,它受到了国际上的广泛关注。
相对于其它处理不确定和模糊性的理论工具 (如模糊集理论、Dempster-Shafer证据理论等)
可分为两大类:有决策的分析和无决策的分析。 (1)有决策的分析,主要包括:监督学习与决策 分析;(2)对无决策的分析,主要是数据压缩、 化简、聚类、模式发现、机器发现等。
Jelonek等人成功地应用粗糙集理论对神经网 络的输入属性及属性域进行约简。用粗糙集理论 获取知识和进行机器学习的有代表性的应用实例 是,Kansas大学开发的“基于粗糙集方法的学习 系统”(LERS)。这个系统的规则发现能力能帮 助那些用不完全知识进行工作的专家系统建立知 识库。
粗糙集理论认为,“概念”就是对象的集合, “知识”就是将对象进行分类的能力。将概念看
成是“对象的集合”的思想,实质上是一种强调
概念的“外延”的表达方式。假设我们对全域中 的对象具有必要的“信息”或“知识”,这些 “知识”可以被认为是关于对象的内涵(如属性、 特征或描述)的某种刻划。通过这些知识就能够
研究生《人工智能》课件
粗糙集理论及其应用
Rough Set Theory and its Applications
粗糙集 (ppt)
一、概述 二、知识分类 三、知识的约简 四、决策表的约简 五、粗糙集的扩展模型 六、粗糙集的实验系统 七、粒度计算简介
2
一、 概述
现实生活中有许多含糊现象并不能简单 地用真、假值来表示﹐如何表示和处理这些 现象就成为一个研究领域。早在1904年谓词 逻辑的创始人G.Frege就提出了含糊(Vague) 一词,他把它归结到边界线上,也就是说在 全域上存在一些个体既不能在其某个子集上 分类,也不能在该子集的补集上分类。
12
Issues in the Decision Table
• The same or indiscernible objects may be represented several times. • Some of the attributes may be superfluous.
13
不可区分性Indiscernibility
二、 知识分类
为数学处理方便起见,在下面的定义中用等价关系 来代替分类。 一个近似空间(approximate space)(或知识库)定义 为一个关系系统(或二元组)
K=(U,R)
其中U(为空集)是一个被称为全域或论域(universe) 的所有要讨论的个体的集合,R是U上等价关系的一 个族集。
7
二、 知识分类
设PR,且P ,P中所有等价关系的交集称为P上 的一种不可区分关系(indiscernbility relation) 记作IND(P),即
[x]IND(p)= ∩[x]R RP 注意,IND(P)也是等价关系且是唯一的。
8
二、 知识分类
给定近似空间K=(U, R),子集XU称为U上的一个概念 (concept),形式上,空集也视为一个概念;非空子族集 PR所产生的不可区分关系IND(P)的所有等价类关系的集合 即U/IND(P),称为基本知识(basic knowledge),相应的等 价类称为基本概念(basic concept);特别地,若关系QR, 则关系Q就称为初等知识(elementary knowledge),相应的 等价类就称为初等概念(elementary concept)。 根据上述定义可知,概念即对象的集合,概念的族集(分类) 就是U上的知识,U上分类的族集可以认为是U上的一个知识 库,或说知识库即是分类方法的集合。
2
一、 概述
现实生活中有许多含糊现象并不能简单 地用真、假值来表示﹐如何表示和处理这些 现象就成为一个研究领域。早在1904年谓词 逻辑的创始人G.Frege就提出了含糊(Vague) 一词,他把它归结到边界线上,也就是说在 全域上存在一些个体既不能在其某个子集上 分类,也不能在该子集的补集上分类。
12
Issues in the Decision Table
• The same or indiscernible objects may be represented several times. • Some of the attributes may be superfluous.
13
不可区分性Indiscernibility
二、 知识分类
为数学处理方便起见,在下面的定义中用等价关系 来代替分类。 一个近似空间(approximate space)(或知识库)定义 为一个关系系统(或二元组)
K=(U,R)
其中U(为空集)是一个被称为全域或论域(universe) 的所有要讨论的个体的集合,R是U上等价关系的一 个族集。
7
二、 知识分类
设PR,且P ,P中所有等价关系的交集称为P上 的一种不可区分关系(indiscernbility relation) 记作IND(P),即
[x]IND(p)= ∩[x]R RP 注意,IND(P)也是等价关系且是唯一的。
8
二、 知识分类
给定近似空间K=(U, R),子集XU称为U上的一个概念 (concept),形式上,空集也视为一个概念;非空子族集 PR所产生的不可区分关系IND(P)的所有等价类关系的集合 即U/IND(P),称为基本知识(basic knowledge),相应的等 价类称为基本概念(basic concept);特别地,若关系QR, 则关系Q就称为初等知识(elementary knowledge),相应的 等价类就称为初等概念(elementary concept)。 根据上述定义可知,概念即对象的集合,概念的族集(分类) 就是U上的知识,U上分类的族集可以认为是U上的一个知识 库,或说知识库即是分类方法的集合。
粗糙集基本知识PPT课件
p i,j {c C :c(,x i) d c(x x ij) () } d d (x ,x ji)) (d (x j)
21
差别矩阵
U\A a b c d e u1 1 0 2 1 0 u2 0 0 1 2 1 u3 2 0 2 1 0 u4 0 0 2 2 2 u5 1 1 2 1 0
u1 u2 u3 u4 u5
3
Y
Y
Y
NY
8,9,15
N
N
N
Y
NY N
4
Y
Y
Y
NY
10,11,12,14
N
N
Y
Y
YY N
5
Y
Y
Y
NY
YY
13
N
N
Y
N
N
6
Y
Y
Y
NY
YY
16
Y
N
N
Y
N
7
N
Y
Y
NY
NY
17
Y
N
Y
N
N
8
N
N
N
YY
NN
9
N
N
N
YY
YN
实例集 10 群居 N 会飞 N 产卵 Y 肺呼吸NY 鸟类Y N
肺呼吸 热血动物 食物 鸟类
13
约简理论
主要思想:保持分类能力不变的条件下, 删除冗余的、不必要的属性或属性值,达 到知识简化的目的。
14
示例:一种动物是否是鸟类
实例集 群居 会飞 产卵 肺哺呼乳吸 会游鸟泳类
实例集
群居 会飞 产卵 肺呼吸 鸟类
1
N
Y
Y
NY
21
差别矩阵
U\A a b c d e u1 1 0 2 1 0 u2 0 0 1 2 1 u3 2 0 2 1 0 u4 0 0 2 2 2 u5 1 1 2 1 0
u1 u2 u3 u4 u5
3
Y
Y
Y
NY
8,9,15
N
N
N
Y
NY N
4
Y
Y
Y
NY
10,11,12,14
N
N
Y
Y
YY N
5
Y
Y
Y
NY
YY
13
N
N
Y
N
N
6
Y
Y
Y
NY
YY
16
Y
N
N
Y
N
7
N
Y
Y
NY
NY
17
Y
N
Y
N
N
8
N
N
N
YY
NN
9
N
N
N
YY
YN
实例集 10 群居 N 会飞 N 产卵 Y 肺呼吸NY 鸟类Y N
肺呼吸 热血动物 食物 鸟类
13
约简理论
主要思想:保持分类能力不变的条件下, 删除冗余的、不必要的属性或属性值,达 到知识简化的目的。
14
示例:一种动物是否是鸟类
实例集 群居 会飞 产卵 肺哺呼乳吸 会游鸟泳类
实例集
群居 会飞 产卵 肺呼吸 鸟类
1
N
Y
Y
NY
粗糙集理论方法及其应用ppt课件
具有相同或相似信息的 对象不能被识别。
粗糙集概念示意图
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2 粗粗糙糙集集理理论论思思想想
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2.3 粗糙近似
定义 给定一个知识表示系统 S (U, A,V, f ) , P A,X U ,x U ,集合 X 关于 I 的下近似、 上近似、负区及边界区分别为
apr (X ) {x U : I(x) X} p
aprP (X ) {x U : I(x) X }
neg p ( X ) {x U : I (x) X }
2.2 不可分辨关系 (Indiscribility relation)
❖ 不可分辨关系是一个等 价关系(自反 的、对称 的、传递的)。
❖ 包含对象x的等价类 记为I(x)。等价类与知 识粒度的表达相对应, 它是粗糙集主要概念, 如近似、依赖及约简等, 定义的基础
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
决策属性(D)
U
a1
a2
a3
d
n1
High
Low
Low
Low
n2
Medium
High
Low
High
n3
High
High
High
High
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
粗糙集概念示意图
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2 粗粗糙糙集集理理论论思思想想
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2.3 粗糙近似
定义 给定一个知识表示系统 S (U, A,V, f ) , P A,X U ,x U ,集合 X 关于 I 的下近似、 上近似、负区及边界区分别为
apr (X ) {x U : I(x) X} p
aprP (X ) {x U : I(x) X }
neg p ( X ) {x U : I (x) X }
2.2 不可分辨关系 (Indiscribility relation)
❖ 不可分辨关系是一个等 价关系(自反 的、对称 的、传递的)。
❖ 包含对象x的等价类 记为I(x)。等价类与知 识粒度的表达相对应, 它是粗糙集主要概念, 如近似、依赖及约简等, 定义的基础
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
决策属性(D)
U
a1
a2
a3
d
n1
High
Low
Low
Low
n2
Medium
High
Low
High
n3
High
High
High
High
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
粗糙集理论与算法初步.ppt
PQk
posPQ
U
PX
XUQ
U
第一节
粗糙集理论
3、R0.5理论
粗糙集的近似集R0.5的提出
集合的相似度 A,B是论域U上的两个子集定义从U×U→[0,1]
的映射(A,B)→s(A,B),称s(A,B)为A,B的相似 度,如果满足如下条件: 1)任意U中的集合 A,B,s(A,B)有界; 2)对称性,即s(A,B)=s(B,A); 3)s(A,A)=1,且s(A,B)=0的充要条件是A∩B为 空集。
系族PS,对于任意P中的R,若 IND(P)≠IND(P-{R})成立,称R为P中必要的。 独立性
如果对每一个P中R,R都是P中必要的, 称P是独立的,否则称P是依赖的。 显然,若P独立,则其任何子集G都是独立的。
知识约简
知识的约简 知识库K和其上的一族等价关系PS,对
任意的GP,若: 1)G是独立的 2)IND(G)=IND(P) 称G是P的一个约简,记作G∈RED(P)。
注:知识表达系统主要有两种类型,信息 系统以及决策系统。
知识表达系统的知识约简
信息系统中知识约简的一般步骤 Step 1:删除表中重复对象 Step 2:删除冗余的条件属性 Step 3:删除每个对象的冗余属性值 Step 4:求出其约减
决策表中知识约简的一般步骤 Step 5:根据约简,求出决策规则
的一组或单个系统参数。U中任意的概念X 以及独立于系统参数R的划分,有
参数R的重要度 sigRXUbU nRX
划分关于系统参数R的重要度 n UbnRXi sigR(U) i1 nU
粗糙集的数值特征
知识的依赖度 知识库K=(U,S),以及任意P,QIND(K),
定义知识Q依赖于知识P的依赖度:
《粗糙集理论简介》课件
05
粗糙集的应用实例
数据挖掘中的粗糙集应用
分类
利用粗糙集理论对数据进行分类,通过确定数据的属性重要性和 类别关系,实现高效准确的分类。
聚类
通过粗糙集理论,可以发现数据中的相似性和差异性,从而将数 据分成不同的聚类。
关联规则挖掘
利用粗糙集理论,可以发现数据集中项之间的有趣关系和关联规 则。
机器学习中的粗糙集应用
粗糙集的补运算
总结词
粗糙集的补运算是指求一个集合的所有 可能补集的运算。
VS
详细描述
补运算在粗糙集理论中用于确定一个集合 的所有可能补集。补集是指不属于该集合 的所有元素组成的集合。通过补运算,我 们可以了解一个集合之外的所有可能性, 这在处理不确定性和模糊性时非常重要。
04
粗糙集的扩展理论
决策粗糙集
多维粗糙集
多维粗糙集是粗糙集理论在多维空间下的扩展,它考虑了多个属性或特征对数据 分类的影响。多维粗糙集可以更准确地描述多维数据的分类和聚类问题,因此在 处理多特征和多属性问题时具有更大的优势。
多维粗糙集的主要概念包括多维下近似、多维上近似、多维边界等,通过这些概 念可以度量多维数据的不确定性,从而为多维分类和聚类提供支持。
决策分析
粗糙集理论可以用于决策支持系 统,通过建立决策模型来分析不 确定性和模糊性条件下的最优决 策。
知识获取
粗糙集理论可以用于从数据中提 取隐含的知识和规则,尤其在处 理不完整和不精确信息时具有显 著效果。
02
粗糙集的基本概念
知识的分类
知识表达
通过数据表中的属性值来表达知识,将对象进 行分类。
概率粗糙集
概率粗糙集是粗糙集理论在概率框架下的扩展,它引入了 概率测度的概念,用于描述数据的不确定性。概率粗糙集 可以更准确地描述数据的不确定性和随机性,因此在处理 不确定性和随机性问题时具有更大的灵活性。
粗糙集理论及其应用ppt课件
12
(3)模糊集合的提出 1965年,美国Zadeh教授首次提出个体x与集合S的 关系——x以一定的程度属于S。
13
模糊集虽然解决了边界域元素的“亦此亦彼”的 现象,但: 未给出计算含糊元素数目的数学公式 未给出描述含糊元素隶属度的形式化方法 隶属度函数本身不确定
14
粗糙集运用集合论中的“等价关系(不可区分关 系)”,将边界线区域定义为“上相似集”与“ 下相似集”的差集 在“真”、“假”二值之间的“含糊度”可计算 给出了含糊元素数目的计算公式
9
自然界中大部分事物所呈现的信息都是: 不完整的、不精确的、模糊的、含糊不清的 经典集合论和逻辑方法无法准确的描述和解决这 些问题。 粗糙集理论的提出,主要是为了描述并处理“含 糊”信息
10
(1)经典集合 特点:集合的边界没有宽度 每个元素要么属于 S ,要么不属于,具有 确定性。
11
(2)“含糊”问题的提出 1904年,谓词逻辑创始人G. Frege 首次提出将含糊 性归结到“边界线区域” 在论域上存在一些个体,既不能被分到某一子集 上,也不能被分到该子集的补集上。
有 力地推动了国际粗糙集理论与应用的深入研究。 1992年,在波兰召开了第一届国际粗糙集理论研讨会,有 15篇论文发表在1993年第18卷的 《Foundation of computingand decision sciences》上。 1995年,Pawlak等人在《ACM Communications》上发表 “Rough sets”,极大地扩大了该理论的国际影响。
7
随机性 不 确 定 性 模糊性 不完整性 不稳定性 不一致性
主要的特性
……
8
随机性:由于条件不能决定结果而表现出来的不 确定性,反映了因果律的问题。解决随机性问题 的典型数学方法是概率论。 模糊性:由于概念外延边界的不清晰而表现出的 不确定性,反映了排中律的问题。解决模糊性的 典型数学方法是模糊集理论。
经典粗糙集理论资料共32页
经典粗糙集理论资料
36、如果我们国家的法律中只有某种 神灵, 而不是 殚精竭 虑将神 灵揉进 宪法, 总体上 来说, 法律就 会更好 。—— 马克·吐 温 37、纲纪废弃之日,便是暴政兴起之 时。— —威·皮 物特
38、若是没有公众舆论的支持,法律 是丝毫 没有力 量的。 ——菲 力普斯 39、一个判例造出另一个判例,它们 迅速累 聚,进 而变成 法律。 ——朱 尼厄斯
40、人类法律,事物有规律,这是不 容忽视 的。— —爱献 生
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
36、如果我们国家的法律中只有某种 神灵, 而不是 殚精竭 虑将神 灵揉进 宪法, 总体上 来说, 法律就 会更好 。—— 马克·吐 温 37、纲纪废弃之日,便是暴政兴起之 时。— —威·皮 物特
38、若是没有公众舆论的支持,法律 是丝毫 没有力 量的。 ——菲 力普斯 39、一个判例造出另一个判例,它们 迅速累 聚,进 而变成 法律。 ——朱 尼厄斯
40、人类法律,事物有规律,这是不 容忽视 的。— —爱献 生
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据仓库与数据挖掘PPT第9章 粗糙集理论
如果再考虑是否能去掉大小属性呢?这个时候知识系统就变为:
A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}}。同样考虑“稳定”在 知识系统A/R2中的上下近似分别为:{x1,x2}和{x1,x2,x5,x8},已经和原 来知识系统中的上下近似不一样了,同样考虑“不稳定”的近似表示也 变化了,所以删除属性“大小”是对知识表示有影响的故而不能去掉。
• 目前,粗糙集理论已经广泛的应用于知识发现、数据挖掘、智能 决策、电子控制等多个领域。
9.1.2 粗糙集理论的特点
粗糙集理论是一种数据分析工具。 粗糙集理论不需要先验知识。 粗糙集理论是一种软计算方法。
9.1.3 粗糙集理论在数据挖掘中的应用
在数据预处理过程中,粗糙集理论可以用于对特征更 准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性, 对数据集进行降维操作。 在数据挖掘阶段,可将粗糙集理论用于分类规则的发 现。 在解释与评估过程中,粗糙集理论可用于对所得到的 结果进行统计评估。
假设有8个积木构成了一个集合A: A={x1,x2,x3,x4,x5,x6,x7,x8},
每个积木块都有颜色属性,按照颜色的不同,我们能够把这 堆积木分成 R1={红,黄,兰}三个大类:
红颜色的积木构成集合X1={x1,x2,x6}, 黄颜色的积木构成集合X2={x3,x4}, 兰颜色的Slowinski主编的《Intelligence decision support: handbook of applications and advances of rough sets theory》 的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙 集理论与应用的深入研究。
同样的讨论对于“形状”属性也一样,它是不能去掉的。 最后我们得到化简后的知识库R2,R3,从而能得到下面的决策规则:
第4讲粗糙集理论决策规则
U/ ind({R1,R2}) 或 U/ ind({R1,R3})来表达。 ❖R={R1, R2, R3}的约简是什么? 14
4.2 检验独立与否
❖如果每一个r∈R都为R中必要的, 则称R为独立的;
❖否则称R为依赖的。
❖定理:如果R是独立的,P R,
则P也是独立的。
15
4.2 检验独立与否
❖检 立验 的{?R1,R2}和{R1,R3}是否为独
7
3、约简与核
❖ 约简(reduct),核(core) ❖ 定义:令R为一族等价关系,r∈R, 如果ind(R)= ind(R-{r}),则称r为R中不必要的; 否则称r为R中必要的。 如果每一个r∈R都为R中必要的,则称R为独立 的;否则称R为依赖的。
定理:如果R是独立的,P R,则P也是独立的。
❖ 令C和D分别为条件属性集和决策属性集
属性子集C' C关于D的重要性定义为
C(D C‘) (C D) CC(1 D) 特别当C’ {}时,属性 C关于D的重要性为 C(D ) (C D) C{(} D)
头痛否且体温很高流感否以上规则的确定性因子为0540小结7综合算例71举例患者的知识表达系统72等价关系73依赖关系74约简与核75属性的重要性76决策规则418粗糙集内涵总结求约简与核的过程知识库kur等价类uruindr比较uindruindr判别必要性独立的必要的约简所有的必要关系组成的集合核428粗糙集内涵总结求解决策规则知识表达系统suavfacdcd比较posccnd不等必要约简相对核相对重要性决策规则的确定性因子438粗糙集内涵总结名词概念决策规则448粗糙集内涵总结粗糙集智能决策数据挖掘45总结内容1回顾2引例3约简与核5依赖关系6知识表达7综合算例决策规则8粗糙集内涵总结46doyouhavemadeprogresstoday
4.2 检验独立与否
❖如果每一个r∈R都为R中必要的, 则称R为独立的;
❖否则称R为依赖的。
❖定理:如果R是独立的,P R,
则P也是独立的。
15
4.2 检验独立与否
❖检 立验 的{?R1,R2}和{R1,R3}是否为独
7
3、约简与核
❖ 约简(reduct),核(core) ❖ 定义:令R为一族等价关系,r∈R, 如果ind(R)= ind(R-{r}),则称r为R中不必要的; 否则称r为R中必要的。 如果每一个r∈R都为R中必要的,则称R为独立 的;否则称R为依赖的。
定理:如果R是独立的,P R,则P也是独立的。
❖ 令C和D分别为条件属性集和决策属性集
属性子集C' C关于D的重要性定义为
C(D C‘) (C D) CC(1 D) 特别当C’ {}时,属性 C关于D的重要性为 C(D ) (C D) C{(} D)
头痛否且体温很高流感否以上规则的确定性因子为0540小结7综合算例71举例患者的知识表达系统72等价关系73依赖关系74约简与核75属性的重要性76决策规则418粗糙集内涵总结求约简与核的过程知识库kur等价类uruindr比较uindruindr判别必要性独立的必要的约简所有的必要关系组成的集合核428粗糙集内涵总结求解决策规则知识表达系统suavfacdcd比较posccnd不等必要约简相对核相对重要性决策规则的确定性因子438粗糙集内涵总结名词概念决策规则448粗糙集内涵总结粗糙集智能决策数据挖掘45总结内容1回顾2引例3约简与核5依赖关系6知识表达7综合算例决策规则8粗糙集内涵总结46doyouhavemadeprogresstoday
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
©
第11章
粗糙集理论: 6
粗糙集的研究对象是由一个多值属性(特征、症状、 特性等)集合描述的一个对象(观察、病历等)集合, 对于每个对象及其属性都有一个值作为其描述符号, 对象、属性和描述符是表达决策问题的3个基本要 素。
©
第11章
粗糙集理论: 7
粗糙集理论逐渐应用于数据挖掘领域中,并在对大 型数据库中不完整数据进行分析和学习方面取得了 显著的成果,使得粗糙集理论及数据挖掘的研究成 为热点领域。最近几年,粗糙集理论越来越受到众 多研究人员的重视,它的应用研究得到了很大的发 展。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬
刘海涛
编著
电子工业出版社
©
第11章
粗糙集理论: 1
第11章 粗糙集理论
本章包括:
粗糙集的基本概念 知识表达 粗糙集在数据预处理中的应用
©
第11章
粗糙集理论: 2
粗糙集理论是由波兰华沙理工大学Pawlak教 授于20世纪80年代初提出的一种研究不完整、 不确定知识和数据的表达、学习、归纳的理 论方法,它是一种刻画不完整性和不确定性 的数学工具,能有效地分析不精确、不一致 (inconslsteni)、不完整(incomPlete)等各 种不完备的信息,还可以对数据进行分析和 推理,从中发现隐含的知识,揭示潜在的规 律。
©
第11章
粗糙集理论: 27
11.2.3 属性约简、核集的求取
所谓属性约简,就是在保持知识库分类能力不变的 条件下,删除其中不相关或不重要的属性。 一个属性集合可能有多个约简。 属性约简的目标就是要从条件属性集合中发现部分 必要的条件属性,使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相 对于决策属性的分类一致,即和所有条件属性相对 于决策属性D有相同的分类能力。
1
6
7
8
©
第11章
粗糙集理论: 19
11.2知识表达
知识表达在智能数据处理中占有十分重要的地位。 在智能系统中,经常会碰到要处理的对象可能是用 语言方式表达,也可能使用数据表达;可能是精确 的数据,可能会有一些缺省的信息或者相互矛盾的 信息。 为了处理这些数据,我们需要进行知识的表达,即 知识表达系统。决策表是特殊的知识表达系统。
©
第11章
粗糙集理论: 21
例11-2:表11.1是一个轿车信息决策表,条件属性 集为{e1,e2,e3,e4}分别代表价格、油耗、速度和安 全性,决策属性为d,表示质量。
©
第11章
粗糙集理论: 22
表11.1 轿车信息决策表
车型U
e1
e2
e3
e4
d
1
2 3 4 5
高
低 中
低
高 中
快
中 慢
好
©
第11章
粗糙集理论: 3
粗糙集在机器学习、决策支持系统、机器发现、归 纳推理、数据库中的知识发现、模式识别等领域都 得到了广泛的应用。
©
第11章
粗糙集理论: 4
11.1粗糙集基本概念
粗糙集应用于数据挖掘领域,能提高对大型数据库 中的不完整数据进行分析和学习的能力,具有广泛 的应用前景和实用价值。
©
第11章
粗糙集理论: 24
定义11-8 设U={U1,U2,U3,…,Un } 是一个论 域 ,U (i=1,2,…,n)是研究对象。 P是属性集, P = C + D , C 为条件属性集, D 为决策属性集,T = ( U , P , C , D) 是决策表。决策表中每一行就是 一条决策规则: dx| C ->dx | D , dx | B 表示个 体x关于属性集B 的值。
©
第11章
粗糙集理论: 14
定义11-5 设U是一个论域,R是U上的等价关系, U/R表示U上由R导出的所有等价类。 [ x]R 表示包含元素x∈U的R等价类。一个知识库就是 一个关系系统K ={U ,P},其中U是论域,P是U上的 一个等价类簇。如果 Q P 且 Q ,则 Q (Q的 所有等价类的交也是一个等价关系),称Q为不可分 辨关系,记作IND(Q)。
©
第11章
粗糙集理论: 20
11.2.1 知识表达系统
定义11-7 一个知识表达系统S可以定义为,其中U 为对象的集合,称为论域;=R为属性集合;子集C 和D分别称为条件属性和决策属性; 为属性值的集 合;表示了属性的属性值范围;是一个信息函数, 它指定了U中每一对象x的属性值。 知识表达系统的数据以关系表的形式表示,关系表 的行对应要研究的对象,列对应对象的属性,对象 的信息是通过指定对象的各属性值来表达。
©
第11章
粗糙集理论: 16
两个精确集, 即粗糙集的上近似集 (UpperApproximation)和下 近似集 (LowerApproximation)来近似地定义粗糙 集。 粗糙集理论引入上近似和下近似等概念来刻画知识 的不确定性和模糊性。
©
第11章
粗糙集理论: 17
©
第11章
粗糙集理论: 9
集合上的等价关系和集合上的划分是一一对应,相 互唯一决定的。从数学意义上讲,集合上的等价关 系和集合的划分是等价的概念,即划分就是分类。
©
第11章
粗糙集理论: 10
定义11-1 设U 讨论的对象组成的有限集合,称为 论域(Universe),对于论域中由等价关系划分出来 的任意子集,都可以称为论域U中的一个概念 (concept)或范畴(category)。为规范起见,认为 空集必也是一个概念。论域U中的任意概念族称为 关于论域的抽象知识,它代表了对论域中个体的分 类,简称为知识。 定义11-2 K=(U,R)其中K为知识库,U为全体对象 的集合称为论域,R为论域U上的等价关系(等价关 系与分类的概念等同),它是一种属性或多种属性 的集合。可以根据不同的R对U进行不同形式的分类。 知识库也被称作近似空间。
定义11-6 设集合
,R是一个等价关系,称 RX={ x |x U |,且[x]R X } 为集合X的R下近似集; 称 RX={ x |x U |,且[x]R X} 为集合X的R上近似集; 称集合 BNR ( X ) RX RX 为X的R边界域; 称 POSR (X)=RX 为X的R正域; 称 NEGR (X)=U-RX 为X的R负域。
粗糙集理论: 12
©
第11章
11.1.2 不可分辨关系
在粗糙集理论中,“知识”被认为是一种分类的能 力。不可分辨关系的概念是粗糙集理论的基石,它 揭示出论域知识的颗粒状结构。假定关于论域的某 种知识,并使用属性和属性值来描述论域中的对象, 如果两个对象(或对象集合)具有相同的属性和属性 值,则它们之间具有不可分辨关系。
粗糙集方法仅利用数据本身提供的信息,无须任何 先验知识。
©
第11章
粗糙集理论: 5
粗糙集是一个强大的数据分析工具,它能表达和处 理不完备信息;能在保留关键信息的前提下对数据 进行化简并求得知识的最小表达式;能识别并评估 数据之间的依赖关系,揭示出概念的简单模式;能 从经验数据中获取易于证实的规则知识。
©
第11章
粗糙集理论: 25
定义11-9 若决策表T 中任意的dx≠dy,由dx | C = dy | C ,可得dx| D = dy| D ,则称决策规则dx 是一致的,否则,称决策规则dx 是不一致的。如果T 中每条决策规则都是一致的,则称决策表T 是一致的, 否则称决策表T是不一致的。 定义11-10 设T = ( U , P, C , D) 是决策表,如 果去掉条件属性Pi,得到的表T1 = ( U , P -{Pi} , C - {Pi} , D) 与表T 相比,有PosC ( D) = Pos ( D),则称属性Pi是关于D可省的,否则称属性Pi 是 关于D 不可省的, PosB (D) = Y U/IND(D)B(Y) 是D 关于B 的正区域,其中B (Y) = { X U/IND(B) : X Y} 。
©
第11章
粗糙集理论: 15
11.1.3 上、下近似集
给定论域U,一族等价关系R将U划分为互不相交的 基本等价类U/R。令 XgU为R上的一个等价关系。 当能表达成某些基本等价类的并集时,称为可定义 的;否则称为不可定义的。R可定义集能在这个知 识库中被精确地定义,所以又称为R精确集。 R不可定义集不能在这个知识库中被精确定义,只 能通过集合逼近的方式来刻画,因此也称为R粗糙 集 (Roughset)。
X U
©
第11章
粗糙集理论: 18
例11-1 设论域 U={e1,e2 ,e3 ,e4 ,e5 ,e6 ,e7 ,e8} ,U上的一族等价关系 R={R1,R2},R1和R2是两个等价关系。根据这两个等价关系可 以将论域U进行划分: U/R1 ={{e1 ,e2 ,e3 ,e4},{e5 ,e6 ,e7 ,e8}}和 U/R 2 ={{e1,e2},{e3 ,e4},{e5 ,e6 ,e7 ,e8}} 。 U/R1中的 {e1,e2 ,e3 ,e4} ,代表 [e1 ]R 的等价类。 论域U被R划分的基本等价类为: U/R ={{e1,e2},{e3 ,e4},{e5},{e6 ,e7 ,e8}} 集合 X={e2 ,e3 ,e6 ,e7 ,e8} 是U上的一个子集。则X无法用基本等价 类U/R的并集精确表示,所以X是U上的一个粗糙集合。故有: X的下近似集为: Pos(X)=R(X)={e ,e ,e } ; X的上近似集为: R(X)={e1,e2 ,e3,e4 ,e5 ,e6 ,e7 ,e8} ; X的负区域: NEGR (X)={e5} 。