粗糙集基本知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IND(A) = {(x, y) ∈ U × U : a(x) = a(y), ∀ a ∈ A}
不可分辨关系是一种等价关系,它是对称的, 不可分辨关系是一种等价关系,它是对称的, 自反的,传递的。 自反的,传递的。
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 玩具5 玩具5 玩具6 玩具6 颜色 红色 红色 红色 红色 黄色 黄色 形状 圆的 圆的 方的 方的 圆的 方的
N Y 实例集 10 群居 N 会飞 N 产卵 Y 肺呼吸 1-7 11 # N # N N N # N N Y Y Y N # N N N # N N N N Y Y N Y # Y # Y N N Y Y # N Y # N N # N Y NN Y Y N Y N N
8,9,15,16 12 10-13 17 13 14 15 16 17
23
粗糙集在数据预处理中的应用
数据挖掘过程中数据预处理占总过程的60%的 的 数据挖掘过程中数据预处理占总过程的 时间,通过对数据降维,去噪, 时间,通过对数据降维,去噪,类型转换等处 改进数据的质量,提高挖掘效率。 理,改进数据的质量,提高挖掘效率。 基于粗糙集的预处理方法对决策表进行属性约 最后进行属性值的约简。 简,最后进行属性值的约简。
4
知识和知识库
积木 x1 x2 x3 x4 x5 x6 x7 x8 颜色 红 蓝 红 蓝 黄 黄 红 黄 形状 圆 方 三角形 三角形 圆 方 三角形 三角形
5
体积 小 大 小 小 小 小 大 大
知识和知识库
U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}} 等价类 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}} 等价关系R={R 等价关系R={R1,R2}
不完备决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 * 大 小 手感 硬 硬 * 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
9
不可分辨关系
A>。不可分辨关系IND(P)定义为: IND(P)定义为 设S = <U, A>。不可分辨关系IND(P)定义为:
10
玩具1 玩具2 玩具1,玩具2 玩具3 玩具4 玩具3,玩具4 玩具5 玩具5 玩具6 玩具6
上下近似
粗糙集理论引入上近似和下近似来刻画知识 的不确定性和模糊性。 的不确定性和模糊性。 下近似一定包含,上近似可能包含。 下近似一定包含,上近似可能包含。
11
上下近似
上海 威海 青岛 烟台 济南 北京 1000 2000 3000 1500
7
决策表
不一致决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 大 大 小 手感 硬 硬 硬 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
8
信息系统(决策表) 信息系统(决策表)
20
差别矩阵
主要思想: 主要思想: 为一个决策表 设T=(U,C∪D)为一个决策表,其中 ∪ 为一个决策表, U ={x1,x2,…,xn},i=1,2,…,n, , , C ={c1,c2,…,cm},j=1,2,…,m。 , 。 D= {d} 决策表T的 差别矩阵M(T)=[pij]n×n , 其中矩阵 决策表 的 差别矩阵 × 项定义如下: 项定义如下:
2
粗糙集理论
粗糙集应用于数据挖掘领域, 粗糙集应用于数据挖掘领域,能提高对大型数 据库中不完整数据进行分析和学习的能力。 据库中不完整数据进行分析和学习的能力。 粗糙集描述的对象是由一个多值属性集合描述 的一个对象集合, 的一个对象集合,对每个队对象及其属性都有 一个值作为其描述符号,对象、属性、和描述 一个值作为其描述符号,对象、属性、 是表达决策问题的3个基本要素 个基本要素。 符是表达决策问题的 个基本要素。
6
决策表
决策表为 T=<U, C∪D> ∪
论域 颜色 尺寸 手感 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定 玩具1 玩具1 不完备性,不一致。 蓝色 大 硬 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 绿色 绿色 黄色 大 大 小 硬 硬 软
φ, d( x ) = d ( x ) p = {c ∈ C : c( x ) ≠ c( x )}, d( x ) ≠ d ( x )
i j i,j i j i j
Biblioteka Baidu21
差别矩阵
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e u1 0 u1 1 0 2 0 u2 u3 u4 u5 acd acd ad c ad abd abcd u2 u3 u4 u5
17
两类约简方法
直接求核集法 差别矩阵
18
直接求核法
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0
19
直接求核法
求核集的步骤为: 求核集的步骤为: 去掉属性a 对比每一行属性值, 1:去掉属性a,对比每一行属性值,没有发生冲 则属性a可约。 突,则属性a可约。 去掉属性b,对比每一行属性值, b,对比每一行属性值 2:去掉属性b,对比每一行属性值,没有发生冲 则属性b可约。 突,则属性b可约。 去掉属性c,对比每一行属性值, c,对比每一行属性值 3:去掉属性c,对比每一行属性值,第2、4行发 生冲突,则属性c不可约。 生冲突,则属性c不可约。 去掉属性d 没有发生冲突,则属性d可约。 4:去掉属性d,没有发生冲突,则属性d可约。 故经过约简后得到的核集为{c} {c}。 故经过约简后得到的核集为{c}。
22
基于差别矩阵的求核算法
核定义为差别矩阵中所有只有一个元素的矩阵 定义为差别矩阵中所有只有一个元素的矩阵 的集合, 项的集合,即 CORE(C)={a∈A:存在 使得 ij=(a)} ∈ :存在i,j 使得p
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0 u1 u2 u3 u4 u5 u1 u2 acd acd u3 u4 ad c ad abd abcd u5
3
知识和知识库
知识是人类通过实践对客观世界的认识,在粗 知识是人类通过实践对客观世界的认识, 糙集理论中,知识被认为是一种分类能力。 糙集理论中,知识被认为是一种分类能力。 知识库, ( ),也叫做近似空间 知识库,K=(U,R),也叫做近似空间;其中 ),也叫做近似空间; U为论域,R为论域 上的等价关系,它是一 为论域, 为论域 上的等价关系, 为论域U上的等价关系 为论域 种属性或多种属性的集合。 种属性或多种属性的集合。 U/R表示 上由R导出的所有等价类。 表示U上由 导出的所有等价类。 表示 上由 导出的所有等价类
13
约简理论
主要思想:保持分类能力不变的条件下, 主要思想:保持分类能力不变的条件下, 删除冗余的、不必要的属性或属性值, 删除冗余的、不必要的属性或属性值,达 到知识简化的目的。 到知识简化的目的。
14
示例: 示例:一种动物是否是鸟类
实例集 群居 会飞 产卵 肺呼吸 会游泳 哺乳 鸟类 群居 实例集 会飞 产卵 肺呼吸 鸟类 1 N Y Y N Y NY 1,2,7 N Y Y Y Y 2 N Y Y N Y NY 3,4,5,6 Y Y Y Y Y 3 Y Y Y N Y NY 8,9,15 N N N Y N 4 Y Y Y N Y YY 10,11,12,14 N N Y Y N 5 Y Y Y N Y YY 13 N N Y N N 6 Y Y Y N Y YY 16 Y N N Y N 7 N Y Y N Y NY 17 Y N Y N N 8 N N N Y Y NN 9 N N N Y Y YN Y 鸟类 N YY N NN N NY N NY N NN YN YN 15 肺呼吸 Y Y 热血动物 Y 食物 1 鸟类 Y Y Y 语言描述: 语言描述: 2 Y Y 1 Y 1 会飞而且可以产卵的动物 Y 0 Y 是鸟类; 是鸟类Y ; Y Y 1 Y 不能产卵的动物不是鸟类。 2 不能产卵的动物不是鸟类。 Y Y 2 Y 3 既不群居也不会飞的动物 Y Y Y 也不是鸟类; 也不是鸟类; 2 Y Y 1 N 4 不用肺呼吸的动物不是鸟 Y 1 N 类; Y Y Y Y N Y Y Y N N Y N N N Y Y N 1 1 1 1 2 0 1 1 N N N N N N N N
上近似
12
上下近似( 上下近似(例)
已知论域U 已知论域U,及U上的等价关系R={R1,R2} 上的等价关系R={R U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}}, }}, }}。 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}}。 集合X={x 上一个子集, 集合X={x3,x5,x6,x8}是U上一个子集,则X无法 用基本等价关系U/R精确表示,所以X U/R精确表示 用基本等价关系U/R精确表示,所以X是U上的一 个粗糙集合。故有: 个粗糙集合。故有: X的下近似集为:R_(x)={x5,x6,x8}, 的下近似集为: 的上近似集为: X的上近似集为:R (x)={x1,x2,x3,x4,x5,x6,x7,x8}
粗糙集
粗糙集理论
1982年 由波兰数学家Pawlak提出。 1982年,由波兰数学家Pawlak提出。是一种刻 Pawlak提出 不完整性、不确定性的数学工具 的数学工具, 画不完整性、不确定性的数学工具,能精确分 析各种不完备信息。 析各种不完备信息。 主要思想:粗糙集理论从新的视角对知识 知识进行 主要思想:粗糙集理论从新的视角对知识进行 了定义, 知识看作是不可分辨关系对论域的 看作是不可分辨关系 了定义,把知识看作是不可分辨关系对论域的 分类能力,并引入上 下近似的概念来刻画知 分类能力,并引入上、下近似的概念来刻画知 识的不确定程度。 识的不确定程度。 由于该理论无需除数据集之外的任何先验知识 或信息), ),对不确定性的描述与处理相对客 (或信息),对不确定性的描述与处理相对客 目前广泛应用于数据挖掘、 观,目前广泛应用于数据挖掘、决策分析等领 域。
16
核
一个属性集可能有多个约简, 一个属性集可能有多个约简,属性集所有 约简的交集定义为核。 约简的交集定义为核。 核的概念有两方面意义: 核的概念有两方面意义:一是可以作为所 有约简的计算基础( 有约简的计算基础(核包含于所有约简之 );二是核在约简中是不可消去的特征 中);二是核在约简中是不可消去的特征 集合。 集合。
不可分辨关系是一种等价关系,它是对称的, 不可分辨关系是一种等价关系,它是对称的, 自反的,传递的。 自反的,传递的。
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 玩具5 玩具5 玩具6 玩具6 颜色 红色 红色 红色 红色 黄色 黄色 形状 圆的 圆的 方的 方的 圆的 方的
N Y 实例集 10 群居 N 会飞 N 产卵 Y 肺呼吸 1-7 11 # N # N N N # N N Y Y Y N # N N N # N N N N Y Y N Y # Y # Y N N Y Y # N Y # N N # N Y NN Y Y N Y N N
8,9,15,16 12 10-13 17 13 14 15 16 17
23
粗糙集在数据预处理中的应用
数据挖掘过程中数据预处理占总过程的60%的 的 数据挖掘过程中数据预处理占总过程的 时间,通过对数据降维,去噪, 时间,通过对数据降维,去噪,类型转换等处 改进数据的质量,提高挖掘效率。 理,改进数据的质量,提高挖掘效率。 基于粗糙集的预处理方法对决策表进行属性约 最后进行属性值的约简。 简,最后进行属性值的约简。
4
知识和知识库
积木 x1 x2 x3 x4 x5 x6 x7 x8 颜色 红 蓝 红 蓝 黄 黄 红 黄 形状 圆 方 三角形 三角形 圆 方 三角形 三角形
5
体积 小 大 小 小 小 小 大 大
知识和知识库
U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}} 等价类 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}} 等价关系R={R 等价关系R={R1,R2}
不完备决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 * 大 小 手感 硬 硬 * 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
9
不可分辨关系
A>。不可分辨关系IND(P)定义为: IND(P)定义为 设S = <U, A>。不可分辨关系IND(P)定义为:
10
玩具1 玩具2 玩具1,玩具2 玩具3 玩具4 玩具3,玩具4 玩具5 玩具5 玩具6 玩具6
上下近似
粗糙集理论引入上近似和下近似来刻画知识 的不确定性和模糊性。 的不确定性和模糊性。 下近似一定包含,上近似可能包含。 下近似一定包含,上近似可能包含。
11
上下近似
上海 威海 青岛 烟台 济南 北京 1000 2000 3000 1500
7
决策表
不一致决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 大 大 小 手感 硬 硬 硬 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
8
信息系统(决策表) 信息系统(决策表)
20
差别矩阵
主要思想: 主要思想: 为一个决策表 设T=(U,C∪D)为一个决策表,其中 ∪ 为一个决策表, U ={x1,x2,…,xn},i=1,2,…,n, , , C ={c1,c2,…,cm},j=1,2,…,m。 , 。 D= {d} 决策表T的 差别矩阵M(T)=[pij]n×n , 其中矩阵 决策表 的 差别矩阵 × 项定义如下: 项定义如下:
2
粗糙集理论
粗糙集应用于数据挖掘领域, 粗糙集应用于数据挖掘领域,能提高对大型数 据库中不完整数据进行分析和学习的能力。 据库中不完整数据进行分析和学习的能力。 粗糙集描述的对象是由一个多值属性集合描述 的一个对象集合, 的一个对象集合,对每个队对象及其属性都有 一个值作为其描述符号,对象、属性、和描述 一个值作为其描述符号,对象、属性、 是表达决策问题的3个基本要素 个基本要素。 符是表达决策问题的 个基本要素。
6
决策表
决策表为 T=<U, C∪D> ∪
论域 颜色 尺寸 手感 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定 玩具1 玩具1 不完备性,不一致。 蓝色 大 硬 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 绿色 绿色 黄色 大 大 小 硬 硬 软
φ, d( x ) = d ( x ) p = {c ∈ C : c( x ) ≠ c( x )}, d( x ) ≠ d ( x )
i j i,j i j i j
Biblioteka Baidu21
差别矩阵
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e u1 0 u1 1 0 2 0 u2 u3 u4 u5 acd acd ad c ad abd abcd u2 u3 u4 u5
17
两类约简方法
直接求核集法 差别矩阵
18
直接求核法
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0
19
直接求核法
求核集的步骤为: 求核集的步骤为: 去掉属性a 对比每一行属性值, 1:去掉属性a,对比每一行属性值,没有发生冲 则属性a可约。 突,则属性a可约。 去掉属性b,对比每一行属性值, b,对比每一行属性值 2:去掉属性b,对比每一行属性值,没有发生冲 则属性b可约。 突,则属性b可约。 去掉属性c,对比每一行属性值, c,对比每一行属性值 3:去掉属性c,对比每一行属性值,第2、4行发 生冲突,则属性c不可约。 生冲突,则属性c不可约。 去掉属性d 没有发生冲突,则属性d可约。 4:去掉属性d,没有发生冲突,则属性d可约。 故经过约简后得到的核集为{c} {c}。 故经过约简后得到的核集为{c}。
22
基于差别矩阵的求核算法
核定义为差别矩阵中所有只有一个元素的矩阵 定义为差别矩阵中所有只有一个元素的矩阵 的集合, 项的集合,即 CORE(C)={a∈A:存在 使得 ij=(a)} ∈ :存在i,j 使得p
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0 u1 u2 u3 u4 u5 u1 u2 acd acd u3 u4 ad c ad abd abcd u5
3
知识和知识库
知识是人类通过实践对客观世界的认识,在粗 知识是人类通过实践对客观世界的认识, 糙集理论中,知识被认为是一种分类能力。 糙集理论中,知识被认为是一种分类能力。 知识库, ( ),也叫做近似空间 知识库,K=(U,R),也叫做近似空间;其中 ),也叫做近似空间; U为论域,R为论域 上的等价关系,它是一 为论域, 为论域 上的等价关系, 为论域U上的等价关系 为论域 种属性或多种属性的集合。 种属性或多种属性的集合。 U/R表示 上由R导出的所有等价类。 表示U上由 导出的所有等价类。 表示 上由 导出的所有等价类
13
约简理论
主要思想:保持分类能力不变的条件下, 主要思想:保持分类能力不变的条件下, 删除冗余的、不必要的属性或属性值, 删除冗余的、不必要的属性或属性值,达 到知识简化的目的。 到知识简化的目的。
14
示例: 示例:一种动物是否是鸟类
实例集 群居 会飞 产卵 肺呼吸 会游泳 哺乳 鸟类 群居 实例集 会飞 产卵 肺呼吸 鸟类 1 N Y Y N Y NY 1,2,7 N Y Y Y Y 2 N Y Y N Y NY 3,4,5,6 Y Y Y Y Y 3 Y Y Y N Y NY 8,9,15 N N N Y N 4 Y Y Y N Y YY 10,11,12,14 N N Y Y N 5 Y Y Y N Y YY 13 N N Y N N 6 Y Y Y N Y YY 16 Y N N Y N 7 N Y Y N Y NY 17 Y N Y N N 8 N N N Y Y NN 9 N N N Y Y YN Y 鸟类 N YY N NN N NY N NY N NN YN YN 15 肺呼吸 Y Y 热血动物 Y 食物 1 鸟类 Y Y Y 语言描述: 语言描述: 2 Y Y 1 Y 1 会飞而且可以产卵的动物 Y 0 Y 是鸟类; 是鸟类Y ; Y Y 1 Y 不能产卵的动物不是鸟类。 2 不能产卵的动物不是鸟类。 Y Y 2 Y 3 既不群居也不会飞的动物 Y Y Y 也不是鸟类; 也不是鸟类; 2 Y Y 1 N 4 不用肺呼吸的动物不是鸟 Y 1 N 类; Y Y Y Y N Y Y Y N N Y N N N Y Y N 1 1 1 1 2 0 1 1 N N N N N N N N
上近似
12
上下近似( 上下近似(例)
已知论域U 已知论域U,及U上的等价关系R={R1,R2} 上的等价关系R={R U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}}, }}, }}。 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}}。 集合X={x 上一个子集, 集合X={x3,x5,x6,x8}是U上一个子集,则X无法 用基本等价关系U/R精确表示,所以X U/R精确表示 用基本等价关系U/R精确表示,所以X是U上的一 个粗糙集合。故有: 个粗糙集合。故有: X的下近似集为:R_(x)={x5,x6,x8}, 的下近似集为: 的上近似集为: X的上近似集为:R (x)={x1,x2,x3,x4,x5,x6,x7,x8}
粗糙集
粗糙集理论
1982年 由波兰数学家Pawlak提出。 1982年,由波兰数学家Pawlak提出。是一种刻 Pawlak提出 不完整性、不确定性的数学工具 的数学工具, 画不完整性、不确定性的数学工具,能精确分 析各种不完备信息。 析各种不完备信息。 主要思想:粗糙集理论从新的视角对知识 知识进行 主要思想:粗糙集理论从新的视角对知识进行 了定义, 知识看作是不可分辨关系对论域的 看作是不可分辨关系 了定义,把知识看作是不可分辨关系对论域的 分类能力,并引入上 下近似的概念来刻画知 分类能力,并引入上、下近似的概念来刻画知 识的不确定程度。 识的不确定程度。 由于该理论无需除数据集之外的任何先验知识 或信息), ),对不确定性的描述与处理相对客 (或信息),对不确定性的描述与处理相对客 目前广泛应用于数据挖掘、 观,目前广泛应用于数据挖掘、决策分析等领 域。
16
核
一个属性集可能有多个约简, 一个属性集可能有多个约简,属性集所有 约简的交集定义为核。 约简的交集定义为核。 核的概念有两方面意义: 核的概念有两方面意义:一是可以作为所 有约简的计算基础( 有约简的计算基础(核包含于所有约简之 );二是核在约简中是不可消去的特征 中);二是核在约简中是不可消去的特征 集合。 集合。