粗糙集基本知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IND(A) = {(x, y) ∈ U × U : a(x) = a(y), ∀ a ∈ A}
不可分辨关系是一种等价关系,它是对称的, 不可分辨关系是一种等价关系,它是对称的, 自反的,传递的。 自反的,传递的。
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 玩具5 玩具5 玩具6 玩具6 颜色 红色 红色 红色 红色 黄色 黄色 形状 圆的 圆的 方的 方的 圆的 方的
N Y 实例集 10 群居 N 会飞 N 产卵 Y 肺呼吸 1-7 11 # N # N N N # N N Y Y Y N # N N N # N N N N Y Y N Y # Y # Y N N Y Y # N Y # N N # N Y NN Y Y N Y N N
8,9,15,16 12 10-13 17 13 14 15 16 17
23
粗糙集在数据预处理中的应用
数据挖掘过程中数据预处理占总过程的60%的 的 数据挖掘过程中数据预处理占总过程的 时间,通过对数据降维,去噪, 时间,通过对数据降维,去噪,类型转换等处 改进数据的质量,提高挖掘效率。 理,改进数据的质量,提高挖掘效率。 基于粗糙集的预处理方法对决策表进行属性约 最后进行属性值的约简。 简,最后进行属性值的约简。
4
知识和知识库
积木 x1 x2 x3 x4 x5 x6 x7 x8 颜色 红 蓝 红 蓝 黄 黄 红 黄 形状 圆 方 三角形 三角形 圆 方 三角形 三角形
5
体积 小 大 小 小 小 小 大 大
知识和知识库
U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}} 等价类 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}} 等价关系R={R 等价关系R={R1,R2}
不完备决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 * 大 小 手感 硬 硬 * 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
9
不可分辨关系
A>。不可分辨关系IND(P)定义为: IND(P)定义为 设S = <U, A>。不可分辨关系IND(P)定义为:
10
玩具1 玩具2 玩具1,玩具2 玩具3 玩具4 玩具3,玩具4 玩具5 玩具5 玩具6 玩具6
上下近似
粗糙集理论引入上近似和下近似来刻画知识 的不确定性和模糊性。 的不确定性和模糊性。 下近似一定包含,上近似可能包含。 下近似一定包含,上近似可能包含。
11
上下近似
上海 威海 青岛 烟台 济南 北京 1000 2000 3000 1500
7
决策表
不一致决策表
论域 玩具1 玩具1 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 颜色 蓝色 绿色 绿色 黄色 尺寸 大 大 大 小 手感 硬 硬 硬 软 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定
8
信息系统(决策表) 信息系统(决策表)
20
差别矩阵
主要思想: 主要思想: 为一个决策表 设T=(U,C∪D)为一个决策表,其中 ∪ 为一个决策表, U ={x1,x2,…,xn},i=1,2,…,n, , , C ={c1,c2,…,cm},j=1,2,…,m。 , 。 D= {d} 决策表T的 差别矩阵M(T)=[pij]n×n , 其中矩阵 决策表 的 差别矩阵 × 项定义如下: 项定义如下:
2
粗糙集理论
粗糙集应用于数据挖掘领域, 粗糙集应用于数据挖掘领域,能提高对大型数 据库中不完整数据进行分析和学习的能力。 据库中不完整数据进行分析和学习的能力。 粗糙集描述的对象是由一个多值属性集合描述 的一个对象集合, 的一个对象集合,对每个队对象及其属性都有 一个值作为其描述符号,对象、属性、和描述 一个值作为其描述符号,对象、属性、 是表达决策问题的3个基本要素 个基本要素。 符是表达决策问题的 个基本要素。
6
决策表
决策表为 T=<U, C∪D> ∪
论域 颜色 尺寸 手感 质感 粗糙的 光滑的 光滑的 有毛的 制作材料 塑料 木材 木材 长毛绒 喜爱与否 否定 中立 肯定 肯定 玩具1 玩具1 不完备性,不一致。 蓝色 大 硬 玩具2 玩具2 玩具3 玩具3 玩具4 玩具4 绿色 绿色 黄色 大 大 小 硬 硬 软
φ, d( x ) = d ( x ) p = {c ∈ C : c( x ) ≠ c( x )}, d( x ) ≠ d ( x )
i j i,j i j i j
Biblioteka Baidu21
差别矩阵
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e u1 0 u1 1 0 2 0 u2 u3 u4 u5 acd acd ad c ad abd abcd u2 u3 u4 u5
17
两类约简方法
直接求核集法 差别矩阵
18
直接求核法
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0
19
直接求核法
求核集的步骤为: 求核集的步骤为: 去掉属性a 对比每一行属性值, 1:去掉属性a,对比每一行属性值,没有发生冲 则属性a可约。 突,则属性a可约。 去掉属性b,对比每一行属性值, b,对比每一行属性值 2:去掉属性b,对比每一行属性值,没有发生冲 则属性b可约。 突,则属性b可约。 去掉属性c,对比每一行属性值, c,对比每一行属性值 3:去掉属性c,对比每一行属性值,第2、4行发 生冲突,则属性c不可约。 生冲突,则属性c不可约。 去掉属性d 没有发生冲突,则属性d可约。 4:去掉属性d,没有发生冲突,则属性d可约。 故经过约简后得到的核集为{c} {c}。 故经过约简后得到的核集为{c}。
22
基于差别矩阵的求核算法
核定义为差别矩阵中所有只有一个元素的矩阵 定义为差别矩阵中所有只有一个元素的矩阵 的集合, 项的集合,即 CORE(C)={a∈A:存在 使得 ij=(a)} ∈ :存在i,j 使得p
U\A u1 u2 u3 u4 u5 a 1 0 2 0 1 b 0 0 0 0 1 c 2 1 2 2 2 d 1 2 1 2 1 e 0 1 0 2 0 u1 u2 u3 u4 u5 u1 u2 acd acd u3 u4 ad c ad abd abcd u5
3
知识和知识库
知识是人类通过实践对客观世界的认识,在粗 知识是人类通过实践对客观世界的认识, 糙集理论中,知识被认为是一种分类能力。 糙集理论中,知识被认为是一种分类能力。 知识库, ( ),也叫做近似空间 知识库,K=(U,R),也叫做近似空间;其中 ),也叫做近似空间; U为论域,R为论域 上的等价关系,它是一 为论域, 为论域 上的等价关系, 为论域U上的等价关系 为论域 种属性或多种属性的集合。 种属性或多种属性的集合。 U/R表示 上由R导出的所有等价类。 表示U上由 导出的所有等价类。 表示 上由 导出的所有等价类
13
约简理论
主要思想:保持分类能力不变的条件下, 主要思想:保持分类能力不变的条件下, 删除冗余的、不必要的属性或属性值, 删除冗余的、不必要的属性或属性值,达 到知识简化的目的。 到知识简化的目的。
14
示例: 示例:一种动物是否是鸟类
实例集 群居 会飞 产卵 肺呼吸 会游泳 哺乳 鸟类 群居 实例集 会飞 产卵 肺呼吸 鸟类 1 N Y Y N Y NY 1,2,7 N Y Y Y Y 2 N Y Y N Y NY 3,4,5,6 Y Y Y Y Y 3 Y Y Y N Y NY 8,9,15 N N N Y N 4 Y Y Y N Y YY 10,11,12,14 N N Y Y N 5 Y Y Y N Y YY 13 N N Y N N 6 Y Y Y N Y YY 16 Y N N Y N 7 N Y Y N Y NY 17 Y N Y N N 8 N N N Y Y NN 9 N N N Y Y YN Y 鸟类 N YY N NN N NY N NY N NN YN YN 15 肺呼吸 Y Y 热血动物 Y 食物 1 鸟类 Y Y Y 语言描述: 语言描述: 2 Y Y 1 Y 1 会飞而且可以产卵的动物 Y 0 Y 是鸟类; 是鸟类Y ; Y Y 1 Y 不能产卵的动物不是鸟类。 2 不能产卵的动物不是鸟类。 Y Y 2 Y 3 既不群居也不会飞的动物 Y Y Y 也不是鸟类; 也不是鸟类; 2 Y Y 1 N 4 不用肺呼吸的动物不是鸟 Y 1 N 类; Y Y Y Y N Y Y Y N N Y N N N Y Y N 1 1 1 1 2 0 1 1 N N N N N N N N
上近似
12
上下近似( 上下近似(例)
已知论域U 已知论域U,及U上的等价关系R={R1,R2} 上的等价关系R={R U/R1={{x1,x3,x7},{x2,x4},{x5,x6,x8}}, }}, }}。 U/R2={{x1,x5},{x2,x6},{x4,x3,x7,x8}}。 集合X={x 上一个子集, 集合X={x3,x5,x6,x8}是U上一个子集,则X无法 用基本等价关系U/R精确表示,所以X U/R精确表示 用基本等价关系U/R精确表示,所以X是U上的一 个粗糙集合。故有: 个粗糙集合。故有: X的下近似集为:R_(x)={x5,x6,x8}, 的下近似集为: 的上近似集为: X的上近似集为:R (x)={x1,x2,x3,x4,x5,x6,x7,x8}
粗糙集
粗糙集理论
1982年 由波兰数学家Pawlak提出。 1982年,由波兰数学家Pawlak提出。是一种刻 Pawlak提出 不完整性、不确定性的数学工具 的数学工具, 画不完整性、不确定性的数学工具,能精确分 析各种不完备信息。 析各种不完备信息。 主要思想:粗糙集理论从新的视角对知识 知识进行 主要思想:粗糙集理论从新的视角对知识进行 了定义, 知识看作是不可分辨关系对论域的 看作是不可分辨关系 了定义,把知识看作是不可分辨关系对论域的 分类能力,并引入上 下近似的概念来刻画知 分类能力,并引入上、下近似的概念来刻画知 识的不确定程度。 识的不确定程度。 由于该理论无需除数据集之外的任何先验知识 或信息), ),对不确定性的描述与处理相对客 (或信息),对不确定性的描述与处理相对客 目前广泛应用于数据挖掘、 观,目前广泛应用于数据挖掘、决策分析等领 域。
16

一个属性集可能有多个约简, 一个属性集可能有多个约简,属性集所有 约简的交集定义为核。 约简的交集定义为核。 核的概念有两方面意义: 核的概念有两方面意义:一是可以作为所 有约简的计算基础( 有约简的计算基础(核包含于所有约简之 );二是核在约简中是不可消去的特征 中);二是核在约简中是不可消去的特征 集合。 集合。
相关文档
最新文档