粗糙集-决策表

合集下载

使用粗糙集理论进行特征选择的步骤和技巧

使用粗糙集理论进行特征选择的步骤和技巧

使用粗糙集理论进行特征选择的步骤和技巧在数据挖掘和机器学习领域,特征选择是一个重要的任务,它可以帮助我们从原始数据中挑选出最相关的特征,减少冗余和噪音信息,提高模型的性能和可解释性。

粗糙集理论是一种有效的特征选择方法,它基于信息熵和近似集的概念,能够在不依赖于数据分布和假设的情况下进行特征选择。

本文将介绍使用粗糙集理论进行特征选择的步骤和技巧。

1. 数据预处理在进行特征选择之前,我们需要对原始数据进行预处理。

这包括数据清洗、缺失值处理和数据标准化等步骤。

数据清洗可以帮助我们去除异常值和噪音,提高数据的质量。

缺失值处理可以通过填充或删除缺失值的方式来处理缺失数据。

数据标准化可以将不同尺度和单位的特征转化为统一的尺度,避免不同特征之间的差异对特征选择结果造成影响。

2. 构建决策表决策表是粗糙集理论中的核心概念,它由样本的特征和类别标签组成。

在构建决策表时,我们需要选择合适的特征作为决策属性和条件属性。

决策属性是我们希望预测或分类的目标属性,而条件属性是用于描述样本的特征。

选择合适的决策属性和条件属性可以提高特征选择的效果。

3. 计算属性重要性属性重要性是衡量特征对决策属性的贡献程度的指标。

在粗糙集理论中,我们可以使用信息熵和近似集来计算属性重要性。

信息熵可以衡量决策属性的不确定性,而近似集可以表示条件属性对决策属性的近似描述能力。

通过计算属性重要性,我们可以排除对决策属性影响较小的特征,提高特征选择的效率。

4. 特征约简特征约简是粗糙集理论中的一个关键步骤,它通过删除冗余和无关的特征,保留最重要的特征子集。

特征约简可以减少特征空间的维度,提高模型的训练和预测效率。

在特征约简过程中,我们可以使用启发式算法、遗传算法或模型评估方法来选择最佳的特征子集。

5. 模型训练和评估在完成特征选择后,我们可以使用选定的特征子集来训练和评估模型。

选择合适的模型和评估指标可以帮助我们判断特征选择的效果和模型的性能。

常用的模型包括决策树、支持向量机和神经网络等。

决策表中粗糙集的布尔矩阵表示

决策表中粗糙集的布尔矩阵表示

粗糙 集理 论 是 Z P w a I 1 8 . l 9 2年 提 出 以来 的 , 主 要 思 a k吁 其
类, EU 设 P是 上 的 一 个 等 价 关 系 族 , 果 口c , Q≠ 。 如 _p 且

想 是 , 保 持 信 息 系统 分 类 能 力不 变 的 前 提 下 , 过 属 性 约 简 , 在 通
En ie rn n p iain ,0 7, 3 1 :7 - 7 . gn e ig a d Ap l to s 2 0 4 ( 0) 1 7 1 8 c
Ab t a t sr c :Th e ai n h p b t e te at b t e f d cso a l , o la t x a d r s l e o o i e u t n s ti e p e r l t s i ewe n h t ue s t o e iin tb e B oe n ma r n e o v f lg c q a i e s s t u . o i r i o
质 . 时 为 寻找 高效 的属 性 约 简算 法奠 定 了基 础 。 同
关 键 词 : 策表 ; 糙 集 ; 尔矩 阵 ; 性 约 简 决 粗 布 属
文 章编 号 : 0 2 8 3 ( 0 7 1 — 1 7 0 文 献 标 识 码 : 中图 分 类 号 : P 0 10 — 3 12 0 )0 0 7 — 2 A T 31
洛 阳工 业 高 等 专 科 学 校 , 南 洛 阳 4 10 河 70 3
L o a g C l g f T c n lg L o a g He a 71 0 C i a u y n o l e o e h o o y, u y n , n n 4 3, h n e 0

泛系单值化在粗糙集决策表分析中的研究

泛系单值化在粗糙集决策表分析中的研究

实例来介绍泛 系单值化方法 ,并对泛 系单值化与粗糙 集理论的联 系进行研究 ,深化我们对决策表及决策规 则的认识 与理解。同时给 出一种 泛系单值化推 导决策规则的算法。 关键词 :泛 系单值 化;粗糙集 ;决策表 ;决策规则
中 图分 类 号 :T 1 P8 文 献 标 识 码 :A 文 章 编 号 :17 — 8 0( 0 0) 2 l7 0 6 2 9 7 2 1 0 —0 1 — 4
第3卷第2 3 期 2 1年 6 0 0 月
长春理工大学学报( 自然 科 学 版 )
J u a o C a g h nUn e syo ce c d eh oo y Na rl ce c dt n) o r l f h n c u i r t f in e n c n lg ( t a S i eE io n v i S a T u n i
s se sSigl l d e h d. y t m n eVaue M t o
Ke r s ywo d :p s se i g ev le n a y t mss l au d;r u h s t ; d c so b e ;d cso ls n o g es e ii nt l s a e iin r e u
St i so heRo eo ns e t m sSi g eVeue n t ud e n t l fPa y s e n l l d i he
An l sso eDe ii n T b e n Ro g e s a y i f h cso a l si u h S t t
Y NG Xi , I He MAO La k iY N aja A a LN , o i u , UA Xio n n u
( e a me t f o p tr c n e c o l f n omai c n e E gn e n a z o nv r t , a z o 0 0 ) D p r n o m ue i c h o o fr t nS i c & n ie r gL n h uU ies y L n h u7 0 0 t C S e S I o e i i 3

在Visual Basic环境下用粗糙集理论约简决策表属性

在Visual Basic环境下用粗糙集理论约简决策表属性
个 决 策 属 性 。 信 息 系 统 通 常 以关 系 表 的 形 式 表 示 , 行 就 是要 研 究 的样 本 . 就 是样 本 的 属性 , 本 信 列 样 息 通 过 指 定 样 本 属 性 的 值 表 示 , 个 信 息 系 统 通 常 这 也称 为决 策表 。
23 假 设 S U , 是 一 个 信 息 系 统 , 中 所 有 等 价 . =< R> R
本 就 代 表 一 条 基 本 的 决 策 规 则 。 为 了从 决 策 表 中抽 取 适 应 性 大 的 规 则 , 需要 对 决 策 表 进 行 属 性 约 简 。 就 使 用 粗 糙 集 理 论 对 决 策 表 进 行 约 简 比 较 出 色 在 用 辨 识 矩 阵 方 法 对 决 策 表 进 行 属 性 约 简 时 , 要 考 虑 实 需 现 约 简 的 一 些 技 术 问题 。 建 立 决 策 表 的 可辨 识 矩 阵 . 所 有 取 值 非 空 集 合 元 素 建 立 相 应 的 析 取 逻 辑 表 如 对
rER
, 样 本 属 性 值 的集 合 , , 示 属 是 表

贝 叶 斯 分 类 法 等 等 .决 策 树 分 类 法 就 是 一 种 简 单 而 又应 用广 泛 的分类 技术 。 决 策 树 是 一 个 预 测 模 型 .它 代 表 的 是 对 象 属 性 与 对 象 值 之 间 的 一 种 映 射 关 系 。其 结 构 为 树 型 , 由 它 的 分 支 来 对 该 类 型 的 对 象 依 靠 属 性 进 行 分 类 。每个 决 策 树可 以依靠 对 源 数 据库 的分 割 进行 数据 测试 . 个 过 程可 以递 归式 地 对 树进 行 修 剪 。 这 当 不 能 再 进 行 分 割 或 一 个 单 独 的 类 可 以 被 应 用 于 某 一 分 支 时 . 归 过 程 就 完 成 了 。但 是 当 属 性 过 多 递 的 时 候 . 的 构 造 就 会 变 得 过 于 庞 大 , 间 和 空 间 树 时 将 是 巨 大 的 . 类 任 务 就 会 变 得 很 困 难 , 以 需 要 分 所 用某 种方 法来进 行 属性 约简 。

如何利用粗糙集理论进行多目标决策分析

如何利用粗糙集理论进行多目标决策分析

如何利用粗糙集理论进行多目标决策分析在现实生活中,我们经常面临各种决策问题,而多目标决策分析是其中一种常见的决策方法。

粗糙集理论作为一种有效的分析工具,可以帮助我们在多个目标之间做出合理的决策。

本文将介绍如何利用粗糙集理论进行多目标决策分析。

一、粗糙集理论概述粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的一种数学模型,用于处理不确定性和不完全信息的问题。

它通过将对象划分为不同的等价类,来描述对象之间的相似性和差异性。

粗糙集理论的核心思想是通过近似描述和分析数据,以便做出决策。

二、多目标决策分析的基本步骤多目标决策分析通常包括以下几个基本步骤:1. 确定决策目标:首先需要明确决策的目标,即要达到的效果或结果。

目标应该明确、具体,并且可以量化。

2. 收集决策信息:在进行决策分析之前,需要收集相关的信息和数据。

这些信息可以来自于各种渠道,如实地调研、文献研究、专家咨询等。

3. 构建决策模型:决策模型是多目标决策分析的核心,它可以帮助我们将问题抽象为数学模型。

在粗糙集理论中,可以使用决策表或决策矩阵来表示决策模型。

4. 进行数据约简:在决策模型中,通常会存在大量的决策属性。

为了简化分析过程,可以使用粗糙集理论中的约简技术,将决策属性进行压缩和简化。

5. 进行决策分析:在完成数据约简后,可以利用粗糙集理论进行决策分析。

通过计算决策属性的重要性和决策对象之间的相似性,可以得出最优决策结果。

三、粗糙集理论在多目标决策分析中的应用粗糙集理论在多目标决策分析中有着广泛的应用。

它可以帮助我们解决以下几类问题:1. 决策属性的重要性分析:在多目标决策中,不同的属性可能具有不同的重要性。

粗糙集理论可以通过计算属性的约简度和决策属性之间的关联度,来评估属性的重要性。

2. 决策对象的相似性分析:在多目标决策中,我们通常需要对不同的决策对象进行比较和评估。

粗糙集理论可以通过计算决策对象之间的相似度,来评估它们的相似性。

基于粗糙集正域的医疗决策表约简算法

基于粗糙集正域的医疗决策表约简算法
广 阔 的前景 。
过程。通过对信息系统的数据进行属性约简 ,可以
有效提 高机 器学 习算 法 的效 率并 降低 空 间成本 。 18 92年 由波 兰 数 学 家 Pw —l … 首 次 提 出 的粗 糙 a a k
集 ( uhst r g )理论是一种处理模糊 和不确定知识 o e
me i a aa, t i t e i r p s sa r d c in a g r h b s d o o g e o i v e in, w ih i s d f r e — dc d t l h sh ssp o o e u t l o t m a e n ru h s t s er g o e o i p t i hc u e d s o r e i a e iin tb e r d cin a d me ia ig o i. x mp e e f e c re t e sa d v l i f i l o t m c l d cso l e u t n d c d a n ss E a l sv r y t o rc n s n ai t o sa g r a o l i h dy t h i h i n me i a e i o a l e u t n a d t e p a t a a u f e ag rtm. d c d cs n tb e r d c i r ci lv e o Z o h l i o n h c l h t i K e r s Ro g e ; P s i e Re i n De i o a l e u t n; Me i a a o i y wo d : u h S t o i v go ; t c s n T b e R d ci i o d c lDig ss n
me i a a a mii y t ms d c ld t n ng s se .Ba e n t e a ly i ft e p st e r go ft e r u h s ta d t e c a a t rsis o s d o na sso h o i v e in o g e n h r ce itc f h i h o h

基于粗糙集理论的决策表属性约简算法

基于粗糙集理论的决策表属性约简算法
维普资讯
2O 07年 l 月 2 第 2 卷 第 4期 2
山 东 师 范 大 学 学 报 ( 然 科 学 版) 自 Junl f hnogN u a U i rt( a r c ne ora o adn onl n e i N t a Si c) S v sy ul e
是属性值 的集合 , 即属 性 的值 域集 , 中 是 属性 。 其
∈A的值 域 ; 是信 息函数 ,: . 厂 厂 U×A+ , . ,o ∈V 它指定了 U中每一对象 的属性值 . 即厂 ( ) , 我们将具 有条件属 性和决策 属
在决策表 中, 对于属性子 集 Rc A, 可 分辨 关 系 1D( 定 义 为 :N R)={ 不 N R) I D( ( ,Y E U×UI f ,。 ) VoE R, ( ):
便于叙述 , 设决策表 中对象 的个数 为 n 条件属性集 合 C有 m个属性 , , 其值 域为有 限离散集 合 , 用 I 表示集 合 的基 . 并 *I 由决
策属性 D导 出的等价类构成 U的一个划分 : :{ 。 , , , } … , . 在决策表 C 中, D 若一些对象具有相 同的条件属性值而属 于不 同的决策类 , 则称 这些对象为不一致对象 , 否则称为一致 性

- Y ) . D( 是一个等价关 系 , 厂 ,o } 1 ) ( N 对象 在属性集 R上 的等 价类[ ( 义为 : () YI E U, D( }为方 ] 刚定 [ ] :{ y1 R) . y N
便起见 , 在不 产生混淆的情况下用 R代替 1D( . N R)等价关 系 ID( ) 1 D( 中的等价类 分别称 为条件 类 和决策类 . 了 N C 和 N D) 为
但在理论上证 明它们对 最小约简是不完备 的 . 文献 [ ] 5 中利用 区分矩 阵 的特性 , 出的算 法 只是 针对 一致性 的决 策表和在 核 提 值存在 的情况 下才 能适 用 ; 文献 [ ] [ ] 6和 7 虽然算法的效率较高 , 但不一定能 找到系统的最小约简 . 因为在进 行求解决策表属性约简 P过程 中 , 实际上是 寻找使 得所有一致性对象在 P上 也是 一致 性对象 的过程 . 即是说在

第八章 粗糙集决策方法

第八章  粗糙集决策方法

第3 第 3页 页
本讲内容

《决策理论与方法》
粗糙集理论的基本概念 完备决策系统的粗糙决策分析方法 不完备决策系统的粗糙决策分析方法 基于优势关系的粗糙决策分析方法 基于扩展优势关系的粗糙决策分析方法
第4 第 4页 页
8.1粗糙集理论的基本概念

《决策理论与方法》
8.1.1知识与知识表示
(5) X Y R( X ) R(Y ),
(6)
R( X ) R(Y )
R( X ) R( X ), R( X ) R( X ) R(R( X )) R(R( X )) R( X )
(7) R(R( X )) R(R( X )) R( X ),
X粗糙集的概念可以用下面的示意图来表示:
U / c1
2 1 4 5 6 3 7 2 8 1 4 7 2 5 8 3 6
3
1
2
3
4
8
5
6
6
7
1
4
2
8
3
5
7
1
4
5
2
8
3
7
6
第9 第 9页 页
R
《决策理论与方法》
8.1.2近似与粗糙集
设 X U , R 为U 上的等价关系,当 X 能表示为某 些基本范畴并时,称是 R 可定义集;否则称 X 是 R 不可定义集。 R 可定义集是论域的子集,它可在知识 库中精确地定义,而 R 不可定义集不能在这个知识
POSC ( D) POSC a ( D)
S (U , C D,V , f ), 若
则称属性 a 为 C 中 D 可省略,否则
属性 a 为

基于粗糙集和相关系数分析的决策规则生成

基于粗糙集和相关系数分析的决策规则生成

基于粗糙集和相关系数分析的决策规则生成摘要从不确定的信息表中进行决策规则的生成是重要的研究课题。

Rough 集(粗集)理论是一种处理不确定或模糊知识的重要工具,决策规则的相关系数分析能对决策规则的准确度和覆盖度进行描述。

本文介绍基于rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。

在简化后得出决策规则中再基于规则的相关系数分析来实现决策表的规则生成。

文中给出了利用分明矩阵化简决策表的算法和衡量决策规则的相关系数,通过具体实例对规则生成进行了详细说明。

关键词Rough集;约简;核;相关系数基金资助:江西省重点攻关项目(No. 20061B01002)江西省教育厅科技计划项目(赣教技字[2007]28号)1引言Rough set(粗糙集)理论是一个处理含糊和不精确问题的数学工具[1],已经被广泛应用在人工智能、模式识别核新材料合成等领域[2-4]。

Rough集对信息系统的约简就是考察近似空间中每个等价关系是否都是必要的,能不能在保持原有的分类能力下尽可能地去删除冗余的信息,而不影响其原有区分功能。

本文首先运用rough集的方法将信息系统中的决策表进行属性及属性值约简得到决策规则,然后利用相关系数分析所得出的相关规则,并通过一个实例加以说明。

规则的相关系数(以下介绍中s代表信息表S=(U,A,V,f))(1)support用来表示在信息表中,满足规则ab的所有对象的数目。

supports(a,b)=card(s)其中card 表示信息表中含有规则ab的对象的数目(2)certainty为准确度,用来表示在规则ab中,若条件a为真时,规则ab为真的概率。

certaintys(a,b)= card(s)/ card(s)其中card(s)表示满足条件a 的所有对象的数目。

(3)coverage为覆盖度,表示规则ab中,b为真时,规则ab为真的概率。

coverage(a,b)= card(s)/ card(s)其中card(s)表示满足结论b的所有对象的数目。

决策理论与方法教学--粗糙集决策

决策理论与方法教学--粗糙集决策
表示 R 的所有等价类 ,我们用[x]R 表示包含元x素 R

的等价类。
U
U
个知
上 识


族划分称K为
(U
,
R的),一个
知U


。一
库就R是一U个系统,记为
其中 为非
空有限
集, 为 上的一簇等价关系。
▪ 2. 知识的表示
知识的表示通过知识表达系统来完成。知识表

S
S (U , A,V , f ),
决策规则 称为CD 基本决策规则。
定义8.1.18 当且仅当对于(C, D) 中任何CD一

策规,则 ,
CD
CD
法中的
蕴含
S
时,则 决策算
决策规则 。
是 中相容的,否则是不相容的
定义8.1.19 如果一个决策表中所有的决策规则都 是相
容的,则决策表是相容的,否则是不相容的。
… then…”的决策规则,当条件能唯一确定决策 时,
等价关系 定R(义X )两 个Y 子U集/ R:Y X
R(X ) Y U / R Y X
XR
R
分别称它们为 的 下近似和 上近似。
下近似和上近似也可以用下面的等式表达:
R(X ) x U [x]R X , R(X ) x U [x]R X
BN R ( X ) R( X ) R( X ), POSR ( X ) R( X ), NEGR (X ) U R(X )
POSCc2(D) x1, x2 , x3 , x4 POSC (D)
POSCc3(D) POSC (D)
POSCc1,c2(D) x1, x4 POSC (D)

粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛

粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛
关键词:不确定性、粗糙集、知识约简、ROSETTA 工具集
1 粗糙集理论学习心得:
1.1 概念的外延和内涵 人类认知具有不确定性。人们表达一个不确定的概念时一般有两种方法:外延法和内涵
法。符合某概念对象的全体构成此概念的外延,区别于其他概念的全体本质属性就是此概念 的内涵。一个概念可以用枚举式的外延法表示,也可以用描述式的内涵法表示。
信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相 依性程度。度量方法主要有:信息熵、条件熵和互信息。
信息熵度量了信息源提供的平均信息量的大小。互信息量度了一个信息源从另一个信息 源获取的信息量的大小。信息熵和互信息都随着知识粗糙性的增加而单调下降,通常反过来 不成立。 1.7 知识约简
集合的近似与划分的近似是两个不同的问题。划分中每一个范畴,如果我们能确定论域 中哪些元素是它的正例,也必然能确定它的反例。与粗糙集合的补集意义不同。 1.5 粗糙集的基本性质
粗糙集的基本性质,如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的, 都与我们掌握的知识 R 相关。因此,可以认为粗糙集的方法是经典集合论方法的主观认识。
只有一个 Q 约简的知识 P 是确定的,因为当我们依照只是 P 的基本范畴将论域中的对 象划分到知识 Q 的基本范畴中时只有一种 P 的知识基(P 商集)可用。P 有多个 Q 约简时是 不确定的,因为有多种 P 的知识基可利用。
P 的 Q 核为空集时,知识 P 的不确定性达到最强。 不相容决策表,粗糙集理论的处理方法是对每个决策概念计算其上下近似,从下近似 导出的规则肯定成立,从上近似导出的规则可能成立,前者直接用于逻辑推理,后者有实 例支持。 属性约简算法分两种:1.盲目删除属性约简算法 2.启发式算法:通过定义属性的一个 重要度函数或差别函数来获取信息系统的属性约简。 常见的属性约简算法有:1.基于 Pawlak 属性重要度的属性约简算法。2.基于 Skowron 差 别矩阵的 IS 属性约简算法。3.基于信息熵的 IS 属性约简算法 粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。 1.8 粗糙集与自然语言的不确定性 自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从 模糊到精确的变化,以便表示对某一命题的信任程度。 程度型(A):considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just; 程 度 型 (B) : exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about; 数 量 型 (C) : all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any; 频率型(D) :always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever; 概 率 型 (E) : certain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, improbable, doubtful, almost impossible 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示 事物的不确定性和进行不确定性推理时,虽然信息本身有随机性,但人的表示和推理不是 随机的,而是遵循一定的认识规律和行为法则。

粗糙集-决策表

粗糙集-决策表

3
一、粗糙集
背景 现实生活中有许多含糊现象并不能简单地用真、假值来表示 1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词, 含糊(Vague) 他把它归结到边界线上。 即在全域上存在一些个体既不能在其某个子集上分类,也不 能在该子集的补集上分类。 粗糙集的提出 20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域 思想提出了粗糙集(Rough Set)﹐他把那些无法确认的个 粗糙集(Rough Set) 体都归属于边界线区域,而这种边界线区域被定义为上近似 集和下近似集之差集。由于它有确定的数学公式描述,完全 由数据决定,所以更有客观性 。
7
Lower & Upper近似和边界区域
定义5: X的下近似:R*(X)={x:(x∈U)∧ ([x]R⊆X )} X的上近似:R*(X)={x:(x∈U)∧ ([x]R∩X≠∅ )} X的边界区域:BNR(X)=R*(X)–R*(X) 若BNR(X)≠ ∅,则集合X就是一个粗糙概念。 下近似包含了所有使用知识R可确切分类到X的元素 上近似则包含了所有那些可能是属于X的元素。 概念的边界区域由不能肯定分类到这个概念或其补集中的所有元素 组成。 POSR(X)=R*(X)称为集合X的R-正区域 NEGR(X)=U–R*(X)称为集合X的R-反区域。
X2 = {u | Flu(u) = no} = {u1, u4, u5, u8} RX2 = {u1, u4} RX2 = {u1, u4, u5, u8, u7, u6}
9
Lower & Upper 近似
R = {Headache, Temp.} U/R = { {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}} X1 = {u | Flu(u) = yes} = {u2,u3,u6,u7} X2 = {u | Flu(u) = no} = {u1,u4,u5,u8}

粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛

粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛
图 2 信息系统实例 粗糙集理论研究的对象一般是如图 2 所示的表格(信息表或决策表)。用形式语言表示 为一个四元有序组 S=<U,V,f,A>。其中 U 是对象(事例)的有限集合,U={x1,x2,...,xn};A
是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
减弱知识的分类能力。 参数重要度强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
图 1 集合的上下近似 如图 1 所示,折线相连构成的闭合区域表示不确定的概念 X,灰色外边界和黑色外边 界表示人们使用能够确定表达的概念,也就是概念 X 的外延和内涵。人们无法直接表达概 念 X,但可以通过 X 的外延和内涵间接表达。同时概念 X 的外延和内涵可以用来反映 X 的 不确定性即概念的不精确性。图中灰色区域越大,表示概念 X 的精确性越低。 由图 1 可以看出,概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识, 不需要预先知道额外信息。粗糙集理论对事物的不精确性表达不 需 要 任 何 假 定 的 先 验 知 识 , 只依赖于所给定的知识表达系统,通过上下近似算子直接计算得到,这一点与概率论和模 糊集合理论完全不同,这也是粗糙集理论受到广泛关注的原因之一。 1.2 知识是一种分类能力 粗糙集理论受到广泛关注的另一个原因是它对知识的观点。在粗糙集理论中,知识(人 的智能)是一种对对象进行分类的能力。这里的“对象”包括:实物,状态,抽象概念,过 程和时间等。我们通常用等价关系或关系来表示分类和知识。 粗糙集理论把知识定义为关于论域的划分模式,从而使知识具有了颗粒性,我们称其 为信息粒度或知识粒度,简称粒度。 1.3 信息系统

粗糙集理论第6章

粗糙集理论第6章

第六章决策表第6.1节引言●本章讨论一类特殊、重要的知识表示系统——决策表,它在许多应用中发挥着重要作用。

●决策表描述了当某些条件被满足时应执行什么决策。

大多数决策问题能利用决策表形式化。

因此,在制定决策时决策表十分有用。

第6.2节形式定义与性质定义6.1 设K=(U,A)是一个KRS,若C, D ⊂A且C ⋃D=A,C⋂D=∅,称C是条件属性集,D是决策属性集,称这样的KRS为CD决策表,简称决策表,记为T=(U, A, C, D);等价关系IND(C)和IND(D)的等价类分别被称为条件类和决策类.定义6.2 设T=(U, A, C, D)是一个决策表,对任意x∈U,a∈C⋃D,函数d x:A→V被称为一条决策规则,这里d x(a)=a(x)成立,其中a(x)是元素x关于属性a的属性值. x被称为d x的标号,d x对C的约束d x|C被称为d x的条件,d x对D的约束d x|D被称为d x的决策。

注意:在决策表中,集合U中的元素并不表示一个真实对象,仅仅是一条决策规则的标识符。

定义6.3 设T=(U, A, C, D)是一个决策表,x∈U,若对∀y∈U 且y≠x,都有d x|C=d y|C蕴含d x|D=d y|D,则称决策规则d x是一致的,否则称d x是不一致的。

若对任意x∈U,d x都是一致的,则称T是一致的,否则称T是不一致的。

Comments :一致(不一致)有时可以解释为确定(不确定)。

定理6.1T =(U , A , C , D )是一个决策表, T 是一致的, 当且仅当C ⇒D由定理6.1可知,检验一个决策表是否一致的方法是计算条件属性和决策属性的相关度,若相关度为1,则可知决策表是一致的;否则是不一致的。

1122且在T 1中C ⇒1D ,在T 2中C ⇒0D ,其中,U 1=POS C (D ),U 2=⋃X ∈ U/IND (D )BN C (X )Comments: 假设已计算出条件属性和决策属性之间的相关性。

基于变精度粗糙集的不完备决策表属性约简

基于变精度粗糙集的不完备决策表属性约简
d e c i s i o nt a b l e . C o mp u t e r En g i n e e r i n g a n dAp p l i c a t i o n s , 2 0 1 3 , 4 9 ( 1 3 ) : 1 1 8 — 1 2 0 .
Ab s t r a c t :I n v i e w o f t h e l i mi t a t i o n s o f t h e a t t r i b u t e r e d u c t i o n a l g o r i t h m b a s e d o n v a r i a b l e p r e c i s i o n r o u g h s e t i n t o l e r a n c e r e l a —
d e mo n s t r a t e s t h e e f f e c t i v e n e s s o f t h e p r o p o s e d me t h o d . Ke y wo r d s :v a r i a b l e p r e c i s i o n r o u g h s e t ; i n c o mp l e t e d e c i s i o n t a b l e ; a t t r i b u t e r e d u c t i o n ; t o l e r a n c e r e l a t i o n
C o m p u t e r E n g i n e e r i n g a n d A p p l i c a t i o n s 计 算机 工程 与应 用
基 于 变 精 度 粗 糙 集 的不 完备 决 策 表 属 性 约 简
林春 杰 , 张瑞玲 , 韩 晓琴

第4讲粗糙集理论决策规则

第4讲粗糙集理论决策规则
U/ ind({R1,R2}) 或 U/ ind({R1,R3})来表达。 ❖R={R1, R2, R3}的约简是什么? 14
4.2 检验独立与否
❖如果每一个r∈R都为R中必要的, 则称R为独立的;
❖否则称R为依赖的。
❖定理:如果R是独立的,P R,
则P也是独立的。
15
4.2 检验独立与否
❖检 立验 的{?R1,R2}和{R1,R3}是否为独
7
3、约简与核
❖ 约简(reduct),核(core) ❖ 定义:令R为一族等价关系,r∈R, 如果ind(R)= ind(R-{r}),则称r为R中不必要的; 否则称r为R中必要的。 如果每一个r∈R都为R中必要的,则称R为独立 的;否则称R为依赖的。
定理:如果R是独立的,P R,则P也是独立的。
❖ 令C和D分别为条件属性集和决策属性集
属性子集C' C关于D的重要性定义为
C(D C‘) (C D) CC(1 D) 特别当C’ {}时,属性 C关于D的重要性为 C(D ) (C D) C{(} D)
头痛否且体温很高流感否以上规则的确定性因子为0540小结7综合算例71举例患者的知识表达系统72等价关系73依赖关系74约简与核75属性的重要性76决策规则418粗糙集内涵总结求约简与核的过程知识库kur等价类uruindr比较uindruindr判别必要性独立的必要的约简所有的必要关系组成的集合核428粗糙集内涵总结求解决策规则知识表达系统suavfacdcd比较posccnd不等必要约简相对核相对重要性决策规则的确定性因子438粗糙集内涵总结名词概念决策规则448粗糙集内涵总结粗糙集智能决策数据挖掘45总结内容1回顾2引例3约简与核5依赖关系6知识表达7综合算例决策规则8粗糙集内涵总结46doyouhavemadeprogresstoday

粗糙集的代数观点

粗糙集的代数观点

Rough 集合的代数观点信息表是粗糙集理论中的研究对象。

信息表的基本成分是研究对象的集合。

关于这些对象的知识是通过指定对象的属相和他们的属性值来表述的。

一个信息表I 可表示成四元组>=<f V R U I ,,,。

对于每一个属性子集B ,定义一个不可分辨二元关系(不分明关系)IND(B),即{})()((,),(|),()(2y b x b B b U y x y x B IND =∈∀∈= IND(B)是一个等价关系,})({)(b IND B IND Bb ∈= 。

决策表是一类特殊重要的信息表,一个决策表是一个信息表S=<U,R,V ,f>,其中,R=CUD 是属性集合,子集C 和D 分别称条件属性和决策属性。

D 非空。

条件属性集C 和结果属性集D 的等价关系IND(C)和IND(D)的等价类分别称为条件类和决策类。

由于任何决策表都可以等价的表示单一决策表,所以一般假定D={d}.定义 对每个概念X (样例子集),和不分明关系B ,包含于X 中的最大可定义集合包含X 的最小可定义集,都是根据B 能够确定的。

前者称为X 的下近似集)(—X B ,后者称为X 的上近似集)(—X B 。

)})(|(|{)(})(|{)(φ≠∧∈=⊆∧∈=X Y B IND U Y Y X B X Y B IND U Y X B i i i i i或者 )}][(|{)()}][(|{)(φ≠∧∈=⊆∧∈=X x U x x X B X x U x x X B B B 其中 ))}()((,,|{)(|y b x b B b X y X x U X X B IND U =∈∈∈∀∧⊆=是不分明关系B 对U 的划分,也是论域U 的B 基本集的集合。

决策表的属性对于分类的作用是不一样的,由此可以定义属性重要度的概念。

定义 设集合族)}(,...,,{121i ni n X U X X X F === 是论域U 上定义的知识,B 是一个属性子集,定义B 对F 近似分类的质量U X B F r ni i B /)()(1∑==定义 F 是属性集D 导出的分类,C 是条件属性集合,D={d}是决策属性集合,且C A ⊂,则对于任意属性A C a -∈的重要性SGF (a,A,D )定义为:)()(),,(}{F r F r D A a SGF A a A -= 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7
Lower & Upper近似和边界区域
定义5: X的下近似:R*(X)={x:(x∈U)∧ ([x]R⊆X )} X的上近似:R*(X)={x:(x∈U)∧ ([x]R∩X≠∅ )} X的边界区域:BNR(X)=R*(X)–R*(X) 若BNR(X)≠ ∅,则集合X就是一个粗糙概念。 下近似包含了所有使用知识R可确切分类到X的元素 上近似则包含了所有那些可能是属于X的元素。 概念的边界区域由不能肯定分类到这个概念或其补集中的所有元素 组成。 POSR(X)=R*(X)称为集合X的R-正区域 NEGR(X)=U–R*(X)称为1 e2 e3 e4 e5 e6 身高 高 高 高 矮 矮 矮 性别 男 女 男 男 女 男 视力 差 一般 好 差 一般 好 录取 否 是 是 否 是 是
表1 一决策表 身高、性别、视力为条件属性,录取为决策属性
13
决策规则
决策表中的每一行对应诸如θ→Ψ 形式的决策规则, θ和Ψ分别称为决策规则的前驱和后继 。 当决策表S中决策规则θ→Ψ为真时,我们说该决策 规则是S中一致的,否则说该决策规则是S中不一致 的。若决策规则是S中一致的,相同的前驱必导致 相同的后继;但同一种后继不一定必需是同一前驱 产生的。 如表1第一行对应决策规则: 身高(高)∧性别(男)∧视力(差) → 录取(否)
RX1 = {u2, u3} RX1 = {u2, u3, u6, u7, u8, u5}
X1 u2 u3 u7 u6 u5 u8
X2 u1 u4
RX2 = {u1, u4} RX2 = {u1, u4, u5, u8, u7, u6}
10
三、 知识分类
基本粗糙集理论认为知识就是人类和其他物种所固有的分类能 力。 分类是推理、学习与决策中的关键问题。因此,粗糙集理论假 定知识是一种对对象进行分类的能力。这里的“对象”是指我 们所能言及的任何事物,比如实物、状态、抽象概念、过程和 时刻等等。即知识必须与具体或抽象世界的特定部分相关的各 种分类模式联系在一起,这种特定部分称之为所讨论的全域或 论域(universe)。对于全域及知识的特性并没有任何特别假设。 事实上,知识构成了某一感兴趣领域中各种分类模式的一个族 集(family),这个族集提供了关于现实的显事实,以及能够从 这些显事实中推导出隐事实的推理能力。
4
粗糙集VS传统集合理论
传统集合论:一个集合完全是由其元素所决定,一个元素要 么属于这个集合,要么不属于这个集合,即它的隶属函数 µX(x)∈{0,1}。 粗糙集:隶属关系不再是确定的,因此无需人为给元素指定 一个隶属度,从而避免了主观因素的影响。
5
粗糙集的基本定义
定义1 一个近似空间(approximate space)(或知 识库)定义为一个关系系统(或二元组)K=(U, R), 其 中 U≠∅(∅ 为 空 集 ) 是 一 个 被 称 为 全 域 或 论 域 (universe)的所有要讨论的个体的集合,R是U上 等价关系的一个族集。 定义2 设P⊆R,且P≠∅ ,P中所有等价关系的交 集 称 为 P 上 的 一 种 不 分 明 关 系 (indiscernbility relation)(或称不可区分关系),记作IND(P)
3
一、粗糙集
背景 现实生活中有许多含糊现象并不能简单地用真、假值来表示 1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词, 含糊(Vague) 他把它归结到边界线上。 即在全域上存在一些个体既不能在其某个子集上分类,也不 能在该子集的补集上分类。 粗糙集的提出 20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域 思想提出了粗糙集(Rough Set)﹐他把那些无法确认的个 粗糙集(Rough Set) 体都归属于边界线区域,而这种边界线区域被定义为上近似 集和下近似集之差集。由于它有确定的数学公式描述,完全 由数据决定,所以更有客观性 。
The indiscernibility classes defined by R = {Headache, Temp.} are
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
X1 = {u | Flu(u) = yes} = {u2, u3, u6, u7} RX1 = {u2, u3} RX1 = {u2, u3, u6, u7, u8, u5}
[ x ]
IND
( P )
=
∩ [ x ]
R ∈ P
R
6
粗糙集的基本定义
定义3 给定近似空间K=(U, R),子集X⊆U称为U上的一 个概念(concept),形式上,空集也视为一个概念;非 空子族集P⊆R所产生的不分明关系 IND(P)的所有等价 类 关 系 的 集 合 即 U/IND(P) , 称 为 基 本 知 识 (basic knowledge) , 相 应 的 等 价 类 称 为 基 本 概 念 (basic concept);特别地,若关系Q∈R,则关系Q就称为初 等知识(elementary knowledge),相应的等价类就称 为初等概念(elementary concept)。
11
决策表
决策表
决策表是一类特殊而重要的知识表达系统,它指当满足某 些条件时,决策(行为)应当怎样进行。多数决策问题都 可以用决策表形式来表示,这一工具在决策应用中起着重 要的作用。 决策表可以定义如下:
S=(U, A)为一信息系统,且C, D⊂A是两个属性子集,分别称 为条件属性和决策属性,且C∪D=A,C∩D=∅,则该信息 系统称为决策表,记作T=(U, A, C, D)或简称CD决策表。关 系IND(C)和关系IND(D)的等价类分别称为条件类和决策类。
8
Lower & Upper近似
U U1 U2 U3 U4 U5 U6 U7 U8 Headache Yes Yes Yes No No No No No Temp. Normal High Very-high Normal H ig h Very-high H ig h Very-high Flu No Yes Yes No No Yes Ye s No
14
五、分布式知识获取模型
近似空间: 表示分布式环境中第i个局部节点的近似空间
15
分布式知识抽取算子
16
分布式知识生成算子
17
X2 = {u | Flu(u) = no} = {u1, u4, u5, u8} RX2 = {u1, u4} RX2 = {u1, u4, u5, u8, u7, u6}
9
Lower & Upper 近似
R = {Headache, Temp.} U/R = { {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}} X1 = {u | Flu(u) = yes} = {u2,u3,u6,u7} X2 = {u | Flu(u) = no} = {u1,u4,u5,u8}
粗糙环境下分布式知识获取算子
1
内容提要 一、分布式知识获取 二、粗糙集 三、知识分类 四、决策表 五、分布式知识获取模型
2
分布式知识获取
分布式知识获取 分布式环境下数据表现为物理分布、海量、异构等特点, 针对这种特点,分布式知识获取模型使用知识抽取算子 抽取分布式系统的全局知识,由知识生成算子生成分布 式系统的全局知识。
相关文档
最新文档