基于粗糙集的决策表属性约简方法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K M 和 Zak 已经证 明找到最佳属性约简 是 N — . i oW. r P
理论在处理不完 整的信息方 面有 着 比较 突出 的优 势 ,
因此它被公认 为是决策支 持 、 数据挖 掘及 知识获取 的
高效工具。在粗糙集 理论 的学 习中 , 求核 以及属性 约
收稿 日期 : 1— 5 3 ; 回日期 : 1 — 9 1 2 1 0— 1修 0 2 1 0— 0 0 基金项 目: 广西 自治区科学研究 与技 术开发攻 关计划 课题 ( 科攻 桂
0 104- 6 86 0 1 )
hr ad问题 。 , J因而 目前如何寻找高效的最佳属性约简
算法是粗糙集理论研究的一大挑战。文 中就是针对基
于信息熵 的属性约简算法在数据集较大的情况下 时间 复杂度及效率都不是很理想 的问题 , 提出了改进方法 , 降低了时间复杂度 , 并能较快地生成属性 约简集 。
一
限集合 , C U D是 属性 的有 限 集 , 中 C为条 件 属性 其 集, D为决策属性集 , 并且 , , 为 属性集 CU C n D= V
D的值域 : U×( 一 为一个信息 函数 , CUD) 表示 任
一
对象 的属性在 上 的取值 , 即 ,)∈ , r 它指 定了 U中每一对象 的属性值 。 一 为知识表达语 言中 的决策规则 , 中 和 分别称为 一 的因和果 。对 其 于一个决 策表 s 当所 有规则 — 为真 时 , , 则称决策
作者简介 : 吴守领( 9 6 ) 男 , 18 一 , 河南 商丘人 , 士研 究生 , 硕 研究 方 向
为并行算法与分布式计算 、 数据挖 掘; 杨
要研究方 向为并行算法 、 数据挖掘 。
颖, 教授 , 硕士 生导师 , 主
1 粗糙集理论基础
粗糙集理论从集 合 的视 角对 知识 进行 定义 , 知 把
( . o u r n l t ncIfr t n C l g 。 u g i ies y N n i 3 0 4 C ia 1 C mp t d E e r i noma o o e e G a x Unv r t 。 a nn 5 0 0 , hn ; ea co i l n i g
简是它 的一个重要 内容 。
所谓属性约简就是在保持原有知识分类能力不变 的情况下 , 那些不重要 的或不相关的属性删除 , 而 将 进
简化原来 的信 息系统 。求核 以及 属性 约简 的方 法很 多, 无论那一种方法 , 它们 所追求 的 目的都是 一样 的, 那就是高 效地 找 出最佳 属 性 约简集 。然而 WogS n .
0 引 言
粗糙集理论是一种 数学工具 , 它主要 用来处 理不
确定 的、 模糊 的知识 , 它最早被 波 兰科 学家 Z a l .Pw a k 于 18 9 2年提出 。通过粗糙集理论的相关 知识 , 以 可 很 快地 找出在 数据 中起 着关 键性 或决 定性 作用 的属 性, 可以根 据这些 属性对 数据进一 步 的简化 。粗糙 集
定义 3 知识的依赖 。 令 K=( R)为 一 知 识库 , P, ∈ R当 k= U, 且 9
吴 守领 杨 颖 杨 磊 刘 磊 , , ,
( . 西大 学 计 算机 与 电子信 息学院 , 1广 广西 南 宁 500 304; 2 广 西壮 族 自治 区计 算 中心 , 西 南 宁 502 ; . 广 302
3 软通动力信 息技术( . 集团) 有限公 司, 广东 深圳 582 ) 119
rd P e ( )表示 P的所有约简 。
在文 献 [ ,] 2 3 已经证 明求决 策表 的最 佳属性约 简集是
一
个 N —a P hr d问题 , 因此 在实 际的应用 中一般 只求 出
其相对约简。在决 策表 的条件 属性 中 , 些是 重要属 有 性, 有些是非重要属性 , 基于属性 重要性 的约简方法 主 要 以决策表 的区分 矩阵为 着手点 , 根据属性 重要性 来顺 序地选出最重要 的属性加 入到核 属性 中 , 进而得 到决策表的一个相对属性约简集。然而计算属性 的重 要度及排序都增加 了算 法 的时间复杂 度 , 在数 据集较
般属性约 简算 法 主要是 利 用粗 糙集 的基本 概
念 , 正域 、 如 重要性 和核等来 进行计 算 , 中首先 就一 文
些常见的对 于决策表属性约简算 法做 出了概述 。
() 1 利用 区分矩阵 的属性约简方法 。
表 S 相容的 , 是 否则称不相容 。
定义2 知识 约简 。
一
{} , r ) 则称 r R中不必要 的 ; 则称 r R中必要 为 否 为
设Q P 。如果 Q是独立 的 , id Q = n ( ) 且 n ( ) id P ,
的。
对于决策表的属性 约简有别 于一 般 的属 性约简 ,
则称 Q为 P的一个约简 。P中所有必要关 系组成 的集 合称 为 P的核 , 记做 cr ( 。 oe P) 核 与约简有 如下关 系 :oe P) n rd P , 中 c r( = e ( ) 其
第2 2卷 第 1 期 21 02年 1 月
计 算 机 技 术 与 发 展
C0MP r CHNOL U ER TE 0GY AND DEVEL 0PMENT
Vo . 2 No 12 .1
Jn 2 1 a. 02
基 于粗 糙 集 的决 策 表属 性 约简 方 法 的研 究
基于差 别矩 阵 的决策 表 的知 识表 达方 式 简 洁 明
了, 易于求 出决策 表 的相 对 D核 和所有 的相 对 D约
简 , 该方法只适 用 于相容 的决策表 ’ 因此 在实 际 但 , 应用中受到限制 。
( ) 于属性重要性 的属性约简方法 。 2基
令 为一族等价关系 , ∈R, r 如果 id R) id R n ( =n (
Ab t a t S a c i g c r n t iut e u to sa ma n is eo e r u h s t t e r . o v o x si g s o o n so e d c - s r c : e r h n o e a d at b er d ci n i i s u ft o g e s h o y To s l es me e it h ac mi g ft e i r h n h so a l t i u e r d ci n a g rt m ,n patc l , n o y b s d a g rt m a o e ce c o u f n o a g a as t , O i p o— i n tb e at b t u t l o i r e o h i r u a e t p — a e lo i i r r h h sl w f in y f rmd c o fl e d t e s S t r i i r p s d a mpr v d ag rt m a e n t e t e r fr u h s t . h e a g rt m h n e h o s a n o d t n i e r h n o e oe n i o e lo h i b s d o o y o o g es T e n w l o i h h h c a g d t e c n t i tc n i o n s ac i g c r r i tr u h usn o o g e st e r I ha i h e ce c n a o t o h o g i g s me r u h s t h o y. t sh g f in y a d h sl w i i me c mp e i i e r h n o e a d a f u e r d c i n Ex e — lx t n s a c i g c r n  ̄ b t e u t . p f y i o i me tr s l h w a e a g rt m a n o d ati u e s b e . n e u t s o t tt l o i s h h h c n f d a g o t b t u s t i r Ke r s r d c o e ; t i u e md c o r u h s t y wo d : e u t n s t at b t u f n;o g e i r i
S ud fDe ii n Ta eAtrbu e Re uci n M eho s t y o cso bl t i t d to t d
Ba e n ug e s d o Ro h S t
W U ho S u—ln 。 i g YANG n , Yi g YANG i LI Le Le , U i
第1 期
吴 守领 等 : 于粗糙集 的决 策表 属性 约简方法的研究 基
・ 3・ 3
识看作 是关 于论域的划分 , 构成一个信息系统 , 而对 从
知识进 行分析和处理 。下面介绍粗糙集 的一些基本概
念 : 定 义 1 决策表 。
一
2 基于粗糙集的决策表属性约简方法研究
2 1 常见 的决策表属性约简方法 . 决策表 是一类特 殊重要 的知识 表达 系统 , 多数 决 策问题 可以用决策表形式来表达 , 它在决策分析 、 智能 控制、 规则获 取和近似推理 等领域有着广泛 的应用 。
2 Gu g iCo u i g Ce tr Na n n 3 0 2。 h n ; . a x mp t n e , n i g 5 0 2 C i a n n
3 R atn o gino ao eh ooyC mp y Se ze 1 19 C n ) . u o gD nlIfr t nT c nlg o a ,hnh n5 82 ,h a n m i n i
摘 要 : 核 和属性 约简是 粗糙集 理论 研究 的一个 核 心 问题 。文 中主 要 针对 现 有 的一 些 决 策表 属 性 约 简算 法 存 在 的不 求
足, 尤其是 基 于信息熵 的属 性约 简算法 在较 大数据 集上效 率不 高 的问题提 出改 进 。主要 通过 结合 粗糙 集 的相 关理 论 来 改 进 原有 的属性 约简算 法在 求核 中的约 束条件 , 进而 在原 有 算法 的基础 上 提 出 了一种 改 进算 法 。在 求 约简 属性 集 时 , 利用
新 提 出的约简 算法 , 使计算 复杂 度降低 , 同时保持 了高效 的决策 准 确率 。实 验 结果 表 明 改进 后 的决 策 表属 性 约简 方 法 能 够 更加快 速有 效地 找到约 简集 。 关 键词 : 约简集 ; 约简 ; 属性 粗糙集
中图分 类号 :P 0 . T 3 16 文 献标识 码 : A 文章编 号 :6 3 6 9 ( 0 2 0 - 0 2 0 17— 2 X 2 1 )l 03 -4
个 决策表 可以形式化 的定义 为 : ( CUD, S= U,
,
Baidu Nhomakorabea
其 中 U:{ , , , , } … 是所感趣对 象 的有
决策表 的属性 约简及其算 法是实现决策表信息智能处
理的关键 内容 , 所谓 的知识 约简就 是指在 保持 原始决 策表 条件属 性和决 策属性 之间的依赖关 系不发生变化 的前提下删除冗余 的属性和属性 值 。
理论在处理不完 整的信息方 面有 着 比较 突出 的优 势 ,
因此它被公认 为是决策支 持 、 数据挖 掘及 知识获取 的
高效工具。在粗糙集 理论 的学 习中 , 求核 以及属性 约
收稿 日期 : 1— 5 3 ; 回日期 : 1 — 9 1 2 1 0— 1修 0 2 1 0— 0 0 基金项 目: 广西 自治区科学研究 与技 术开发攻 关计划 课题 ( 科攻 桂
0 104- 6 86 0 1 )
hr ad问题 。 , J因而 目前如何寻找高效的最佳属性约简
算法是粗糙集理论研究的一大挑战。文 中就是针对基
于信息熵 的属性约简算法在数据集较大的情况下 时间 复杂度及效率都不是很理想 的问题 , 提出了改进方法 , 降低了时间复杂度 , 并能较快地生成属性 约简集 。
一
限集合 , C U D是 属性 的有 限 集 , 中 C为条 件 属性 其 集, D为决策属性集 , 并且 , , 为 属性集 CU C n D= V
D的值域 : U×( 一 为一个信息 函数 , CUD) 表示 任
一
对象 的属性在 上 的取值 , 即 ,)∈ , r 它指 定了 U中每一对象 的属性值 。 一 为知识表达语 言中 的决策规则 , 中 和 分别称为 一 的因和果 。对 其 于一个决 策表 s 当所 有规则 — 为真 时 , , 则称决策
作者简介 : 吴守领( 9 6 ) 男 , 18 一 , 河南 商丘人 , 士研 究生 , 硕 研究 方 向
为并行算法与分布式计算 、 数据挖 掘; 杨
要研究方 向为并行算法 、 数据挖掘 。
颖, 教授 , 硕士 生导师 , 主
1 粗糙集理论基础
粗糙集理论从集 合 的视 角对 知识 进行 定义 , 知 把
( . o u r n l t ncIfr t n C l g 。 u g i ies y N n i 3 0 4 C ia 1 C mp t d E e r i noma o o e e G a x Unv r t 。 a nn 5 0 0 , hn ; ea co i l n i g
简是它 的一个重要 内容 。
所谓属性约简就是在保持原有知识分类能力不变 的情况下 , 那些不重要 的或不相关的属性删除 , 而 将 进
简化原来 的信 息系统 。求核 以及 属性 约简 的方 法很 多, 无论那一种方法 , 它们 所追求 的 目的都是 一样 的, 那就是高 效地 找 出最佳 属 性 约简集 。然而 WogS n .
0 引 言
粗糙集理论是一种 数学工具 , 它主要 用来处 理不
确定 的、 模糊 的知识 , 它最早被 波 兰科 学家 Z a l .Pw a k 于 18 9 2年提出 。通过粗糙集理论的相关 知识 , 以 可 很 快地 找出在 数据 中起 着关 键性 或决 定性 作用 的属 性, 可以根 据这些 属性对 数据进一 步 的简化 。粗糙 集
定义 3 知识的依赖 。 令 K=( R)为 一 知 识库 , P, ∈ R当 k= U, 且 9
吴 守领 杨 颖 杨 磊 刘 磊 , , ,
( . 西大 学 计 算机 与 电子信 息学院 , 1广 广西 南 宁 500 304; 2 广 西壮 族 自治 区计 算 中心 , 西 南 宁 502 ; . 广 302
3 软通动力信 息技术( . 集团) 有限公 司, 广东 深圳 582 ) 119
rd P e ( )表示 P的所有约简 。
在文 献 [ ,] 2 3 已经证 明求决 策表 的最 佳属性约 简集是
一
个 N —a P hr d问题 , 因此 在实 际的应用 中一般 只求 出
其相对约简。在决 策表 的条件 属性 中 , 些是 重要属 有 性, 有些是非重要属性 , 基于属性 重要性 的约简方法 主 要 以决策表 的区分 矩阵为 着手点 , 根据属性 重要性 来顺 序地选出最重要 的属性加 入到核 属性 中 , 进而得 到决策表的一个相对属性约简集。然而计算属性 的重 要度及排序都增加 了算 法 的时间复杂 度 , 在数 据集较
般属性约 简算 法 主要是 利 用粗 糙集 的基本 概
念 , 正域 、 如 重要性 和核等来 进行计 算 , 中首先 就一 文
些常见的对 于决策表属性约简算 法做 出了概述 。
() 1 利用 区分矩阵 的属性约简方法 。
表 S 相容的 , 是 否则称不相容 。
定义2 知识 约简 。
一
{} , r ) 则称 r R中不必要 的 ; 则称 r R中必要 为 否 为
设Q P 。如果 Q是独立 的 , id Q = n ( ) 且 n ( ) id P ,
的。
对于决策表的属性 约简有别 于一 般 的属 性约简 ,
则称 Q为 P的一个约简 。P中所有必要关 系组成 的集 合称 为 P的核 , 记做 cr ( 。 oe P) 核 与约简有 如下关 系 :oe P) n rd P , 中 c r( = e ( ) 其
第2 2卷 第 1 期 21 02年 1 月
计 算 机 技 术 与 发 展
C0MP r CHNOL U ER TE 0GY AND DEVEL 0PMENT
Vo . 2 No 12 .1
Jn 2 1 a. 02
基 于粗 糙 集 的决 策 表属 性 约简 方 法 的研 究
基于差 别矩 阵 的决策 表 的知 识表 达方 式 简 洁 明
了, 易于求 出决策 表 的相 对 D核 和所有 的相 对 D约
简 , 该方法只适 用 于相容 的决策表 ’ 因此 在实 际 但 , 应用中受到限制 。
( ) 于属性重要性 的属性约简方法 。 2基
令 为一族等价关系 , ∈R, r 如果 id R) id R n ( =n (
Ab t a t S a c i g c r n t iut e u to sa ma n is eo e r u h s t t e r . o v o x si g s o o n so e d c - s r c : e r h n o e a d at b er d ci n i i s u ft o g e s h o y To s l es me e it h ac mi g ft e i r h n h so a l t i u e r d ci n a g rt m ,n patc l , n o y b s d a g rt m a o e ce c o u f n o a g a as t , O i p o— i n tb e at b t u t l o i r e o h i r u a e t p — a e lo i i r r h h sl w f in y f rmd c o fl e d t e s S t r i i r p s d a mpr v d ag rt m a e n t e t e r fr u h s t . h e a g rt m h n e h o s a n o d t n i e r h n o e oe n i o e lo h i b s d o o y o o g es T e n w l o i h h h c a g d t e c n t i tc n i o n s ac i g c r r i tr u h usn o o g e st e r I ha i h e ce c n a o t o h o g i g s me r u h s t h o y. t sh g f in y a d h sl w i i me c mp e i i e r h n o e a d a f u e r d c i n Ex e — lx t n s a c i g c r n  ̄ b t e u t . p f y i o i me tr s l h w a e a g rt m a n o d ati u e s b e . n e u t s o t tt l o i s h h h c n f d a g o t b t u s t i r Ke r s r d c o e ; t i u e md c o r u h s t y wo d : e u t n s t at b t u f n;o g e i r i
S ud fDe ii n Ta eAtrbu e Re uci n M eho s t y o cso bl t i t d to t d
Ba e n ug e s d o Ro h S t
W U ho S u—ln 。 i g YANG n , Yi g YANG i LI Le Le , U i
第1 期
吴 守领 等 : 于粗糙集 的决 策表 属性 约简方法的研究 基
・ 3・ 3
识看作 是关 于论域的划分 , 构成一个信息系统 , 而对 从
知识进 行分析和处理 。下面介绍粗糙集 的一些基本概
念 : 定 义 1 决策表 。
一
2 基于粗糙集的决策表属性约简方法研究
2 1 常见 的决策表属性约简方法 . 决策表 是一类特 殊重要 的知识 表达 系统 , 多数 决 策问题 可以用决策表形式来表达 , 它在决策分析 、 智能 控制、 规则获 取和近似推理 等领域有着广泛 的应用 。
2 Gu g iCo u i g Ce tr Na n n 3 0 2。 h n ; . a x mp t n e , n i g 5 0 2 C i a n n
3 R atn o gino ao eh ooyC mp y Se ze 1 19 C n ) . u o gD nlIfr t nT c nlg o a ,hnh n5 82 ,h a n m i n i
摘 要 : 核 和属性 约简是 粗糙集 理论 研究 的一个 核 心 问题 。文 中主 要 针对 现 有 的一 些 决 策表 属 性 约 简算 法 存 在 的不 求
足, 尤其是 基 于信息熵 的属 性约 简算法 在较 大数据 集上效 率不 高 的问题提 出改 进 。主要 通过 结合 粗糙 集 的相 关理 论 来 改 进 原有 的属性 约简算 法在 求核 中的约 束条件 , 进而 在原 有 算法 的基础 上 提 出 了一种 改 进算 法 。在 求 约简 属性 集 时 , 利用
新 提 出的约简 算法 , 使计算 复杂 度降低 , 同时保持 了高效 的决策 准 确率 。实 验 结果 表 明 改进 后 的决 策 表属 性 约简 方 法 能 够 更加快 速有 效地 找到约 简集 。 关 键词 : 约简集 ; 约简 ; 属性 粗糙集
中图分 类号 :P 0 . T 3 16 文 献标识 码 : A 文章编 号 :6 3 6 9 ( 0 2 0 - 0 2 0 17— 2 X 2 1 )l 03 -4
个 决策表 可以形式化 的定义 为 : ( CUD, S= U,
,
Baidu Nhomakorabea
其 中 U:{ , , , , } … 是所感趣对 象 的有
决策表 的属性 约简及其算 法是实现决策表信息智能处
理的关键 内容 , 所谓 的知识 约简就 是指在 保持 原始决 策表 条件属 性和决 策属性 之间的依赖关 系不发生变化 的前提下删除冗余 的属性和属性 值 。