变精度粗糙集的属性核和最小属性约简算法_陈昊
属性约简
粗糙集的几种属性约简算法分析分类:默认栏目2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 051.1 利用差别矩阵求最小约简差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。
利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。
预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。
通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。
而最后得到的每个析取分量对应着一个约简。
因此,一定可以得到最小约简。
但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。
1.2 基于属性依赖度约简算法求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。
许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。
便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。
一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。
决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。
一种基于粗糙集的属性约简算法改进
K$
核。首先可以将这些属性取出, 同时将分明矩阵中包 含核属性的元素的值删掉, 这样也可以节省许多计算 量以及存取分明矩阵的空间。 对于第二个问题, 即属性值约简的问题, 存在以下 命题: 命题 * & $ : 设 34 被消去所有过剩条件属性值的 决策规则, 条件属性集 + 的等价类 [5 ] 6 中任何最少 属性 / 的等价类 [ 5] [ 5] / 的交集?相应决策类 , 中, 则由此而得到的最小条件属性 / 组成的相应于 3 4 的 新决策规则 3 4 7是 3 4 的一个决策规则约简。 根据上面所述, 我们可以设计这样的算法 输入 :决策表 8 # 9 ), + ), : 输出 :此决策表上的决策规则 步骤 $ : 属性约简 ;#< =>? " # $ @> ’ A $ 3> . =>? ! # " B $ @> ’ 3> 对 ; 应用分配律, 结果存入 ; . . {; # ; ){ /: ( ! ). / / ( ") } , 检查所有属性 3; %.
系 D 在 ( 中是绝对不必要的 (多余的) ; 否则, 称D 在 ( 中是绝对必要的。 ( 中所有绝对必要关系组成的集 合称为关系集 ( 的绝对核, 记做 :FDG ( () 。 ( &)设 7 是一论域, ( 和 H 为定义在 7 上的两个 等价关系集且 H *(。如果: %) >?; ( H)6 >?; ( () , &) H 是独立的。 则称 H 是 ( 的一个绝对约简。如果知识 H 是知 识 ( 的绝对约简, 那么, 7 中通过知识 ( 可区分的对 象, 同样可以用知识 H 来区分。 在讨论决策表信息系统约简的时候, 一个条件属 性 * 就对应着一个等价关系, 它对论域 7 形成一个划 分 7 I *。决策表的所有条件属性形成条件属性集合 ( 对论域的划分 7 I (, 同时, 决策属性集 ; 6 {@} 也对论 域形成一个划分 7 I ;。这两个划分形成了条件属性和 决策属性在对论域样本分类上的知识。 属性约简的目标就是要从条件属性集合中发现部 分必要的条件属性, 使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相对 于决策属性的分类一致, 即和所有条件属性相对于决 策属性有相同的分类能力。 &0 , 分明矩阵 令 5 6{ 7, *} 是一个决策信息系统, 7 为定义域 且 7 6 {A% , A& , 00 0, AJ } ,* 6 : ) ; , : 是条件属性集 合, ; 是决策属性, ( A) 1 是记录 A 在属性 1 上的值。分 明矩阵可表示为: ( :KL)6
粗糙集理论的属性约简方法及其在实际问题中的应用
粗糙集理论的属性约简方法及其在实际问题中的应用引言粗糙集理论是一种基于不确定性的数据分析方法,它通过对数据集中属性之间的关系进行分析,提供了一种有效的数据降维和特征选择的方法。
在实际问题中,属性约简是粗糙集理论的一个重要应用,它可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性信息的数学工具,主要用于数据分析和知识发现。
粗糙集理论的核心思想是基于近似和不确定性,通过对属性之间的关系进行分析,找出属性的重要性和相关性,从而对数据进行降维和特征选择。
二、属性约简方法属性约简是粗糙集理论的一个重要应用,它可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
常用的属性约简方法主要有以下几种:1. 正域约简:正域约简是一种基于属性重要性的约简方法,它通过计算属性的依赖度和冗余度来评估属性的重要性,从而选择出最为重要的属性。
正域约简方法在处理具有大量属性的数据集时具有较好的效果。
2. 直接约简:直接约简是一种基于属性关系的约简方法,它通过计算属性之间的相似度和相关性来选择出最为相关的属性。
直接约简方法在处理具有复杂关系的数据集时具有较好的效果。
3. 快速约简:快速约简是一种基于属性搜索的约简方法,它通过快速搜索算法来选择出最为关键的属性。
快速约简方法在处理大规模数据集时具有较好的效果。
三、属性约简方法在实际问题中的应用属性约简方法在实际问题中具有广泛的应用价值,可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
以下是属性约简方法在实际问题中的一些应用案例:1. 医学诊断:在医学诊断中,属性约简方法可以帮助医生从大量的医学数据中提取出最为关键和有价值的属性,辅助医生进行疾病诊断和治疗方案选择。
一种基于粗糙集的属性值约简方法
摘
要
利用矩 阵的可操作性等优点 , 将决策表 中的知识通过 区分矩阵反映 出来 , 对决策表 的值 约简操作转换 为对 矩阵 的运算。
提 出基 于区分矩 阵的一些重要性质及在此基础上 的属性值约简方法 , 最后通过 实验和 实例验证 了该 算法是有 效可行 的。
关 键 词 粗 糙 集 区分 矩 阵 属 性 值 约 简 属 性 重 要 度
ATTRI BUTE VALUE REDUCTI oN ALGoRI THM BAS ED oN RoUGH SET TH Eo RY
Ch n Xio u e ay n La n h a , n Co g u
Ke wo d y rs
Ro g e D s e n b e marx A t b t au e u t n At iu e sg i c n e u h st ic r a l t t i u e v le r d ci i r o t b t inf a c r i
U 如果 Va∈P, , 都有 f , )=f Y a 。说 明仅 仅根据 条件 ( a (,)
0 引 言
粗糙集理论是一种新 型的处理不 确定 的 、 模糊 的和不完 整
属性子集 P提供的信息 , 无法将对 象 , Y区分开来 , 称对象 , Y 在条件属性子集 P上是不可 区分 的 , 记为 : D( I P):{ ,)∈ N ( Y U×UI Va∈ P , ) 厂 Y a }I D( 是 U上的等价关 系。 a :_ , ) , ( N P)
信息 的数学工具。在粗糙集 理论 中, 知识被 看作是关 于论域 的 划分 , 是一种对对象进行分类 的能力 , 理论是建立 在集 合的基 该
基于遗传算法的粗糙集属性最小约简方法
P S( ) ( ) 旦 X 称为X的B正区域, O BX = 它表示
根据知识 B, U中所有一定能归入集合 X的元素构 成的集合。 又对于 U上的两个等价关系 尸和 Q, Q的 尸正 域定义为: O p =XE ( P X)它表示 尸的等 P S ( ) U Q ( , Q
决策属性, 决策属性D关于条件属性C C对 D 的 ( )
依赖度定义为: K ( =cr ( S ( /ad ad O c ) r ( ; c D) P D) c U) 其中 ‘r ( ) ad S 表示 S的基数。 若。 c ) , D <1则说明知识 C只能将 U上属 <K ( 于正区域的对象划分为 D一基本类; K ( =0 若 cD) , 说明 U中没有对象能由知识 C划分为 D一基本类, 即 D完全不依赖于 C 若 K ( =1则表明 I 。 cD) , ND ( ) N D , U上所有对象都可由知识 C划 C CI D( )即 分为 D一基本类。
犷 CR
智能、 模式识别等领域[ 2 ] 决策表属性约简是粗糙集理论中的一个重要研
究课题。 属性约简的目的是为了导出决策表的决策 规则, 属性的多少直接决定决策规则的繁简与性能。 一个决策表的属性约简不是唯一的, 得到决策表的 包含最少条件属性的约简( 最小约简) 已被证明是
UV 是属性值的集合 , , , V 表示属性 r ER的属性值
定义4 令决策表系统为S U R V 力,= =( , , , R CUD, 如果 P S ( ) 则称该决策表是协调 O c = D U,
的, 否则是非协调的。 本文假设考虑的决策表都是协
4 属性约简的遗传算法
41 编码方法 . 调决策表。 本文采用二进制编码方法。 用一个长度为 N 的 定义5 令决策表系统为S U R V f ,= =( , , ,)R 二进制串表示一个个体, 其中N 为条件属性总数, C UD是属性集合, D分别是条件属性和决策 C和 二进制串的每一位对应一个条件属性, 某位取1 表示 属性, U=(lx , .x } x ,z. , 是论域 ,(; . rx) 是对象 x 在 、 选择该位对应的条件属性, 表示不选该位对应的 取0 属性 r 上的取值 , 则可辨识矩阵 M 记为 : 条件属性。 由于遗传搜索是从决策表的属性核出发, q )x - R- 因此对于表示初始种群的二进制串, 属性核对应的 十 ( 任C rx 铸rx) D(; r (; (j} x) (;; ) 半D x) 位取1并在整个进化过程中保持不变。 , 0 D(;二D(;; x) x) 42 适应度函数的选取 . 必 C x) (i (i =C x) 但D(; x 笋D(;; ) x) 根据本文推论的思想, 对于搜索个体对应的条 根据以上定义, 当两个对象的决策属性值相同 件属性集 C是最小约简, 必须满足两个条件 :1条 () 时, 可辨识矩阵元素为。 当两个对象的条件属性值 ; 件属性对决策属性的依赖度最大, 即为1() ; 2条件属 不同且决策属性值也不同时, 可辨识矩阵元素为互 性个数最少, 即表示搜索个体的二进制串中1 的个数 不相同的属性组合; 当两个对象的条件属性值完全 最少。 以此确定适应度函数为: 相同而决策属性值不同时, 可辨识矩阵元素为必, 它 _ ,、 N-cr (). , ad x , r 少 k “一一 x 一N — 一八% 八 . x 表明决策表系统是不一致的。 其中N是二进制串的长度, r() c dx表示个体 x中1 a 定义6 令决策表系统为S ( R V 力,= = , , R U, 的个数, x 表示个体 x所含的条件属性对决策属 K() C D是属性集合, C和 D分别为条件属性和 U 子集
逻辑函数的粗糙集表达及最小化方法
逻辑函数的粗糙集表达及最小化方法粗糙集理论是Z. Pawlak于1982年提出的,它是一种用来处理不确定性、模糊性和不完备性的一种数学模型。
粗糙集理论的基本思想是,利用一组属性来描述对象,通过这些属性来划分对象之间的相似度和差异度。
在粗糙集理论中,逻辑函数是一种重要的表达形式。
逻辑函数是通过布尔代数的方式来表达逻辑关系的函数形式,例如AND、OR和NOT等。
在粗糙集理论中,逻辑函数通常可以用来表示集合的包含关系或者近似关系。
逻辑函数的表达可以使用联结词来连接属性,例如AND和OR代表交集和并集。
使用逻辑函数可以方便地表示对象之间的相似性和差异性。
例如,对于一些对象a,可以使用逻辑函数来表示与其相似的对象集合,即具有相同属性的对象。
而与其不相似的对象,则可以使用逻辑函数的补运算来表示。
代数化简是一种常见的逻辑函数最小化方法,它通过运用布尔代数的基本定律和规则,对逻辑函数进行逻辑等价变换和化简,以达到最简形式。
代数化简的过程通常包括合并项、消除项和引入项等步骤。
卡诺图是一种图形化的逻辑函数最小化方法,它通过绘制真值表的方式来构造一个二维的格状图,格状图中的每个格子对应一个逻辑函数的项,通过寻找相邻格子之间的距离来合并相似项,从而实现逻辑函数的最小化。
奎因-麦克劳林展开是一种逻辑函数最小化的代数方法,它利用逻辑代数的展开定理,将逻辑函数展开成最简的形式。
展开的过程通常可以通过二项定理和相似项的合并来进行,以达到逻辑函数的最小化。
在实际应用中,根据需求选择合适的逻辑函数表达形式和最小化方法是非常重要的。
不同的逻辑函数表达形式和最小化方法适用于不同的问题和计算环境。
因此,在应用粗糙集理论中,需要根据具体情况选择合适的方法和技术来处理逻辑函数的表达和最小化问题。
综上所述,逻辑函数的粗糙集表达及最小化方法是粗糙集理论中的重要部分,它可以帮助我们处理不确定性、模糊性和不完备性的问题。
逻辑函数的表达使用布尔代数的方式来描述逻辑关系,可以方便地表示对象之间的相似性和差异性。
3变精度粗糙集方法
3变精度粗糙集方法粗糙集方法是为了解决模糊或不确定性问题而发展的一种理论与方法。
在粗糙集方法中,对象的属性值可以是模糊的或精确的,而决策或分类规则可以通过属性之间的相对约束关系来确定。
本文将介绍三个常用的变精度粗糙集方法,并对其进行详细阐述。
1.粗糙集的数学模型:粗糙集的数学模型是基于信息系统理论和近似推理理论。
它可以将不精确或模糊的数据转化为一个或多个精确的决策或分类规则。
其数学模型定义了粗糙集的三个基本元素:信息系统、下近似集和上近似集。
这三个元素构成了粗糙集的主要特性和运算规则。
2.变精度粗糙集的基本概念:在粗糙集方法中,为了处理不确定性或模糊性问题,可以使用变精度技术来调整精确度。
变精度粗糙集是在标准粗糙集的基础上引入了多个精度级别的概念,从而可以根据不同的应用要求对精确度进行调整。
3.粗糙集方法的三个变精度技术:a.基于粗糙集的属性精度:在传统粗糙集方法中,属性的精确度是预先定义的,而在基于粗糙集的属性精度技术中,属性的精确度是由用户根据实际情况进行调整的。
通过调整属性的精确度,可以提高粗糙集方法的分类或决策效果。
b.基于粗糙集的决策精度:传统粗糙集方法中,决策的精确度是通过属性之间的相对约束关系来确定的。
而在基于粗糙集的决策精度技术中,可以通过调整决策的精确度来改善分类或决策结果。
这种技术常常会涉及到模糊推理或概率推理的方法。
c.基于粗糙集的规则精度:在传统粗糙集方法中,规则的精确度是预先定义的。
而在基于粗糙集的规则精度技术中,可以通过调整规则的精确度来提高分类或决策的准确性。
这种技术通常涉及到规则的修剪或合并。
总结起来,粗糙集方法是一种基于信息系统理论和近似推理理论的模糊或不确定性问题处理方法。
它的数学模型定义了信息系统、下近似集和上近似集等三个基本元素,并通过属性精度、决策精度和规则精度等三个变精度技术来提高分类或决策的准确性。
这些方法在实际应用中具有较好的效果,并逐渐成为数据挖掘和智能决策等领域的重要研究方向。
粗糙集理论方法及其应用ppt课件
粗糙集概念示意图
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2 粗粗糙糙集集理理论论思思想想
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
2.3 粗糙近似
定义 给定一个知识表示系统 S (U, A,V, f ) , P A,X U ,x U ,集合 X 关于 I 的下近似、 上近似、负区及边界区分别为
apr (X ) {x U : I(x) X} p
aprP (X ) {x U : I(x) X }
neg p ( X ) {x U : I (x) X }
2.2 不可分辨关系 (Indiscribility relation)
❖ 不可分辨关系是一个等 价关系(自反 的、对称 的、传递的)。
❖ 包含对象x的等价类 记为I(x)。等价类与知 识粒度的表达相对应, 它是粗糙集主要概念, 如近似、依赖及约简等, 定义的基础
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
决策属性(D)
U
a1
a2
a3
d
n1
High
Low
Low
Low
n2
Medium
High
Low
High
n3
High
High
High
High
粗糙集理论方法及其应用 病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程
粗糙集理论的常见使用方法介绍
粗糙集理论的常见使用方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和人工智能等领域得到了广泛的应用。
本文将介绍粗糙集理论的常见使用方法,包括近似集的构建、属性约简和决策规则的提取。
一、近似集的构建近似集是粗糙集理论的核心概念之一,它用于描述数据集中的不确定性信息。
在实际应用中,我们通常需要根据给定的数据集构建近似集。
构建近似集的方法有多种,其中最常见的是基于属性约简的方法。
首先,我们需要将原始数据集进行离散化处理,将连续属性转换为离散属性。
然后,根据数据集中的属性之间的关系构建一个属性关系矩阵。
属性关系矩阵中的每个元素表示两个属性之间的关系强度,可以使用不同的度量方法来计算。
接下来,我们可以根据属性关系矩阵来构建近似集,其中每个近似集表示一个属性的约简。
二、属性约简属性约简是粗糙集理论中的一个重要问题,它用于减少数据集中的冗余属性,提高数据挖掘和模式识别的效率。
属性约简的目标是找到一个最小的属性子集,使得该子集能够保持数据集中的信息完整性。
属性约简的方法有多种,其中最常用的是基于启发式算法的方法。
启发式算法通过迭代搜索的方式,逐步减少属性集合的大小,直到找到一个最小的属性子集。
常见的启发式算法包括遗传算法、模拟退火算法和粒子群优化算法等。
三、决策规则的提取决策规则是粗糙集理论的另一个重要应用,它用于从数据集中提取出具有决策能力的规则。
决策规则的提取可以帮助我们理解数据集中的规律和模式,从而做出准确的决策。
决策规则的提取方法有多种,其中最常用的是基于属性约简的方法。
首先,我们可以根据属性约简的结果,将数据集划分为多个等价类。
然后,对每个等价类进行进一步分析,提取出具有决策能力的规则。
最后,通过对规则进行评估和选择,得到最终的决策规则集合。
四、案例分析为了更好地理解粗糙集理论的应用方法,我们可以通过一个案例来进行分析。
假设我们有一个销售数据集,其中包含了客户的属性信息和购买的产品信息。
粗糙集理论中属性相对约简算法_张腾飞
粗糙集理论中属性相对约简算法张腾飞,肖健梅,王锡淮(上海海事大学电气自动化系,上海200135) 摘 要: 粗糙集理论是近年来发展起来的一种有效地处理模糊和不确定性知识的数学工具,而求核与约简是粗糙集理论中的两个重要问题,现已证明求决策表所有约简和最小约简是一个典型的NP 难题.本文在分析粗糙集理论的基础上,发现了正区域的一些有用性质,提出了一种利用正区域直接求核的方法,并利用正区域的启发式信息给出了两种相对约简算法.关键词: 粗糙集;求核;相对约简;决策表中图分类号: TP18 文献标识码: A 文章编号: 0372-2112(2005)11-2080-04Algorithms of Attribute Relative Reduction in R ou gh Set TheoryZHANG Teng -fei ,XI AO Jian -mei ,W ANG Xi -huai(Depart me nt of El ectr ical and Aut omati on ,Shanghai Maritime Unive rs ity ,Shanghai 200135,C hina )Abstract : Rough set is a valid mathematical theory developed in recent years ,which has the abilit y to deal with imprecise ,un -certain ,and vague in formation .The core and reduction of attributes are two imp ortant topics in the research on rough set theory .It has been proven that computing all the reductions and the optimal (minimal )reduction of decision table is a NP -hard problem .In this paper ,Rough set theory is deeply investigated ;a number of useful properties of the positive region are discovered .Based on the above findings ,we present a calculation algorith m for core directly .And then ,two algorithms for relative reduction based on the positive re -gion are designed .Key words : rough set theory ;finding core ;relative red uction ;decision table1 引言 粗糙集理论是波兰数学家Z .Pawlak 教授提出来的一种新型的处理模糊和不确定性知识的数学工具[1,2].经过二十多年的研究和发展,粗糙集理论已经在决策与分析、故障诊断、模式识别、数据挖掘、系统建模、动态目标识别及跟踪等领域取得了很大的成功[3~6].粗糙集理论是以不可分辨关系为基础,通过引入上近似(upper approximation )集和下近似(lower approximation )集来描述一个集合.信息系统的求核与约简是粗糙集理论和应用研究的焦点问题.信息系统分为无决策信息系统和有决策信息系统,在实际应用中大多为有决策信息系统,用决策表来表示,它是粗糙集研究的主要对象,因此决策表信息系统的求核与约简的研究更为重要.由于求所有属性约简是NP 难题,因此到目前为止,还没有一个高效的求最佳与所有属性约简的算法.不过,在实际应用中,往往只要求出某种次优的属性约简就可以了.为此,人们已提出了若干个属性求核和约简算法,其中应用较多的是基于差别矩阵以及在此基础上的一些改进算法[7,8];文献9给出了基于信息论的方法,用信息熵作为选择重要属性的启发式信息;文献[10]基于变精度粗糙集理论,利用可辨识属性矩阵研究了不协调目标信息系统的知识约简算法;文献[11]将包含度概念和证据理论引入到粗糙集理论中,建立了包含度与粗糙集数据分析中的度量之间的关系,这几种方法的主要缺点是空间复杂度高,计算繁琐,不适用大规模数据.经过深入分析粗糙集理论,本文发现了正区域的一些性质,提出了一种直接求核的方法,并利用正区域的启发式信息给出了两种属性相对约简算法.实验结果表明,本文的方法简单有效.2 粗糙集的基本理论 决策表是一类特殊而重要的知识表达系统,多数决策问题都可以用决策表形式来表达,这一工具在粗糙集理论中起着重要的作用.决策表可以根据知识表达系统定义如下:设S =〈U ,R ,V ,f 〉为一知识表达系统,U 是论域,R =C ∪D ,C ∩D =Υ,C 称为条件属性集,D 称为决策属性集.V收稿日期:2004-03-01;修回日期:2004-09-25基金项目:国家自然科学基金(No .60074004);上海市教委科学研究重点项目(No .04F A02);上海市重点学科建设项目(No .T0602)第11期2005年11月电 子 学 报ACTA ELECTRONICA SINICA Vol .33 No .11Nov . 2005为属性值的集合,f:U×R※V是一个信息函数,它指定U中每一个对象x的属性值.具有条件属性和决策属性的知识表达系统称为决策表.定义1 在信息系统S中,对于属性子集P R,不可分辨关系定义为:IND(P)={(x,y)∈(U×U:a∈P,a(x)=a(y)}显然IND(P)也是等价关系,对象x在属性集P上的等价类[x]IN D(P)={y:y∈U,xIND(P)y}.U/R表示R的所有等价类.定义2 给定信息系统决策表S=〈U,R,V,f〉,对于每个子集X U和不可分辨关系P,X的下近似集和上近似集可以分别定义为:RX=∪{y∈U/R Y X}RX=∪{y∈U/R Y∩X≠Υ}.下近似集RX也称为X的R正区域,记为:PO S R(X).众所周知,知识库中知识(属性)并不是同等重要的,甚至其中有些知识是冗余的.这就需要知识约简.所谓知识约简就是在保持分类能力不变的条件下,删除其中不相关或不重要的知识.定义3 设R为一族等价关系,r∈R,如果IND(R)=IND(R-{r}).则称r为R中不必要的;否则称r为R中不必要的,不可以约简的.如果每一个r∈R都为R中必要的,则称R为独立的;否则称R为依赖的.设P R,若P是独立的,且IND(P)=IND(R).则称P为R的一个约简;R的约简往往不止一个,所有约简的交集称为核,记作Core(R).在信息系统决策表的应用中,需要研究条件属性的分类相对于决策属性的分类之间的关系,因此相对约简和相对核的概念十分重要.定义4 设P和Q为U中的等价关系,Q的P正区域记为PO S P(Q),即P OS P(Q)=∪X U/QPXQ的P正区域是U中所有根据分类U/P的信息可以准确划分到关系Q的等价类中去的对象集合.定义5 设P和Q为U中的等价关系,r∈P,如果PO S P (Q)=PO S(P-{r})(Q),则称r为P中Q不必要的,否则r为P 中Q必要的.如果P中每个r都为Q必要的,则称P为Q独立的.设R P,如果R为Q独立的,且P OS R(Q)=P OS P(Q).则称R为P的Q约简.P的所有Q约简的交集称为P的Q核.记为Co re Q(P). P的Q核是P中所有Q必要的原始关系构成的集合.3 属性求核算法 在粗糙集理论中,相对核与约简都是基于正区域而定义的.对于信息系统决策表S=〈U,R,V,f〉,其中U为论域,R =C∪D,设属性a i∈C,由不可分辨关系的定义可知关系C 要比(C-{a i})对U的分类细,再由定义4,显然有正区域的如下性质:性质1 PO S(C-{ai})(D)PO S C(D).定理1 a i是C中的一个属性,若满足PO S(C-{ai})(D)=PO S C(D)则a i不是C相对于决策属性D的核属性.证明:由定义5可知,若上式成立,则a i就是C中相对于决策属性D不必要的,显然,a i不是核属性.定理2 C中的一个属性a i是C相对于决策属性D的核属性的充分必要条件是PO S(C-{ai})(D)≠PO S C(D)证明:充分性.如果P OS(C-{ai})(D)≠POS C(D),根据定义5,a i 就是C中必要的,即为不可以约简的,为了说明属性a i为核属性,采用反证法.假设a i为非核属性,根据核的定义,至少有一个约简P 不包含属性a i.由于P为C的约简,且不包含a i,由性质1可得:P OS P(D)PO S(C-{ai})(D)POS C(D)根据约简的定义可知必然有P OS P(D)=P OS C(D)所以:PO S(C-{ai})(D)=PO S C(D)这与条件PO S(C-{ai})(D)≠PO S C(D)相矛盾.充分性得证.必要性.如果P OS(C-{ai})(D)=PO S C(D),由定理1可知a i一定为非核属性.所以如果a i为核属性,则PO S(C-{ai}) (D)≠PO S C(D).证毕.根据上述两个定理,我们可以得到一个基于正区域的直接求核算法.算法1 信息系统决策表相对核计算方法.输入:信息系统决策表S=〈U,R,V,f〉,R=C∪D是属性集合,C={a i i=1, 2,…,m}和D={d i i=1,2,…,n}分别称为条件属性集和决策属性集;输出:信息系统决策表相对核Cor e;Step1 求P OS C(D);Step2 令Co re=Υ;Step3 对条件属性集C中的每个属性a i,如果PO S(C-{ai})(D)≠PO S C(D)则Co re=Core∪{a i}.Step4 结束,集合Core为输出.4 属性相对约简算法 在决策表中不同的属性可能具有不同的重要性,为找出某些属性的重要性,通常的方法是从决策表中去掉这个属性,2081第 11 期张腾飞:粗糙集理论中属性相对约简算法考察没有该属性后分类的变化情况.若去掉该属性相应变化较大,则说明该属性比较重要;反之,说明该属性不是太重要,即重要性较低.这里我们应用正区域作为属性重要性的启发式信息,把pos =PO S C (D )-PO S (C -{r })(D )的大小作为属性重要性的判断条件.下面给出两个基于正区域的决策表约简算法.算法2是以核集为基础,逐步选择比较重要的属性加入该集合,直到满足条件POS Redu ct (D )=POS C (D ),Reduct 即为约简.算法3是把整个条件属性集C 作为一个约简,利用正区域的启发式信息逐步将该集合中不必要的属性约去,但仍满足上述条件,保证得到的属性集合Reduct 为约简.算法2 基于核的相对约简算法.输入:信息系统决策表S =〈U ,R ,V ,f 〉,R =C ∪D 是属性集合,C ={a i i =1,2,…,m }和D ={d i i =1,2,…,n }分别称为条件属性集和决策属性集;输出:信息系统决策表相对约简Reduct ;Step 1 计算决策属性D 对于条件属性C 的正区域PO S C(D );Step 2 计算条件属性C 相对于决策属性D 的核属性集Co re D (C );并令Reduct =Co re D (C );Rem =C -Cor e D (C ).Step 3 若Reduct =Υ,直接转下一步;若Reduct ≠ ,计算PO S Red uct (D ).如果P OS Redu ct (D )=PO S C (D ),则终止,Reduct 为约简.否则转下一步;Step 4 从Rem 中选择属性a i ,使下式的值最大:pos =PO S Rem (D )-PO S (Rem -{a i})(D )Reduct =Reduct ∪{a i }Rem =Rem -{a i }Step 5 若PO S Reduct (D )=PO S C (D ),则终止,输出约简为Reduct ;否则转Step 4.算法3 信息系统决策表相对约简计算方法.输入:信息系统决策表S =〈U ,R ,V ,f 〉,R =C ∪D 是属性集合,C ={a i i =1,2,…,m }和D ={d i i =1,2,…,n }分别称为条件属性集和决策属性集;输出:信息系统决策表相对约简Reduct ;Step 1 计算决策属性D 对于条件属性C 的正区域PO S C(D );Step 2 对每个属性a i 计算po s =PO S C (D )-PO S (C -{a i})(D );Step 3 令Reduct =C ;将属性a i 按po s 从小到大的顺序排列,对每个a i 执行操作:若PO S (Reduct -{a i})(D )=PO S C (D ),则属性a i 应约简,Reduct =Reduct -{a i };否则a i 不能被约简,Redu ct 不变;Step 4 结束.由粗糙集理论知道,任何决策表的相对核都是唯一的,而且包含在所有的相对约简之中,算法2把相对核作为约简算法的起点,逐步增加对决策分类能力较大的属性,直到满足由相对约简定义的条件,所以基本可以保证得到最小的约简;算法3则是以条件属性全体为基础,在保证对决策表分类不变的前提下,逐步消去对决策分类能力较小的属性,算法简单,只需对各个属性扫描一遍即可.5 实例分析 为了验证上述算法的有效性,本节选择了一个已知核与约简的Wong -Ziarko 决策表[12]和UCI 机器学习数据库[13]中的三个决策表进行计算,实验结果如表1所示.表1 求核与约简算法结果决策表实例数条件属性数算法1算法2算法3Wong -Ziarko decis ion table 219{D ,I }{A ,D ,E ,I }{B ,D ,F ,G ,I }BUP A liver disorders 3456{}{A ,B ,E }{C ,D ,E }Glas s Identification 21410{}{A }{A }Ionosphere Databas e35134{}{4,18,24}{30,33,34} 实验结果表明,算法2和3对于属性相对约简是有效的,并且大多情况下可以得到最小约简.对于Wong -Ziarko 决策表,算法3虽然没有得到最小约简,但也得到了次优约简.6 结论 决策表核的确定和属性约简算法是粗糙集理论研究的焦点问题,本文在深入理解粗糙集基本概念的基础上,发现了正区域的一些有用性质,在此基础上给出直接利用正区域的信息求属性核,并给出了两个求属性相对约简的算法,实验结果表明了算法的有效性.由于利用正区域作为属性约简的启发式信息,也仅是从等价关系分类能力的角度对属性重要性进行粗略度量,并不能严格分辨出各个属性的重要程度.因此,如何利用粗糙集理论知识来度量属性重要性以便可以简单的求取最小约简还有待进一步的研究.参考文献:[1] Pawlak Z .Rough sets [J ].International Journal of Computer and Information Science ,1982,11(5):341-356.[2] Pawlak Z .A rough set view on Bayes 'theorem [J ].Interna -tional Journal of Intelligent Systems ,2003,18(5):487-498.[3] Tay F ,et al .Fault diagnosis based on rough set theory [J ].Engineering Applications of Artificial Intelligence ,2003,16(1):39-43.[4] Zhang T F .Dynamic system modeling based on rough sets and RBF neural networks [A ].Proc of the 5th World Congress onIntelligent Control and Automation [C ].Hangzhou ,2004.185-189.[5] 徐捷等.基于粗糙集理论的动态目标识别及跟踪[J ].电子学报,2002,30(4):605-607.Xu Jie ,et al .Dynamic objects identifying and tracing based2082 电 子 学 报2005年on rough set theory[J].Acta Electronica Sinica,2002,30(4):605-607.(in Chinese)[6] 张文修,等.Rough集理论与方法[M].北京:科学出版社,2001.[7] Hu X H,et al.Learnin g in relational databases:A rough setapproach[J].International Journal of Computational Intelli-gence,1995,11(2):323-338.[8] 刘文军,等.基于可辨识矩阵和逻辑运算的属性约简算法的改进[J].模式识别于人工智能,2004,17(1):119-123.[9] 王国胤,等.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766.[10] Mi J S,et al.Approaches to knowledge reduction based onvariable precision rough set model[J].Information Sciences,2004,159(3):255-272.[11] Zhang M,et al.A rough set approach to knowledge reductionbased on inclusion degree and evidence reasoning theory[J].Expert Systems,2003,20(5):298-304.[12] Wong S K M,et al.On optimal decision rules in decision ta-bles[J].Bulletin of Polish Academy of Science,1985,33(11-12):693-696.[13] /mlearn/MLRePOSitory.html[DB/OL].作者简介:张腾飞 男,1980年出生于河南省,博士研究生,主要从事粗糙集和神经网络的研究.肖健梅 女,1962年出生于辽宁省大连市,教授,主要从事智能控制,智能信息处理等方面的研究.王锡淮 男,1961年出生于江苏省淮安市,博士,博士生导师,主要从事粗糙集理论,复杂系统建模与控制等方面的研究.E-mail:wxh@.2083第 11 期张腾飞:粗糙集理论中属性相对约简算法。
3变精度粗糙集方法
3变精度粗糙集方法粗糙集理论是一种基于信息论和概率统计的数据分析方法,主要用于处理模糊、不确定和不完备信息。
在粗糙集理论中,精度是一个非常重要的指标,可以用来衡量数据集合的精确度和准确度。
在实际应用中,通常需要在不同精度下进行数据分析和挖掘,以获得更加全面和准确的结果。
因此,研究如何在不同精度下进行粗糙集分析是非常重要的。
在本文中,我们将介绍三种常用的变精度粗糙集方法,分别是逐步粗糙集方法、粗糙模糊集方法和动态粗糙集方法。
这些方法在不同的应用场景下具有各自的优势和特点,可以有效地处理不同类型的数据,并可以提高数据分析的效率和准确度。
逐步粗糙集方法是一种常用的变精度粗糙集方法,它通过逐步减少属性的数量来提高数据分析的效率。
具体来说,逐步粗糙集方法将数据集合中的属性按照其重要性进行排序,然后逐步地删除不重要的属性,直到达到所需的精度。
通过这种方式,逐步粗糙集方法可以在不损失太多信息的情况下大幅减少数据的维度,从而提高数据分析的效率和准确度。
另一种常用的变精度粗糙集方法是粗糙模糊集方法,它结合了粗糙集和模糊集的优势,可以有效地处理模糊和不确定性信息。
具体来说,粗糙模糊集方法引入模糊集的概念,将数据的属性值表示为模糊数,然后使用模糊关系来处理属性之间的关系,并通过粗糙集理论来发现数据之间的粗糙关系。
通过这种方式,粗糙模糊集方法可以在处理模糊和不确定性信息时更加有效和准确,从而提高数据挖掘的效率和精度。
最后,动态粗糙集方法是一种基于数据动态变化的变精度粗糙集方法,它可以随着数据的变化而动态调整精度。
具体来说,动态粗糙集方法通过监控数据的变化情况,动态调整精度参数,以适应数据变化的需要。
通过这种方式,动态粗糙集方法可以实现数据的实时监控和管理,从而提高数据分析的灵活性和准确度。
综上所述,逐步粗糙集方法、粗糙模糊集方法和动态粗糙集方法是三种常用的变精度粗糙集方法,它们在处理不同类型的数据和不同应用场景下具有各自的优势和特点。
连续值属性决策表中的可变精度粗糙集模型及属性约简
关键 词 粗糙 集 , 性 约 简 , 变精 度 粗 糙 集 , 性 重 要 性 属 可 属
中 图 法分 类 号
TP 0 31
文献标识码
A
Atr b t sRe uci n Ba e n t e Va i b e Pr cso u h S ti c so b e t i u e d to s o h r a l e ii n Ro g e n De ii n Ta ls d
Co a ni g Co tn u - a u t i u e nt i n n i uo sv l e Atr b t s d
FENG n , Li L a u ITin r i YU h - in 0 Z i a g q
变精度粗糙集方法
近似集合与真实集合的相似度。
决策规则的生成算法
确定决策规则
根据下近似集和上近似集,通过一定的算法确定决策规则,即根据近似精度进行 分类或决策。
评估决策规则
根据实际需求和数据集,通过一定的算法评估决策规则的准确性和可靠性。
属性约简算法
确定冗余属性
根据数据集和决策规则,通过一定的 算法确定冗余属性,即对决策结果没 有影响的属性。
进行属性约简
根据冗余属性,通过一定的算法进来自 属性约简,即去除冗余属性后得到最 小决策规则集合。
04
变精度粗糙集方法的应 用实例
数据预处理与实例选择
原始数据收集
首先需要收集相关的数据,这些数据可以是 来自不同来源和格式的数据。
数据清洗
对收集到的数据进行清洗,去除重复、错误 或不完整的数据。
数据转换
处理连续属性受限
传统的变精度粗糙集方法主要针对离散属性,对于连续属性的处理能力有限,需要进一 步改进和扩展。
决策规则提取困难
变精度粗糙集方法在提取决策规则方面可能面临挑战,尤其是在处理复杂和不均衡数据 集时,难以得到可靠和有效的决策规则。
未来研究方向与展望
属性约简优化
进一步研究属性约简算法,提高模型在处理大规模数据集时的效率 和准确性。
资源和时间。
03
变精度粗糙集方法的核 心算法
近似集的求解算法
确定下近似集
01
根据给定的数据集和阈值,通过一定的算法确定下近似集,即
确定哪些对象属于集合。
确定上近似集
02
根据给定的数据集和阈值,通过一定的算法确定上近似集,即
确定哪些对象可能属于集合。
计算近似精度
03
根据下近似集和上近似集,通过一定的算法计算近似精度,即
粗糙集理论的核心算法及其在实际问题中的应用
粗糙集理论的核心算法及其在实际问题中的应用粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它能够在信息不完备或不准确的情况下进行决策和推理。
本文将介绍粗糙集理论的核心算法,并探讨其在实际问题中的应用。
一、粗糙集理论的核心算法粗糙集理论的核心算法主要包括粗糙集近似算法和粗糙集约简算法。
粗糙集近似算法是粗糙集理论最基本的算法之一,它用于将不完备或不准确的数据集划分为若干个等价类。
该算法基于属性重要性的概念,通过计算属性的正域和反域来确定属性的重要性,从而实现数据集的划分。
粗糙集约简算法是粗糙集理论中的关键算法,它用于从原始数据集中提取出最小的、具有相同决策规则的子集。
该算法通过计算属性的依赖度来确定属性的重要性,从而实现数据集的约简。
二、粗糙集理论在实际问题中的应用粗糙集理论在实际问题中有着广泛的应用,尤其在数据挖掘、模式识别和决策支持等领域。
在数据挖掘中,粗糙集理论可以用于特征选择和数据预处理。
通过粗糙集约简算法,可以从原始数据集中提取出最重要的特征,减少数据维度,提高数据挖掘的效率和准确性。
在模式识别中,粗糙集理论可以用于特征提取和模式分类。
通过粗糙集近似算法,可以对模式进行划分和分类,从而实现对复杂模式的识别和分析。
在决策支持中,粗糙集理论可以用于决策规则的生成和评估。
通过粗糙集约简算法,可以从原始数据集中提取出最简化的决策规则,为决策制定提供支持和指导。
除了以上应用,粗糙集理论还可以用于知识发现、智能推理和不确定性推理等领域。
它的优势在于能够处理不完备或不准确的信息,提供一种有效的决策和推理方法。
总结起来,粗糙集理论的核心算法包括粗糙集近似算法和粗糙集约简算法,它们在实际问题中有着广泛的应用。
通过粗糙集理论,可以处理不完备或不准确的信息,提高数据挖掘、模式识别和决策支持等领域的效率和准确性。
粗糙集理论为我们解决实际问题提供了一种有效的数学工具。
基于粗糙集的属性约简算法
基于粗糙集的属性约简算法夏春艳1李树平2刘世勇3牡丹江师范学院计算机科学与技术系,黑龙江省牡丹江市 157012The Approach for Attributes Reduction Based on Rough Set TheoryAbstract:This paper researches attributes reduction of Rough Set Theory. Put forward a heuristic attribute reduction algorithm based on the table of compatibility information and incompatible information at same time. The experimental results show that the algorithm is verified to be more feasible and effective.Key words: Rough Set Attribute Reduction Attribute dependencies摘要:本文主要研究基于粗糙集理论的属性约简算法。
提出了一种同时适合于相容信息表和不相容信息表的启发式约简算法,并通过算例验证了该算法的可行性和有效性。
关键词:粗糙集属性约简属性依赖度中图分类号:TP311 文献标识码:A0 引言粗糙集理论是由波兰华沙理工大学Z.Pawlak教授在1982年提出的,是一种研究不精确、不确定性知识的数学工具[1]。
该理论已经在数据挖掘、机器学习、过程控制、决策分析和模式识别等领域得到了广泛的应用,并取得了良好的效果。
属性约简就是在保持分类能力不变的前提下,通过对知识的化简导出问题的决策或分类规则,是粗糙集理论中的一个重要研究课题[2]。
它的意义在于可以删除冗余信息,形成精简的规则库以便人们(或者机器人)作出快速、准确的决策。
粗糙集下近似计算方法
粗糙集下近似计算方法1. 前言粗糙集理论是一种非常有用的数学工具,可以用来处理诸如分类、聚类、特征选择等问题。
在实际应用中,粗糙集下的近似计算方法被广泛使用,能够有效地解决大规模数据下的问题。
2. 粗糙集理论简介粗糙集理论是基于启发式算法的一种数学工具,主要用于处理不确定性问题。
粗糙集理论的基本假设是,每一个对象都可以用一个或多个属性来描述,这些属性反映了对象的某些特征。
在粗糙集中,对象被描述为属性值的集合。
根据粗糙集的定义,两个对象如果在所有属性上的取值都相等,那么它们就是相等的。
粗糙集理论通过对属性值的划分来确定对象之间的相似性,从而实现了对数据的分类、聚类、特征选择等任务。
3. 粗糙集的近似计算方法在实际应用中,粗糙集理论需要面对大规模的数据,因此需要寻找有效的计算方法来加速计算过程。
粗糙集的近似计算方法是一个重要的解决方案,包括以下几种方法:3.1 粗糙集精简方法粗糙集精简方法是用来减少属性集合中冗余属性的一种方法。
粗糙集的决策属性只与部分属性有关,因此在精简属性集合时可以删除与决策属性无关的属性,从而降低计算复杂度。
3.2 粗糙集标准化方法粗糙集标准化方法是用来将数值型属性转化为离散型属性的一种方法。
由于数值型属性的取值范围广泛,因此在粗糙集的计算中往往需要将其离散化处理。
标准化方法可以根据数据的分布情况来自动将数值型属性离散化,从而改善了计算效率。
3.3 粗糙集快速计算方法粗糙集快速计算方法是通过预处理数据,降低计算复杂度的一种方法。
该方法将数据转化为某种特定形式,从而可以将粗糙集的计算转化为简单的矩阵运算、向量点积等操作,实现了计算的快速计算。
4. 实例分析下面通过一个实例来说明粗糙集的近似计算方法。
4.1 实例描述假设有一个汽车行业的数据集,其中包括车辆品牌、车型、销售地区、价格等属性。
现在需要根据这些属性来进行车辆分类。
4.2 粗糙集分类采用粗糙集分类的步骤如下:1)将数据集进行标准化处理,将数值型属性转化为离散型属性。
基于测试代价的三支邻域属性约简算法
基于测试代价的三支邻域属性约简算法
张欣蕊;万仁霞;岳晓冬;陈瑞典
【期刊名称】《计算机应用研究》
【年(卷),期】2024(41)3
【摘要】针对粗糙集属性约简时很少考虑属性自身的测试代价等问题,提出了一种基于测试代价的三支邻域属性约简算法。
算法根据各属性在邻域分辨矩阵中出现的频次和比例来计算属性重要性,并结合属性自身的测试代价来构造性价比指标,以此指导属性的甄选。
三支决策方法被用于划分属性集,为属性的约简处理提供数据支撑。
在7个UCI公共数据集上进行对比实验,结果表明,该算法可得到比对比算法更小的属性约简集合,在分类精度不降低的情况下,该算法具有更少的运行时间和更小的测试代价。
基于财政收入的预测应用实例进一步证明了所提算法的有效性和实用性。
【总页数】6页(P836-841)
【作者】张欣蕊;万仁霞;岳晓冬;陈瑞典
【作者单位】北方民族大学数学与信息科学学院;上海大学计算机工程与科学学院;福建弘扬软件股份有限公司健康大数据研究院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于免疫量子粒子群优化的测试代价敏感属性约简算法
2.基于测试代价敏感的不完备决策系统属性约简算法
3.基于三支决策的广义代价敏感近似属性约简
4.不完备邻域决策粗糙集的最小化代价属性约简算法
5.基于最小化邻域互信息的邻域熵属性约简算法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于改进遗传算法的粗糙集属性约简算法
基于改进遗传算法的粗糙集属性约简算法
陈曦;雷健;傅明
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)003
【摘要】属性约简是粗糙集理论研究的主要内容之一,为了能够有效地获取决策表中属性最小约简,在分析属性约简的方法与遗传算法的基础上,将属性重要性度量作为启发式信息引入遗传算法,提出了一种启发式遗传算法.通过构造新的变异算子来引入启发式信息,体现了启发式信息的局部搜索技术,使得算法既保持整体优化特性,又具有较快的收敛速度.实验结果表明,该方法能快速有效地求出决策表的最小约简.【总页数】4页(P602-604,608)
【作者】陈曦;雷健;傅明
【作者单位】长沙理工大学,计算机与通信工程学院,湖南,长沙,410076;长沙理工大学,计算机与通信工程学院,湖南,长沙,410076;长沙理工大学,计算机与通信工程学院,湖南,长沙,410076
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于遗传算法的粗糙集属性约简算法 [J], 曹俊琴;冯家鹏
2.基于自适应遗传算法的粗糙集属性约简算法 [J], 孙娓娓;王春生;姚云飞
3.一种基于改进遗传算法的粗糙集属性约简算法磁 [J], 李玉龙;张亚光;毕聪聪
4.基于免疫遗传算法的粗糙集属性约简算法 [J], 时光;智军;陈军;
5.一种基于遗传算法的粗糙集属性约简算法 [J], 邹瑞芝
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract
The attributes reduction in Variable Precision Rough Set ( VPRS) is researched by this paper
thoroughly. We define different attributes reduction and propose two methods of calculating minimal reduction based on tolerance matrix and core of attributes. The core attributes concept is presented. We discuss some properties of core attributes,which means that attributes core has the essential character about feature of core and makes the attributes reduction in VPRS practical. The theoretical analysis and example demonstrate two methods of calculating minimal reduction proposed in this paper can reduce space of attributes reduction to improve the efficiency of calculating it. Keywords mal reduction variable precision rough set; attributes reduction; attributes core; tolerance matrix; mini-
( Electronic Engineering Institute,Hefei 230037 )
( Key Laboratory of Anhui Electronic Restriction,Hefei 230037 )
( Department of Electronic Science and Technology,University of Science and Technology of China,Hefei 230026 )
[56, 8, 10 ]
过设置参数 β , 放松标准粗糙集对近似边界的要求 . 下面给出 VPRS 的有关概念.
[11 ] F = { Y | YX} , 定义 1 . 设 X 是有限集合, B ∈F , 为 F 上的偏序关系, 对任意 A, 记
, 并提出了基于 VPRS 的知识获 β =
[34, 7, 9, 11 ]
[11 ] Q= 定义 3 . 给定决策信息系统 S = ( U, C ∪D, V, F) , U 为论域, C 为条件属性集, D 为决策 属性集. 由条件属性和决策属性定义的不可分辨关
系对 U 产生不同的分类. ( 1 ) 根据条件属性对 U 的分类称为条件分类, X2 , …, X | U / C | } . 其中每个成员为 X 的 为 U / C = { X1 , 一个条件类. 根据决策属性对 U 的分类称为决策分 Y2 , …, Y | U / D | } . 其中每个成员为 Y 类, 为 U / D = { Y1 , 的一个决策类. ( 2) 给定条件类 X∈U / C, 令 HX = max
中图法分类号 TP18
The Core of Attributes and Minimal Attributes Reduction in Variable Precision Rough Set
2) CHEN Hao1) ,
1) 2) 3)
2) , 3) YANG JunAn1) ,
ZHUANG ZhenQuan3)
2
VPRS 模型的基本概念和理论
VPRS 是对标准粗糙集理论的一种推广, 它通
5期
陈
昊等: 变精度粗糙集的属性核和最小属性约简算法
1013
D, 其中 POS( C , β ) = ∪ C β Y j 为 β 的相对正域, 此
Y j∈ U / D
外 C β Y j 表示了决策类 Y j 相对于条件属性集 C 的 β 下近似. 近似分类质量度量了论域中给定某一 β 值 时, 可能正确的分类知识在现有知识中的百分比 . D, C β D2 , …, Cβ D | U / D | } , 记 DP ( C , β ) = { C β D1 , DP 为所有决策类 β 下近似构成的集合, 是各决策类 关于 U / C 的概率分布, 称 DP 为决策类下近似分布. D) 定理 1 . 当 0. 5 < β1 β2 1 时, 有 γ β2 ( C , D) . γ ( C ,
β1
图1
γ 与 β 间的关系
所以, 不同的正确分类率对应不同的分类质量 ; 两个正确分类率之间的分类质量是保持不变的 . 根 据以上关系就可以确定信息系统的条件属性相对与 决策属性所有不同的分类质量以及每个分类质量所 对应的参数 β 的范围. 在对集合进行分类时, β 取值 从而将对特定 β 值的包含关系扩展为 β 的区间性, 区间域.
{
{
| [ x] R ∩ X | β , | [ x] R |
}
| [ x] R ∩ X | > 1 -β x] | [ R |
}
X 的 R 上 β 近似. 分别称为 X 的 R 下 β 近似, |[ x] R ∩X | β 正区域: POS β ( X ) = R β ( X ) , β . x] |[ R| |[ x] X| R∩ β 负区域: NEG β ( X ) = U - R β ( X ) , |[ x] R| 1 - β. 1 -β < β 边界域: BND β ( X ) = R β ( X ) - R β ( X ) , |[ x] R ∩X | < β. |[ x] R| 显然, 在 VPRS 模型下, 近似区域与 β 取值有着 十分紧密的关系, 将随着 β 的调整而变化.
( 解放军电子工程学院
合肥 230037 ) 合肥 230026 )
( 安徽省电子制约技术重点实验室
( 中国科学技术大学电子科学与技术系
摘
要
文中深入研究了变精度粗糙集的属性约简问题, 给出了 3 种属性约简的概念, 针对不同概念的属性约简,
分别提出了两种不同的求解变精度粗糙集最小属性约简算法: 基于容差矩阵和属性核的最小约简 . 提出了变精度 对其进行了形式化描述, 说明了变精度粗糙集的属性核真正具备了核的本质特征, 从而更深 粗糙集的属性核思想, 层地提出了基于属性核的启发式约简以求解最小约简 . 理论分析和实例表明, 所提出的两种最小约简算法可以减 小属性约简的搜索空间, 提高约简的效率, 使得变精度粗糙集的属性约简具有了实用性 . 关键词 变精度粗糙集; 属性约简; 属性核; 容差矩阵; 最小约简 DOI 号: 10. 3724 / SP. J. 1016. 2012. 01011
第 35 卷 第 5 期 2012 年 5 月
计 算 机 学 报 CHINESE JOURNAL OF COMPUTERS
Vol. 35 No. 5 May 2012
变精度粗糙集的属性核和最小属性约简算法
陈 昊
1) 2) 3)
1) , 2)
杨俊安
1) , 2) , 3)
庄镇泉
合肥 230037 )
3)
.
属性约简是 VPRS 理 论 最 重 要 的 研 究 内 容 之 , 一 它是得到精简且完备的决策规则集合的前提 . 求 主要原因是属 解 VPRS 的最小属性约简是 NP 问题, 性的组合爆炸. 所以, 减小属性约简的搜索空间, 提 高约简的效率, 对于 VPRS 的属性约简具有重要的 意义. VPRS 的属性 但是, 由于正确分类率 β 的引入, 34, 11]详细给出了 VPRS 三 约简非常复杂. 文献[ 种约简的概念, 分析了 VPRS 模型约简异常出现的 原因, 结合 VPRS 模型特征, 将特定 β 值上的约简扩 展为区间约简, 并从分类质量、 β 相对正域和决策类 3 个层次分别对约简进行了描述, 研究了它们与约 34, 11] 简异常之间的关系. 但是, 文献[ 并没有提出 如何求解 VPRS 的最小属性约简问题. 我们知道, 一 相对 个决策信息系统可能存在多个属性约简集合 , 于决策属性集合和条件属性集合的所有约简的交集 称为属性核. 核中的属性是约简的极限粒度. 用核作 为计算约简集的起点, 可以简化计算约简集, 提高属 . [ 1214 ] 性约简的效率 文献 对经典粗糙集理论的属 性核进行了深入研究. 由于 VPRS 约简的复杂性, 至 今还没有相关文献具体提出其核的计算方法 . 本文深入研究了基于分类率不变 、 正域不变、 下 近似不变的 VPRS 属性约简, 提出了 VPRS 属性核 思想, 指出基于分类率不变、 正域不变的 VPRS 属性 而只有基于下近似不变的 约简不 存 在 属 性 核, VPRS 属性约简才有属性核的存在. 并且针对基于 正域不变的 VPRS 属性约简问题, 提出 分类率不变、 了一种基于容差矩阵的最小属性约简算法 ; 针对基 于下近似不变的 VPRS 属性约简, 在属性核的思想 下, 更深层地提出了基于属性核的启发式约简以求 解其最小约简. 通过理论分析和实例验证, 从算法复 杂度角度考虑, 所提出的两种最小属性约简算法可 以减小 VPRS 属性约简的搜索空间, 提高约简的效 率.
j =1 | U/D|
| X ∩Y j | |X|
.则
H X 为条件类 X 相对所有决策类的最大被包含度, 称 为条件类 X 的包含度阈值. [11 ] Q= 定义 4 . 给定决策信息系统 S = ( U, C ∪D, V, F) , U 为论域, C 为条件属性集, D 为决策 , 属性集. 给定 β∈( 0. 5 1 ] 决策属性集 D 与条件属 性集 C 的 β 近似依赖或基于 β 的分类率为 | POS( C , D, β) | D, . γ( C, β) = | U|