基于粗糙集的互信息求取属性约简的决策算法
基于粗糙集的属性值约简算法研究概要
141科技资讯科技资讯SCIENCE&TECHNOLOGY INFORMATION 2007NO.34学术论坛1引言粗糙集(Rough set [1]理论是一种处理模糊和不确定信息的新型数据分析工具,目前已成为信息科学最活跃的研究领域之一。
基于粗糙集的属性值约简是利用决策逻辑消去决策算法中每条决策规则的不必要条件。
它是针对每条决策规则, 去掉表达该规则的冗余值,以便进一步使决策算法最小化。
属性值约简与属性约简的原理都是删除冗余信息过程,采用的手段都是通过求得核(核值、约简(约简值得到的。
将粗糙集理论应用到数据挖掘技术上,利用粗糙集的知识约简, 精简数据挖掘出的各类规则,对复杂系统的策略研究具有广泛的意义。
本文应用粗糙集理论,分析基于粗糙集的常用属性值约简算法和相应的算法的复杂度, 并结合一种新约简算法实例分析研究,说明这一算法的有效性。
2传统的属性值约简算法定义 1信息系统 S=(U,A,V,F 是一个决策表, 其中 U 为非空有限集合, 称为全域。
全域 U 的元素被称为对象或者实例; A =C ∪ D,C 为条件属性集,即对象的特征;D={d}为决策属性集,称为对象的分类, C ∩ D =; V 是属性值的集合。
设 a 是任一属性,x i 是任一个对象,则 f(x i ,a表示x i 在 a属性的取值。
信息系统可简化表示为 S=(U,A。
属性值约简的思想是:决策表中每一行代表一条决策规则,即计算每一条决策规则的条件属性的核值。
可以采用先将该行中一个条件属性的值从表中删去,然后检查剩下的该行中条件属性值是否可以唯一确定此行中的决策属性,若果不是,那么删去的条件属性值就是该行决策规则的核值。
在求出所有的决策规则的核值后的基础上,通过添加一些条件属性值到核值中,并保证每个条件属性是不可省的。
常用的属性值约简算法有数据分析法和区分矩阵法。
2.1数据分析法其基本思想:在信息系统的决策表中,逐一将属性集 A 中的属性删除,每删除一个属性就检查决策表。
计算机软件与理论专业毕业论文[精品论文]基于粗糙集和决策树的规则提取方法研究
计算机软件与理论专业毕业论文 [精品论文] 基于粗糙集和决策树的规则提取方法研究计算机软件与理论专业毕业论文 [精品论文] 基于粗糙集和决策树的规则提取方法研究关键词:粗糙集理论分明矩阵属性约简决策树规则提取覆盖度摘要:粗糙集理论是一种处理不准确、不确定和不完备信息的有效分析工具,能利用现有知识库中的知识对不完备信息进行近似刻画处理。
属性约简和决策规则提取是粗糙集的两大核心研究内容,但现有的属性约简算法和决策规则提取方法都存在各种不足。
为了获得更精简的属性约简集并有效提取决策规则,本论文首先针对基于分明矩阵的属性约简算法中构造分明函数时存在的元素重复、化简计算量大、矩阵元素长度不一等缺陷进行了改进。
由于决策树技术具有分类速度快、效率高、容易理解等特点,本论文将其与粗糙集理论相结合实现决策规则的提取。
利用上述改进的属性约简算法得到约简集,再利用约简集构造一棵具有多变量多集合的决策树,从而提取决策规则。
为避免不一致信息的干扰,引入准确度和覆盖度两个评价因素对决策规则进行筛选,最后提取有效的决策规则。
通过旋转机械中转子不对中的故障诊断实例对上述改进算法进行验证,实例表明,改进的属性约简算法比改进前的算法在故障规则提取时间上更快,证明了改进算法的有效性;同时也表明用粗糙集与决策树相结合的方法,不仅可以去除噪声,也可以处理不一致信息,最终能得到有效的故障诊断决策规则集。
为了将上述方法更好应用到实践中,本论文在.NET平台上设计和实现了一个基于粗糙集的决策规则提取系统,此系统可对原始决策表进行属性约简、根据约简集构造出决策树进行规则提取、并引入覆盖度对规则进行筛选获得有效规则。
正文内容粗糙集理论是一种处理不准确、不确定和不完备信息的有效分析工具,能利用现有知识库中的知识对不完备信息进行近似刻画处理。
属性约简和决策规则提取是粗糙集的两大核心研究内容,但现有的属性约简算法和决策规则提取方法都存在各种不足。
为了获得更精简的属性约简集并有效提取决策规则,本论文首先针对基于分明矩阵的属性约简算法中构造分明函数时存在的元素重复、化简计算量大、矩阵元素长度不一等缺陷进行了改进。
基于粗集可辨识矩阵的属性频率约简算法
基于粗集可辨识矩阵的属性频率约简算法1 粗集可辨识矩阵粗集可辨识矩阵作为一种不精确、但可以提取较好特征的聚类方法,在数据挖掘任务中得到了广泛的应用。
它的核心是分布式的,也就是说,可以利用大量的类内数据来构建实例和属性之间的关系。
它的主要操作是将内部元素的属性频率应用于矩阵,然后利用频率约简算法把矩阵约简成一个稀疏的矩阵表示。
2 属性频率约简算法属性频率约简算法是一种使用统计学的技术,通过收集类内的特征频率,来构建属性间的关联,有效地对属性进行频率约简,从而获得较精确的特征聚类。
它的基本原理是,根据给定的特征计算来计算每个特征的频率,然后使用一种统计学技术来将它们抽象成一个稀疏的矩阵。
它的主要步骤如下:首先通过计算每个特征出现的频率来填充矩阵,然后使用最大熵原则对矩阵进行约简,最后利用聚类算法将不同的特征聚类,从而获得一种更有效的特征形式。
综上,属性频率约简算法可以使特征简化,矩阵简化,并且可以提取出一种有效的特征。
3 属性频率约简的优势属性频率约简算法的优势有:首先,它可以构建出有效的聚类,从而使分析任务更加容易;其次,它还可以用于建立稀疏的特征,这样可以更好地减少冗余的特征和噪声;最后,它可以有效地处理高维数据中的大量元素,并使其聚类更有效。
4 属性频率约简的应用属性频率约简算法在很多领域都有广泛的应用,如文本分类、图像分类、软件推荐等。
比如,在自然语言处理中,可以使用属性频率约简来提取文本的关键词,从而帮助文本分类。
另外,它还可以用来提取图像中的特征,从而方便图像分类。
此外,它还可以用于大规模数据访问和软件推荐,从而更加有效地实现软件任务。
5 结论从上文可以看出,基于粗集可辨识矩阵的属性频率约简算法可以有效提取出有效特征,并有很多应用。
它可以简化特征,减少运算量,有效地提取特征,从而实现数据挖掘的目的。
另外,属性频率约简的优势可以极大提升数据挖掘的性能,使算法更加有效。
基于粗糙集的属性约简算法
第2 2卷
a= 表示不包含条件属性 a, a =1 0 而 表示包 含条件 属性 a。如果要识别所有 决策不同的记 录 , a( =12 …, ) 则 i ,, 与 ( =12 … , 之 中必然 至少各有 一个 条件属性 不能 ,, ) 被 删除 , 否则新决策表将与原决策表具 有不同的不科技开发项 目( 013) 2 435 0 作者简介 : 赵青杉(92 , 山西五 台 , 州师 范学院计算机 系讲师 , 17 一)男, 人 忻 从事数据挖掘 、 集理论研 究。 粗糙
维普资讯
忻 州 师 范 学 院 学 报
x 关于 R 的下近似集是 U 中根据 已有知识 判断必 定属于 X 的对象所组成 的最大集合 , =U{ ∈ U R1 即』 y / y∈X}
定义 2 设 R C称 R 为 C的 D一 : 约简当且仅 当 R 是 C
属性组合以布尔值表示其中是否包含某个条件属性。 比如
收稿 日期 :0 6 1 5 20 0 —0
的最小约简是 N P—hr a d问题 。解决 这类 问题 的方法一 般
的值, “ 是 “ D( ) 在属性D上的值, 可识别矩阵记为:
f a∈ A : ( 1 ≠ a “ )D( ≠ D( , a “) ( , , “) “)
是启发式搜索 , 进而获得最优解或近似最优解。 本文研究 了可辨识矩 阵的约简 , 从属性依赖度角度给 出
粗糙集理论是波兰数学家 Z P wl .a a k在 2 0世纪 8 o年代 初首先提 出 的一种 可 以分析 模糊 和不 确定 问 题 的数 学理
定义 3 C的所有 必要属 性组成 的集 合称 为 C 的核 , : 记
为 ∞ R C)它是 C的所 有约简 的交 , C RE( =n E( , 即 O C) R D( , 中 R D( 表示 的约 简。 E C)其 E C) 三、 基于可识别矩阵的约简方法 可辨识矩 阵由华 沙大学数学家  ̄o o 出 , wrn提 定义 为系 统 S=( A) U= { 1 “ , “ }a( ) “在属性 a上 U, , “ ,2… , “ 是
基于互信息变化率的属性约简算法
关键 词 :粗 糙 集 ;属 性 约 简 ;互信 息 ቤተ መጻሕፍቲ ባይዱ 变化 率 中图分 类号 :T 3 3 8 文 献标识 码 :A 文章 编号 :17— 12( 02 7 0 4— 3 P9. 0 6 1 12 2 1 )0— 0 0 0
Al o ihm o ti t d to sd n M u ua-n o m ain g rt fr Atrbu eRe uci nba e o t lI f r to
摘 要: 属性 约 简是 粗 糙 集理 论 中的 基本 内容之 一 , 获得 决策 系统 的 最 小相 对约 简是 一 个 NP问题 。 但 文章从 信 息论的 角度 ,结合 微积 分 中的 变化 率 思 想 ,定 义 了一种 基 于 互信 息 变化 率 的 属性 重要 性 度 量 方 法 ,然后 在 此基 础 上 提 出了 两种相 对 属性 约 简的 启发 式 算 法。 最后 ,通过 实验 结果 证 明 该方 法 能有 效 地
0引言
粗糙集理论是波 兰科学 家 P w a a lk教授提 出的一种处 理不确定和不精确性问题的数学工具 , 】 作为人 工智能 的一种新研究方 法。粗糙 集理论不仅为信息科学 和认 知科 学提供了新 的科学逻辑 和研 究方法 , 还为知识发现 、机器学 习、专家系统 、数据 的决 策分 析和支持 、模 式识别等 领域 的信息处 理提供了很有效的理论框架 。同时,其方法在 医学 、金融、气象学 、图像处理 、语音
Absr c :At i t e cin saf nd me t lis n t et e r fr ug e s Bu th sb e pr v d ta ta t t bu erdu to i u a n a suei h h o y o o h s t. ti a e n o e h t r c omp i h nm u e ucin o e ii n tb ei ut ng te mi i m r d to fd cso a l saNP- r r blm . n t a e , c o dig t ec nc p had p o e I hep p r a c r n o t o e t h o ha e rt .an w trb t mpo tn em e s r t o Sd fne r m h iwpon fif r ain te r , fc ng ae e ati u e i ra c a u e me d i e h i d fo te ve ito n m to h o y o a w o ago ih sf rAtrbu eRe ucin a e nd t l rt m o ti t d to b s d on muta —nfr ai n c a ger t epr po e Atl s.t e u li o m to h n a ea o s d. a t h r e e m e t l e u t h w h theag rt sc n rd et ed csons tm fe tv l. xp f n a s lss o t a lo i i r t hm a e uc e ii yse e ciey h Ke ywor : o h e s at b t e ucin; t a nf m ai n c a er t ds r ug s t; t u er d to mu u 1i or to ; h ng a e i r
《基于粗糙集的连续值属性约简算法研究》范文
《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据约简技术在众多领域的应用愈发重要。
粗糙集理论作为一种处理不确定性和模糊性的数学工具,能够有效地进行属性约简,以揭示数据集中的隐含信息。
在传统粗糙集理论中,对连续值属性的处理通常需要进行离散化处理,然而这种处理方法可能会丢失部分有价值的信息。
因此,本文将探讨基于粗糙集的连续值属性约简算法的研究,以期在保持数据信息完整性的同时,实现属性约简。
二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,它通过集合的上、下近似来描述不确定性的知识。
在特征选择和属性约简方面,粗糙集理论能够有效地处理不完整、不精确的数据。
然而,对于连续值属性的处理,传统的粗糙集理论需要进行离散化处理,这可能导致信息丢失。
因此,研究基于粗糙集的连续值属性约简算法具有重要意义。
三、连续值属性约简算法针对传统粗糙集理论在处理连续值属性时可能导致的信息丢失问题,本文提出一种基于粗糙集的连续值属性约简算法。
该算法首先利用核属性集初步约简数据,然后通过构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在保证数据分类性能的前提下,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
四、算法实现与实验分析1. 算法实现:本文所提算法采用Python编程语言实现。
首先,通过计算各属性的核属性集,初步约简数据。
然后,构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在此基础上,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
2. 实验分析:为了验证本文所提算法的有效性,我们采用UCI等公开数据集进行实验。
实验结果表明,本文所提算法在保证数据分类性能的同时,能够有效地约简属性,降低数据维度。
与传统的离散化处理方法相比,本文所提算法在约简效果和计算效率方面均有所提升。
五、结论本文研究了基于粗糙集的连续值属性约简算法。
基于Vague粗糙集信息熵的属性约简算法
基于Vague粗糙集信息熵的属性约简算法李玉超;徐金华【摘要】针对复杂系统分析中的数据信息冗余问题,提出一种基于Vague粗糙集信息熵的属性约简算法.首先,对Vague粗糙集相关概念进行拓展,提出Vague粗糙集的扩展信息熵和广义信息熵的模型;其次,对基于信息熵的属性重要性度量和属性约筒原理进行研究,进而提出了一种基于Vague粗糙集信息熵的监督式属性约简算法;最后,选取UCI数据库对算法性能进行验证,计算结果表明该算法实用有效.%In order to solve data information redundancy in complex system analysis,an attribution reduction algorithm based on information entropy of vague rough set is proposed.Firstly,the concerned concepts of vague rough set are expanded,then the extended information entropy and generalized information entropy are defined.Secondly,the attribution importance measure and attribution reduction principle based on information entropy are studied,and then an attribution reduction algorithm based on generalized information entropy is put forward.Finally,the algorithm quality is verified by applying to the chosen UCI database,and the calculation result has shown the validity and feasibility.【期刊名称】《运筹与管理》【年(卷),期】2017(026)005【总页数】5页(P1-5)【关键词】粗糙集;Vague粗糙集;信息熵;属性约简【作者】李玉超;徐金华【作者单位】中国科学院大学经济与管理学院,北京100049;军事科学院军事战略研究部,北京100091【正文语种】中文【中图分类】O159;C931在军事资源统筹、经济政策调控、工业过程控制等诸多领域,复杂系统问题通常需要综合定量数据和定性知识进行集成分析,但数据和知识中蕴含的信息并不总是有用的,往往不同程度地包含冗余成分。
基于粗糙集理论的决策表属性约简算法
2O 07年 l 月 2 第 2 卷 第 4期 2
山 东 师 范 大 学 学 报 ( 然 科 学 版) 自 Junl f hnogN u a U i rt( a r c ne ora o adn onl n e i N t a Si c) S v sy ul e
是属性值 的集合 , 即属 性 的值 域集 , 中 是 属性 。 其
∈A的值 域 ; 是信 息函数 ,: . 厂 厂 U×A+ , . ,o ∈V 它指定了 U中每一对象 的属性值 . 即厂 ( ) , 我们将具 有条件属 性和决策 属
在决策表 中, 对于属性子 集 Rc A, 可 分辨 关 系 1D( 定 义 为 :N R)={ 不 N R) I D( ( ,Y E U×UI f ,。 ) VoE R, ( ):
便于叙述 , 设决策表 中对象 的个数 为 n 条件属性集 合 C有 m个属性 , , 其值 域为有 限离散集 合 , 用 I 表示集 合 的基 . 并 *I 由决
策属性 D导 出的等价类构成 U的一个划分 : :{ 。 , , , } … , . 在决策表 C 中, D 若一些对象具有相 同的条件属性值而属 于不 同的决策类 , 则称 这些对象为不一致对象 , 否则称为一致 性
- Y ) . D( 是一个等价关 系 , 厂 ,o } 1 ) ( N 对象 在属性集 R上 的等 价类[ ( 义为 : () YI E U, D( }为方 ] 刚定 [ ] :{ y1 R) . y N
便起见 , 在不 产生混淆的情况下用 R代替 1D( . N R)等价关 系 ID( ) 1 D( 中的等价类 分别称 为条件 类 和决策类 . 了 N C 和 N D) 为
但在理论上证 明它们对 最小约简是不完备 的 . 文献 [ ] 5 中利用 区分矩 阵 的特性 , 出的算 法 只是 针对 一致性 的决 策表和在 核 提 值存在 的情况 下才 能适 用 ; 文献 [ ] [ ] 6和 7 虽然算法的效率较高 , 但不一定能 找到系统的最小约简 . 因为在进 行求解决策表属性约简 P过程 中 , 实际上是 寻找使 得所有一致性对象在 P上 也是 一致 性对象 的过程 . 即是说在
基于粗糙集理论的属性约简算法研究
基于粗糙集理论的属性约简算法研究
聂林娣
【期刊名称】《《电脑知识与技术》》
【年(卷),期】2009(005)009
【摘要】数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。
进行数据挖掘的方法很多,粗糙集方法便是其中的主要方法之一。
属性约简算法是基于粗糙集理论的数据挖掘模型中的关键步骤,同时也是粗糙集理论研究中的一个研究重点。
通过对粗糙集理论的属性约简算法的深入研究,本文提出了一种改进的属性约简启发式算法。
该算法建立在可辨识矩阵计算基础上。
改进算法基于Hu的算法与Jelonek算法,在计算可辨识矩阵的基础上,保证最终能够找到决策信息系统的一个约简,同时较Jelonek算法相比,运算时间明显减少。
【总页数】2页(P2428-2429)
【作者】聂林娣
【作者单位】南京航空航天大学信息科学与技术学院江苏南京 210016; 南京工业大学信息科学与工程学院江苏南京 210009
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于粗糙集理论的属性约简算法研究 [J], 史运平
2.基于粗糙集的数据挖掘改进属性约简算法研究 [J], 卢秀芸
3.基于粗糙集理论的遗传属性约简算法研究 [J], 孙玲芳;许锋;周家波;侯志鲁
4.基于属性相容度和重要度的粗糙集属性约简混合算法研究 [J], 付光远;吴汉钊;杨小冈
5.基于差别矩阵的启发式粗糙集属性约简算法研究 [J], 田志军;李芳芳
因版权原因,仅展示原文概要,查看原文内容请购买。
粗糙集理论中的属性约简方法介绍
粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。
属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。
本文将介绍粗糙集理论中的一些常用属性约简方法。
1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。
其基本思想是通过比较不同属性对决策类别的区分能力,来确定最为重要的属性。
具体步骤如下:首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类别的区分能力越强。
然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。
如果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。
2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。
它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。
具体步骤如下:首先,计算属性之间的相关系数或互信息量。
然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。
如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。
3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。
它通过将属性集划分为不同的粒度,来减少属性的数量。
具体步骤如下:首先,将属性集划分为不同的粒度。
每个粒度包含一组相关性较高的属性。
然后,选择每个粒度中最为重要的属性作为初始约简。
接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。
如果添加粒度后的重要性没有显著提高,则停止添加,得到最终的约简属性集。
4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。
基于粗糙集信息系统约简的算法matlab实现.doc
data2.txt的内容decision2的内容delete_A T函数的源代码function y=delete_AT(X,ATi) % 删除X中第i列的属性值%%%测试%X{1}={ 'yes' 'yes' 'nomal' ''}%X{2}={'yes' 'yes' 'high' ''}%X{3}={ 'yes' 'yes' 'very_high' ''}%X{4}={'no' 'yes' 'nomal' ''}%X=X';%ATi=1;%%%%%%%%[m,n]=size(X);[l,k]=size(X{1});for i=1:mX{i}{ATi}='';endy=X;ind函数实现function yy=ind(X) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%寻找不可分辨关系[m,n]=size(X);k=1;ind_AT=cell(m,1);for i=1:mfor j=(i+1):m %潜在问题,如i=m是终止循环,此时若最后一行不为空的话,将漏扫if(~isequal(X{i},'')) %若X{i}不为空ind_AT{k}=union(ind_A T{k},i); %不可等价关系赋初值if(isequal(X{i},X{j}))X{j}=''; %若X{i}==X{j},则删除X{j}ind_AT{k}=union(ind_AT{k},j); %寻找不可等价关系endendendk=k+1;endif(~isequal(X{m},''))ind_AT{k-1}=m; %假如最后一行不为空endyy=ind_AT; %返回不可等价关系my_reduct函数实现function [C,reduct_attr]=my_reduct(X)%%%%%y为约简后的cell数组,reduct_attr为可约去的属性%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%测试数据集%X{1}= {'2' '1' '3'};%X{2}={ '3' '2' '1'};%X{3}={'2' '1' '3'};%X{4}={'2' '2' '3'};%X{5}={'1' '1' '4'};%X{6}={'1' '1' '2'};%X{7}={'3' '2' '1'};%X{8}={'1' '1' '4'};%X{9}={'2' '1' '3'};%X{10}={'3' '2' '1'}; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%X{1}={ 'yes' 'yes' 'nomal' ''}%X{2}={'yes' 'yes' 'high' ''}%X{3}={ 'yes' 'yes' 'very_high' ''}%X{4}={'no' 'yes' 'nomal' ''}%X=X';%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%约简[m,n]=size(X);[p,k]=size(X{1});ind_AT=ind(X);%寻找不可等价关系reduct_attr=[]; %可约去的的属性for i=1:kB=delete_A T(X,i);if(isequal(ind_A T,ind(B))) %若IND(AT-{a}=IND(AT)reduct_attr=union(reduct_attr,i); %则寻找到可约去的属性X=B;endend%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%剔除重复的行k=1;for i=1:mif(~isequal(ind_A T{i},[]))C_i=ind_A T{i,1}(1);C{k,1}=X{C_i}; %返回约简后的信息系统k=k+1;endendpos函数实现function pos_d=pos(X,D)%求决策系统的正域函数ind_D=ind(D); %求决策属性D的不可等价关系[m,n]=size(ind_D);ind_X=ind(X); %求信息系统属性X的不可等价关系low=[];for i=1:mfor j=1:mif(~isequal(ind_X{i},[])&&~isequal(ind_D{j},[]))if(ismember(ind_X{i},ind_D{j}))low=union(low,ind_X{i});%由性质Pos_AT(d)=low_AT(X1)Ulow_AT(X2)U...endendendendpos_d=low;my_test函数实现function y=my_test()clc;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件file = textread('data2.txt','%s','delimiter','\n','whitespace','');[m,n]=size(file);for i=1:mwords=strread(file{i},'%s','delimiter',' ');words=words';X{i}=words;endX=X';%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,A T]=my_reduct(X); %信息系统的约简ind_AT=ind(X); %信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统disp('约简后的信息系统为:');[m,n]=size(B);for i=1:mdisp(B{i});end%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件file = textread('decision2.txt','%s','delimiter','\n','whitespace','');[m,n]=size(file);for i=1:mwords=strread(file{i},'%s','delimiter',' ');words=words';D{i}=words;endD=D';%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %决策系统的正域约简X_D=X;[l,k]=size(X_D{1});pos_d=pos(X_D,D);%正域for i=1:m %%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%%if(~ismember(i,pos_d))B{i}=''; %若约简后的信息系统B{i}不在正域中则删除该行endend%将在正域规则下约简过的信息系统B连接决策系统D[m,n]=size(B);for i=1:mif(~isequal(B{i},''))B{i}{1,k+1}=D{i}{1};endend%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %显示约简决策系统disp('约简后的决策系统为:');[m,n]=size(B);for i=1:mdisp(B{i}); endmatlab输出的结果。
基于互信息的模糊粗糙集属性约简(1)
因此 p(X i ) =
亦即可以 表示为 p(X i ) =
∑ µX (x k )
k =1
i
U
U
,
i = 1,2,
, n ;同理 p(Yj ) =
∑ µY (xk )
k =1
j
U
U
, j = 1,2,
, m 于是
式(1)变成如下形式:
H (P ) = −∑ p(X i )log p(X i )
i =1 n n
{X1, X 2, , xn } , P,Q 为U 上的两个等价关 ,Ym } 。其中 ∀Xi ∈ X ,Yj ∈ Y
[4] 中提出在决策表中添加某个属性所引起的互信息的变化
大小可以作为该属性重要性的度量。 设 T = (U ,C ∪ D,V , f ) 为一个决策表, 且R ⊆C 。 那么, 在 R 中添加一个属性 a ∈ C 之后互信息的增量为: I (R ∪ {a }; D ) − I (R; D ) = H (D | R) − H (D | R ∪ {a }) (3) 这里, I (x ; y ) 表示 x 与 y 的互信息; H (y | x ) 表示已知 x 时,
Abstract: Fuzzy-rough attribute reduction is one of the important topics in the research on fuzzy-rough set theory. In this paper, the information entropy is generalized in rough set so that it could be used to value the importance of attribute under fuzzy circumstance. A new heuristic algorithm based on mutual information for fuzzy-rough attribute reduction is introduced and illustrated with a simple example. Key words: Fuzzy-rough set; Attribute reduction; Fuzzy decision table; Mutual information
基于粗糙集理论的约简、决策规则与模式
r d c i n a dd cso l e e ai n Ba e n d s e n b l y marc s dd c so t c s f u i d f e u t r to u e , i e u to n e i inr eg n r to . u s do ic r i i t t e e i in mar e , o r n s r d cs ei r d c d — i i a n i k o a n e
基于粗糙集理论的约筒、决策规则与模式
安 利 平 , 全 凌 云
(.南开 大 学 商 学 院 ,天津 3 0 7 ;2 河 北工 业 大学 管理 学 院 ,天津 3 0 3) 1 001 . 010
摘 要 : 粗糙 集理论 的概 念性 框架之 一 就是 利用不 可分辨 关 系和布 尔推 理作 为数 据 约简和获 取 决策规 则的基础 。在 分辨矩 阵和 决策矩 阵概 念 的基础上 , 出将 约 简分 为 4类 , 提 即信 息表 的对 象约 简、 息表 的全局 约简 、 策表 的对 象约 简和 决策表 的 信 决 全局 约 简,其 中决策表 的对 象约简对应 决策规 则 。从模 式 的角度对 约 简和 决策规 则进行 了分析 ,利用决 策矩阵和 决策 函数 ,
i i to u e . W i ea o eme t n dr s l . i i p s i l e eo f c e t e rsi s Th s l r l s ae t x p e Sn dc d r t t v ni e ut hh b o e s t S o sb et d v l p e i u it . o i n h c er u t a ei u t e s l r d h a e a l. wi n m
基于粗糙集理论的属性约简算法
基于粗糙集理论的属性约简算法作者:周彤来源:《电子技术与软件工程》2017年第07期摘要在数据处理和智能信息中,基于粗糙集理论的属性约简是非常具有研究价值的。
本文介绍了几种主要的属性约简算法,对他们的优缺点进行了概括和分析,并提出了进一步的研究内容。
【关键词】粗糙集;属性约简;正区域;信息熵;差别矩阵粗糙集理论作为一种新的数学工具,是用于处理模糊、不确定,不完备信息的。
它的主要思想是不需要提供知识库以外的任何信息,通过知识约简,所得到的新知识库分类能力不变。
目前在机器学习、数据挖掘、智能控制,模式识别等多个领域,甚至几乎所有的信息科学的分支中,粗糙集理论都取得了较好的研究成果。
在粗糙集理论中,属性约简是非常的重要的内容。
通常情况下,信息系统的属性集一般是很大的,但是对知识发现来说,并不是所有的属性都一样重要,有的属性绝对必要,有的属性相对必要,有的属性绝对不必要,如何在众多的属性中把不重要甚至冗余的属性去掉而不影响知识的分类,是属性约简的目的。
经过属性约简,知识得到简化,而人们所需要的基本信息也没有丢失。
人们一直都在寻求的目标是求得信息系统的一个最小属性约简,或者求得信息系统的所有属性约简。
但遗憾的是属性约简的搜索优化过程是多约束多目标的,所以作为很早就已经被学者证明了的NP-Hard问题,属性约简的研究是非常具有挑战性的,是很值得我们去研究的。
1 几种主要的属性约简算法的研究经过国内外学者几十年的不断努力,研究出很多属性约简算法,它们大部分是启发式算法。
1.1 基于正区域的属性约简算法基于正区域的属性约简算法是Pawlak提出来的一种启发式算法,也称为Pawlak属性重要度属性约简算法。
这种方法的基本思路是首先定义一个属性重要度的函数,计算出各个属性的重要度,按属性重要度的值从大到小选取属性依次并入约简集合中。
这种求解方法具有重大的理论指导意义。
该算法要求考察条件属性集的幂集中的所有元素,优点是它找到的一定是最优属性约简或者次优属性约简,缺点是可能寻解失败即不一定能找到,而且此方法计算速度慢,因为它的时间复杂度是指数级,不容易在计算机上实现,所以在实际应用中受到限制。
基于集成学习的决策粗糙集特定类属性约简算法
第38卷第6期 计算机应用与软件Vol 38No.62021年6月 ComputerApplicationsandSoftwareJun.2021基于集成学习的决策粗糙集特定类属性约简算法李 明1 甘秀娜2 王月波31(石家庄铁道大学四方学院经济管理系 河北石家庄051132)2(石家庄铁路职业技术学院组织人事部 河北石家庄050041)3(河北银行股份有限公司信息技术部 河北石家庄050000)收稿日期:2019-10-13。
河北省文化艺术科学规划课题(HB16 YB0164)。
李明,讲师,主研领域:云计算。
甘秀娜,讲师。
王月波,工程师。
摘 要 属性约简是粗糙集理论的重要研究内容。
目前决策粗糙集的属性约简大多基于全局的决策类,并且都是采用单一的约简准则。
针对这一问题,在决策粗糙集下提出一种特定类别属性约简算法。
针对特定的决策类,给出一种属性约简的定义,在保证决策区域极大化的同时尽可能地降低决策区域划分时的代价;利用集成学习的方法设计出相应的启发式属性约简算法。
通过在UCI数据集上与已有的算法进行实验比较,验证了该算法具有更高的属性约简性能。
关键词 粗糙集 属性约简 特定类 决策区域 决策代价中图分类号 TP18 文献标志码 A DOI:10.3969/j.issn.1000 386x.2021.06.042CLASS SPECIFICATTRIBUTEREDUCTIONALGORITHMFORDECISION THEORETICROUGHSETSBASEDONENSEMBLELEARNINGLiMing1 GanXiuna2 WangYuebo31(DepartmentofEconomicManagement,ShijiazhuangTiedaoUniversitySifangCollege,Shijiazhuang051132,Hebei,China)2(OrganizationandPersonalDepartment,ShijiazhuangInstituteofRailwayTechnology,Shijiazhuang050041,Hebei,China)3(InformationTechnologyDepartment,BankofHebeiCo.,Ltd.,Shijiazhuang050000,Hebei,China)Abstract Attributereductionisanimportantresearchcontentforroughsettheory.Atpresent,attributereductionofdecision theoreticroughsetsismostlybasedonglobaldecisionclasses,andallofthemadoptasinglereductioncriterion.Tosolvethisproblem,thispaperproposesaclass specificattributereductionalgorithmunderdecision theoreticroughsets.Adefinitionofattributereductionwasgivenforspecificdecisionclasses.Thisattributereductionensuredthemaximizationofdecisionregionsandreducedthecostofdecisionregiondivisionasmuchaspossible.Then,aheuristicattributereductionalgorithmwasdesignedbyusingensemblelearningmethod.BycomparingwiththeexistingalgorithmsonUCIdatasets,itisprovedthattheproposedalgorithmhashigherperformanceofattributereduction.Keywords Roughset Attributereduction Specificclass Decisionregion Decisioncost0 引 言粗糙集模型是目前处理不确定性数据的一种重要的机器学习和数据挖掘理论[1],近年来受到学者们的广泛关注和研究。
一种基于粗糙集的近似质量求取属性约简的决策算法
一种基于粗糙集的近似质量求取属性约简的决策算法
徐德友;胡寿松
【期刊名称】《控制与决策》
【年(卷),期】2003(18)3
【摘要】提出一种基于粗糙集的近似质量求取属性约简的算法。
该算法以集合近似的质量为迭代准则 ,以所有条件属性为初始约简集合 ,通过逐步缩减来求取约简 ,保证了所求取的约简对问题的分类能力不会减弱。
同时给出了该算法的时间复杂度分析。
【总页数】4页(P313-316)
【关键词】粗糙集;决策表;集合近似;约简;近似质量
【作者】徐德友;胡寿松
【作者单位】南京航空航天大学自动化学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于近似分类质量的决策表属性约简算法 [J], 杨成福;舒兰
2.一种基于粗糙集的决策系统属性约简算法 [J], 代建华;李元香
3.基于粗糙集的互信息求取属性约简的决策算法 [J], 殷允强;黄晓昆;张振良
4.基于代价敏感和近似分类质量的决策粗糙集属性约简研究 [J], 陈婉清;秦亮曦
5.一种新的决策粗糙集最小化决策代价属性约简算法 [J], 徐道磊;陈培林;唐轶轩;吴尚;路宇;卞显福
因版权原因,仅展示原文概要,查看原文内容请购买。
粗糙集理论中属性相对约简算法_张腾飞
粗糙集理论中属性相对约简算法张腾飞,肖健梅,王锡淮(上海海事大学电气自动化系,上海200135) 摘 要: 粗糙集理论是近年来发展起来的一种有效地处理模糊和不确定性知识的数学工具,而求核与约简是粗糙集理论中的两个重要问题,现已证明求决策表所有约简和最小约简是一个典型的NP 难题.本文在分析粗糙集理论的基础上,发现了正区域的一些有用性质,提出了一种利用正区域直接求核的方法,并利用正区域的启发式信息给出了两种相对约简算法.关键词: 粗糙集;求核;相对约简;决策表中图分类号: TP18 文献标识码: A 文章编号: 0372-2112(2005)11-2080-04Algorithms of Attribute Relative Reduction in R ou gh Set TheoryZHANG Teng -fei ,XI AO Jian -mei ,W ANG Xi -huai(Depart me nt of El ectr ical and Aut omati on ,Shanghai Maritime Unive rs ity ,Shanghai 200135,C hina )Abstract : Rough set is a valid mathematical theory developed in recent years ,which has the abilit y to deal with imprecise ,un -certain ,and vague in formation .The core and reduction of attributes are two imp ortant topics in the research on rough set theory .It has been proven that computing all the reductions and the optimal (minimal )reduction of decision table is a NP -hard problem .In this paper ,Rough set theory is deeply investigated ;a number of useful properties of the positive region are discovered .Based on the above findings ,we present a calculation algorith m for core directly .And then ,two algorithms for relative reduction based on the positive re -gion are designed .Key words : rough set theory ;finding core ;relative red uction ;decision table1 引言 粗糙集理论是波兰数学家Z .Pawlak 教授提出来的一种新型的处理模糊和不确定性知识的数学工具[1,2].经过二十多年的研究和发展,粗糙集理论已经在决策与分析、故障诊断、模式识别、数据挖掘、系统建模、动态目标识别及跟踪等领域取得了很大的成功[3~6].粗糙集理论是以不可分辨关系为基础,通过引入上近似(upper approximation )集和下近似(lower approximation )集来描述一个集合.信息系统的求核与约简是粗糙集理论和应用研究的焦点问题.信息系统分为无决策信息系统和有决策信息系统,在实际应用中大多为有决策信息系统,用决策表来表示,它是粗糙集研究的主要对象,因此决策表信息系统的求核与约简的研究更为重要.由于求所有属性约简是NP 难题,因此到目前为止,还没有一个高效的求最佳与所有属性约简的算法.不过,在实际应用中,往往只要求出某种次优的属性约简就可以了.为此,人们已提出了若干个属性求核和约简算法,其中应用较多的是基于差别矩阵以及在此基础上的一些改进算法[7,8];文献9给出了基于信息论的方法,用信息熵作为选择重要属性的启发式信息;文献[10]基于变精度粗糙集理论,利用可辨识属性矩阵研究了不协调目标信息系统的知识约简算法;文献[11]将包含度概念和证据理论引入到粗糙集理论中,建立了包含度与粗糙集数据分析中的度量之间的关系,这几种方法的主要缺点是空间复杂度高,计算繁琐,不适用大规模数据.经过深入分析粗糙集理论,本文发现了正区域的一些性质,提出了一种直接求核的方法,并利用正区域的启发式信息给出了两种属性相对约简算法.实验结果表明,本文的方法简单有效.2 粗糙集的基本理论 决策表是一类特殊而重要的知识表达系统,多数决策问题都可以用决策表形式来表达,这一工具在粗糙集理论中起着重要的作用.决策表可以根据知识表达系统定义如下:设S =〈U ,R ,V ,f 〉为一知识表达系统,U 是论域,R =C ∪D ,C ∩D =Υ,C 称为条件属性集,D 称为决策属性集.V收稿日期:2004-03-01;修回日期:2004-09-25基金项目:国家自然科学基金(No .60074004);上海市教委科学研究重点项目(No .04F A02);上海市重点学科建设项目(No .T0602)第11期2005年11月电 子 学 报ACTA ELECTRONICA SINICA Vol .33 No .11Nov . 2005为属性值的集合,f:U×R※V是一个信息函数,它指定U中每一个对象x的属性值.具有条件属性和决策属性的知识表达系统称为决策表.定义1 在信息系统S中,对于属性子集P R,不可分辨关系定义为:IND(P)={(x,y)∈(U×U:a∈P,a(x)=a(y)}显然IND(P)也是等价关系,对象x在属性集P上的等价类[x]IN D(P)={y:y∈U,xIND(P)y}.U/R表示R的所有等价类.定义2 给定信息系统决策表S=〈U,R,V,f〉,对于每个子集X U和不可分辨关系P,X的下近似集和上近似集可以分别定义为:RX=∪{y∈U/R Y X}RX=∪{y∈U/R Y∩X≠Υ}.下近似集RX也称为X的R正区域,记为:PO S R(X).众所周知,知识库中知识(属性)并不是同等重要的,甚至其中有些知识是冗余的.这就需要知识约简.所谓知识约简就是在保持分类能力不变的条件下,删除其中不相关或不重要的知识.定义3 设R为一族等价关系,r∈R,如果IND(R)=IND(R-{r}).则称r为R中不必要的;否则称r为R中不必要的,不可以约简的.如果每一个r∈R都为R中必要的,则称R为独立的;否则称R为依赖的.设P R,若P是独立的,且IND(P)=IND(R).则称P为R的一个约简;R的约简往往不止一个,所有约简的交集称为核,记作Core(R).在信息系统决策表的应用中,需要研究条件属性的分类相对于决策属性的分类之间的关系,因此相对约简和相对核的概念十分重要.定义4 设P和Q为U中的等价关系,Q的P正区域记为PO S P(Q),即P OS P(Q)=∪X U/QPXQ的P正区域是U中所有根据分类U/P的信息可以准确划分到关系Q的等价类中去的对象集合.定义5 设P和Q为U中的等价关系,r∈P,如果PO S P (Q)=PO S(P-{r})(Q),则称r为P中Q不必要的,否则r为P 中Q必要的.如果P中每个r都为Q必要的,则称P为Q独立的.设R P,如果R为Q独立的,且P OS R(Q)=P OS P(Q).则称R为P的Q约简.P的所有Q约简的交集称为P的Q核.记为Co re Q(P). P的Q核是P中所有Q必要的原始关系构成的集合.3 属性求核算法 在粗糙集理论中,相对核与约简都是基于正区域而定义的.对于信息系统决策表S=〈U,R,V,f〉,其中U为论域,R =C∪D,设属性a i∈C,由不可分辨关系的定义可知关系C 要比(C-{a i})对U的分类细,再由定义4,显然有正区域的如下性质:性质1 PO S(C-{ai})(D)PO S C(D).定理1 a i是C中的一个属性,若满足PO S(C-{ai})(D)=PO S C(D)则a i不是C相对于决策属性D的核属性.证明:由定义5可知,若上式成立,则a i就是C中相对于决策属性D不必要的,显然,a i不是核属性.定理2 C中的一个属性a i是C相对于决策属性D的核属性的充分必要条件是PO S(C-{ai})(D)≠PO S C(D)证明:充分性.如果P OS(C-{ai})(D)≠POS C(D),根据定义5,a i 就是C中必要的,即为不可以约简的,为了说明属性a i为核属性,采用反证法.假设a i为非核属性,根据核的定义,至少有一个约简P 不包含属性a i.由于P为C的约简,且不包含a i,由性质1可得:P OS P(D)PO S(C-{ai})(D)POS C(D)根据约简的定义可知必然有P OS P(D)=P OS C(D)所以:PO S(C-{ai})(D)=PO S C(D)这与条件PO S(C-{ai})(D)≠PO S C(D)相矛盾.充分性得证.必要性.如果P OS(C-{ai})(D)=PO S C(D),由定理1可知a i一定为非核属性.所以如果a i为核属性,则PO S(C-{ai}) (D)≠PO S C(D).证毕.根据上述两个定理,我们可以得到一个基于正区域的直接求核算法.算法1 信息系统决策表相对核计算方法.输入:信息系统决策表S=〈U,R,V,f〉,R=C∪D是属性集合,C={a i i=1, 2,…,m}和D={d i i=1,2,…,n}分别称为条件属性集和决策属性集;输出:信息系统决策表相对核Cor e;Step1 求P OS C(D);Step2 令Co re=Υ;Step3 对条件属性集C中的每个属性a i,如果PO S(C-{ai})(D)≠PO S C(D)则Co re=Core∪{a i}.Step4 结束,集合Core为输出.4 属性相对约简算法 在决策表中不同的属性可能具有不同的重要性,为找出某些属性的重要性,通常的方法是从决策表中去掉这个属性,2081第 11 期张腾飞:粗糙集理论中属性相对约简算法考察没有该属性后分类的变化情况.若去掉该属性相应变化较大,则说明该属性比较重要;反之,说明该属性不是太重要,即重要性较低.这里我们应用正区域作为属性重要性的启发式信息,把pos =PO S C (D )-PO S (C -{r })(D )的大小作为属性重要性的判断条件.下面给出两个基于正区域的决策表约简算法.算法2是以核集为基础,逐步选择比较重要的属性加入该集合,直到满足条件POS Redu ct (D )=POS C (D ),Reduct 即为约简.算法3是把整个条件属性集C 作为一个约简,利用正区域的启发式信息逐步将该集合中不必要的属性约去,但仍满足上述条件,保证得到的属性集合Reduct 为约简.算法2 基于核的相对约简算法.输入:信息系统决策表S =〈U ,R ,V ,f 〉,R =C ∪D 是属性集合,C ={a i i =1,2,…,m }和D ={d i i =1,2,…,n }分别称为条件属性集和决策属性集;输出:信息系统决策表相对约简Reduct ;Step 1 计算决策属性D 对于条件属性C 的正区域PO S C(D );Step 2 计算条件属性C 相对于决策属性D 的核属性集Co re D (C );并令Reduct =Co re D (C );Rem =C -Cor e D (C ).Step 3 若Reduct =Υ,直接转下一步;若Reduct ≠ ,计算PO S Red uct (D ).如果P OS Redu ct (D )=PO S C (D ),则终止,Reduct 为约简.否则转下一步;Step 4 从Rem 中选择属性a i ,使下式的值最大:pos =PO S Rem (D )-PO S (Rem -{a i})(D )Reduct =Reduct ∪{a i }Rem =Rem -{a i }Step 5 若PO S Reduct (D )=PO S C (D ),则终止,输出约简为Reduct ;否则转Step 4.算法3 信息系统决策表相对约简计算方法.输入:信息系统决策表S =〈U ,R ,V ,f 〉,R =C ∪D 是属性集合,C ={a i i =1,2,…,m }和D ={d i i =1,2,…,n }分别称为条件属性集和决策属性集;输出:信息系统决策表相对约简Reduct ;Step 1 计算决策属性D 对于条件属性C 的正区域PO S C(D );Step 2 对每个属性a i 计算po s =PO S C (D )-PO S (C -{a i})(D );Step 3 令Reduct =C ;将属性a i 按po s 从小到大的顺序排列,对每个a i 执行操作:若PO S (Reduct -{a i})(D )=PO S C (D ),则属性a i 应约简,Reduct =Reduct -{a i };否则a i 不能被约简,Redu ct 不变;Step 4 结束.由粗糙集理论知道,任何决策表的相对核都是唯一的,而且包含在所有的相对约简之中,算法2把相对核作为约简算法的起点,逐步增加对决策分类能力较大的属性,直到满足由相对约简定义的条件,所以基本可以保证得到最小的约简;算法3则是以条件属性全体为基础,在保证对决策表分类不变的前提下,逐步消去对决策分类能力较小的属性,算法简单,只需对各个属性扫描一遍即可.5 实例分析 为了验证上述算法的有效性,本节选择了一个已知核与约简的Wong -Ziarko 决策表[12]和UCI 机器学习数据库[13]中的三个决策表进行计算,实验结果如表1所示.表1 求核与约简算法结果决策表实例数条件属性数算法1算法2算法3Wong -Ziarko decis ion table 219{D ,I }{A ,D ,E ,I }{B ,D ,F ,G ,I }BUP A liver disorders 3456{}{A ,B ,E }{C ,D ,E }Glas s Identification 21410{}{A }{A }Ionosphere Databas e35134{}{4,18,24}{30,33,34} 实验结果表明,算法2和3对于属性相对约简是有效的,并且大多情况下可以得到最小约简.对于Wong -Ziarko 决策表,算法3虽然没有得到最小约简,但也得到了次优约简.6 结论 决策表核的确定和属性约简算法是粗糙集理论研究的焦点问题,本文在深入理解粗糙集基本概念的基础上,发现了正区域的一些有用性质,在此基础上给出直接利用正区域的信息求属性核,并给出了两个求属性相对约简的算法,实验结果表明了算法的有效性.由于利用正区域作为属性约简的启发式信息,也仅是从等价关系分类能力的角度对属性重要性进行粗略度量,并不能严格分辨出各个属性的重要程度.因此,如何利用粗糙集理论知识来度量属性重要性以便可以简单的求取最小约简还有待进一步的研究.参考文献:[1] Pawlak Z .Rough sets [J ].International Journal of Computer and Information Science ,1982,11(5):341-356.[2] Pawlak Z .A rough set view on Bayes 'theorem [J ].Interna -tional Journal of Intelligent Systems ,2003,18(5):487-498.[3] Tay F ,et al .Fault diagnosis based on rough set theory [J ].Engineering Applications of Artificial Intelligence ,2003,16(1):39-43.[4] Zhang T F .Dynamic system modeling based on rough sets and RBF neural networks [A ].Proc of the 5th World Congress onIntelligent Control and Automation [C ].Hangzhou ,2004.185-189.[5] 徐捷等.基于粗糙集理论的动态目标识别及跟踪[J ].电子学报,2002,30(4):605-607.Xu Jie ,et al .Dynamic objects identifying and tracing based2082 电 子 学 报2005年on rough set theory[J].Acta Electronica Sinica,2002,30(4):605-607.(in Chinese)[6] 张文修,等.Rough集理论与方法[M].北京:科学出版社,2001.[7] Hu X H,et al.Learnin g in relational databases:A rough setapproach[J].International Journal of Computational Intelli-gence,1995,11(2):323-338.[8] 刘文军,等.基于可辨识矩阵和逻辑运算的属性约简算法的改进[J].模式识别于人工智能,2004,17(1):119-123.[9] 王国胤,等.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766.[10] Mi J S,et al.Approaches to knowledge reduction based onvariable precision rough set model[J].Information Sciences,2004,159(3):255-272.[11] Zhang M,et al.A rough set approach to knowledge reductionbased on inclusion degree and evidence reasoning theory[J].Expert Systems,2003,20(5):298-304.[12] Wong S K M,et al.On optimal decision rules in decision ta-bles[J].Bulletin of Polish Academy of Science,1985,33(11-12):693-696.[13] /mlearn/MLRePOSitory.html[DB/OL].作者简介:张腾飞 男,1980年出生于河南省,博士研究生,主要从事粗糙集和神经网络的研究.肖健梅 女,1962年出生于辽宁省大连市,教授,主要从事智能控制,智能信息处理等方面的研究.王锡淮 男,1961年出生于江苏省淮安市,博士,博士生导师,主要从事粗糙集理论,复杂系统建模与控制等方面的研究.E-mail:wxh@.2083第 11 期张腾飞:粗糙集理论中属性相对约简算法。
基于粗糙集的属性约简算法
基于粗糙集的属性约简算法夏春艳1李树平2刘世勇3牡丹江师范学院计算机科学与技术系,黑龙江省牡丹江市 157012The Approach for Attributes Reduction Based on Rough Set TheoryAbstract:This paper researches attributes reduction of Rough Set Theory. Put forward a heuristic attribute reduction algorithm based on the table of compatibility information and incompatible information at same time. The experimental results show that the algorithm is verified to be more feasible and effective.Key words: Rough Set Attribute Reduction Attribute dependencies摘要:本文主要研究基于粗糙集理论的属性约简算法。
提出了一种同时适合于相容信息表和不相容信息表的启发式约简算法,并通过算例验证了该算法的可行性和有效性。
关键词:粗糙集属性约简属性依赖度中图分类号:TP311 文献标识码:A0 引言粗糙集理论是由波兰华沙理工大学Z.Pawlak教授在1982年提出的,是一种研究不精确、不确定性知识的数学工具[1]。
该理论已经在数据挖掘、机器学习、过程控制、决策分析和模式识别等领域得到了广泛的应用,并取得了良好的效果。
属性约简就是在保持分类能力不变的前提下,通过对知识的化简导出问题的决策或分类规则,是粗糙集理论中的一个重要研究课题[2]。
它的意义在于可以删除冗余信息,形成精简的规则库以便人们(或者机器人)作出快速、准确的决策。
粗糙集中基于信息量的决策表属性约简算法
粗糙集中基于信息量的决策表属性约简算法
李立;张燕平
【期刊名称】《安庆师范学院学报(自然科学版)》
【年(卷),期】2007(13)4
【摘要】高效的属性约简算法是粗糙集理论应用于知识发现的基础,要在令人可接受的时间内获得约简的通常做法是基于启发式的约简方法.本文提出了决策表中决策属性集相对条件属性集的条件信息量的概念,同时用知识的条件信息量定义了属性的重要性,在此基础上,提出了一种新的基于信息量的属性约简算法,该算法的时间复杂度为O(|C|3|U|2),通过实例分析,表明该算法是有效的.
【总页数】4页(P57-59,98)
【作者】李立;张燕平
【作者单位】安徽大学,计算机科学与技术学院,安徽,合肥,230039;安徽广播电视大学,安庆分校,安徽,安庆,246000;安徽大学,计算智能与信号处理实验室,安徽,合肥,230039;安徽大学,人工智能研究所,安徽,合肥,230039
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.信息量不完备决策表属性约简的一种新算法 [J], 张清国;郑雪峰;张明德;于义科
2.基于粗糙集的不相容决策表属性约简算法 [J], 梁凤兰;秦川;施化吉
3.粗糙集理论中决策表属性约简的信息量表示 [J], 林镇飚;桂现才
4.基于粗糙集理论的决策表属性约简算法 [J], 朱颖翠;马英红
5.基于决策表的粗糙集属性约简算法改进及应用 [J], 商传磊; 张悟移; 陈俊营; 李建国
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
{ Y1 , …, Ym }
证明 :因 B 为 C相对约简 , 由引理 1, H ( D | B ) =
H ( D | C ) ; 又由定义 4, I ( B , D ) = H ( D ) - H ( D | B ) ; I ( C, D ) = H ( D ) - H ( D | C ) , 故 I ( B , D ) I ( C, D ) . =
12
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
第 1 期 殷允强等 : 基于粗糙集的互信息求取属性约简的决策算法
X i∈U | IND (D )
=
U
C —
( X i ) 正域包含着基于条件属性所得的等
价类能够归入基于决策属性所得的等价类的所有对 象集合 . 设 R ∈ C, 若 PO SC ( D ) = POSC \ { R } ( D ) , 则 称 R 是 C 中 D 可省略的 . 对于 [ 1 ] 中提出的信息熵 表示 , 若 H ( D | C ) = H ( D | C \ { R } ) , 则称 R 是 C中
殷允强 黄晓昆 张振良
1 2 1
3
( 1. 昆明理工大学 理学院 ,云南 昆明 650093; 2. 红河学院 数学系 ,云南 蒙自 661100 )
摘 要 在文献 [ 1 ]提出的决策表属性约简的信息熵表示的基础上 , 给出了一种基于互信息求取属性约简的算法 . 同时 给出了该算法的时间复杂度分析 ,并举例验证了所提出算法的有效性和实用性 . 关键词 粗糙集 ; 决策表 ; 约简 ; 信息熵 ; 互信息 【 中图分类号 】 O159 【 文献标识码 】 A 【 文章编号 】 1672 —8513 (2006) 01 - 0012 - 03
云南民族大学学报 (自然科学版 ) 第 15 卷
( 1 ) 初始化 : B = C / /C 是条件属性集合 ( 2 ) 计算 σ = I (B , D ) ( 3 ) fo r each R ∈ C ( 4 ) 计算 I ( B \ { R } , D ) ( 5 ) if ( I ( B \ { R } , D ) = σ) then ( 6 ) B = B \ { R } ( 7 ) end if
C — ( X ) = { x ∈ U | [ x ]c Α X } C ( X ) = { x ∈ U | [ x ]c ∩ X ≠Φ }
2 基于互信息的约简求取算法
对于决策表 S, 设 U | IND ( C ) = { X 1 , …, X n } , 则 U | IND ( C ) 的 C 正 域 定 义 为 POSC ( D )
( 1 ) H (D | Q ) = H (D | C ) ; ( 2 ) Q 是相对于决策属性集 D 独立的 ( Π R ∈ C, H ( D | C ) = H ( D | C \ { R } ) ) .
… … …
Xn P ( Xn ຫໍສະໝຸດ Ym( Y: P ) =
… P ( Ym )
| Xi | | Yj | 其中 P ( X i ) = , i, …, n; P ( Yj ) = , | U | | U | j = 1, …, m.
法以所有的条件属性作为初始约简集合 , 以集合的 互信息不变为前提 , 逐步缩减求取约简 . 算法 1:求取约简
13
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
X n } : X i Α U , X i ≠ < , X i ∩ X j ≠ < 对 i ≠ j ( i, j = 1,
2, …n ) , ∪ X i = U.
i =1
n
1. 1. 2 决策表
在粗糙集理论中 , 假定现实世界中的信息是用 一张表表示的 , 称为信息表 . 本文研究一种特殊的信 息表 , 称为决策表 . 决策表是如下形式的四元组 S =
第 15 卷 第 1期 2006 年 1 月
云南民族大学学报 (自然科学版 ) Journal of Yunnan Nationalities University (Natural Sciences Edition )
Vol . 15 No. 1 Jan. 2006
基于粗糙集的互信息求取属性约简的决策算法
有了知识的概率分布定义后 , 根据信息论就可 以定义知识的熵与条件熵的概念 . 定义 2 知识 (属性集合 ) P 的熵 H ( P ) 定义为
n
证明 :略 . (详见 [ 1 ] ) 定理 1 对于决策表 S = { U , C ∪ D, B , V, f} , 且论域 U 是在 C 上相对于 D 一致的 ( POSC ( D ) =
( X: P ) = X1 P ( X1 ) Y1 P ( Y1 ) X2 P ( X2 ) Y2 P ( Y2 )
为 C中 D 可省略的时 , 称 C为 D 独立的 . 当 C ′ =C C 为 D 独立的 , 且 C ′ 中的所元素都是 D 可省略时 ,
3
称 C′ 为 C 相对约简 . 从分类角度看 , 相对约简就是 用一种分类来表达另一种分类必不可少的属性集 合 . 此时条件属性集合 C与决策 D 的互信息 I ( C, D ) 和条件属性集合 C ′ 与决策 D 的互信息 I ( C ′ ,D) 应 该是相同的 . 本文在给出上述事实之前 , 首先给出如 下引理 : 引理 1 设 U 是一个论域 , C是 U 的一个条件属 性集合 , D 为决策属性集合 , 且论域 U 是在 C 上相对 于 D 一致的 ( POSC ( D ) = U ) , 则 Q Α C是 C相对于 决 D 的一个约简的充分必要条件为 :
D 可省略的 (证明详见 [ 1 ] ) . 当 C 中每个元素都不
1. 2 信息熵及互信息
设 U 是一个论域 , P, Q 为 U 上的两个等价关系 簇 (属性集 ) , 可以认为 U 上任一等价关系簇是定义 在 U 上的子集组成的 σ代数上的一个随机变量 , 其 概率分布可通过如下方法来确定 . 定义 1 设 P, Q 在 U 上导出的划分分别为 X 和 Y, X = { X1 , …, X n } , Y = { Y1 , …, Ym } , 则 P, Q 在 U 的子集组成的 σ代数上的概率分布为 :
f: U × Q ϖ V 表示一个信息函数 , 它指定 U 中每一个
注 : I ( A, D ) 用来表征条件属性集合 A 对决策 D 的重要性 .
对象的属性值 . 1. 1. 3 集合的近似 对于论域 U 上任一子集 X, X不一定能用知识库 中的知识来精确的描述 , 这时就用包含在条件属性 集合中的信息构造两个集合来逼近 X, 这两个集合 分别称为 X 的 C - 下近似和 C - 上近似 , 用 — C和 C表 示 , 其定义如下 :
( U, Q , V, f ) 其中 : U 是论域 ; Q = C ∪ D , C是条件属
性集合 , D 是决策属性集合 ; V是 Q 中属性值的集合 ;
收稿日期 : 2005 - 04 - 24 作者简介 : 殷允强 ( 1980 ~) ,男 ,山东济宁人 ,硕士研究生 ,主要从事模糊集与粗糙集的学习与研究 .
Decision A lgorithm for Finding Reduct Based on Inter - information of Rough Set
Yin Yunqiang Huang Xiaokun Zhang Zhenliang
1 2 1
( 1. School of Science, Kunm ing University of Science and Technology, Kunm ing 650093, China; 2. Departm ent of M athematics, Honghe College,M engzi 661100, China ) Abstract: The rough set theory is studied, and an algorithm for finding attribute - oriented reduct based on en2 tropy infor m ation for attribute - oriented reductgiven in reference [ 1 ] is raised. The tim e comp lexity of the algorithm is analyzed and an examp le is investigated to verify this algorithm . The results show this algorithm can find the at2 tribute - oriented reduct effectively w ith less computational effort . Key words: rough set; decision table; reduct; entropy infor m ation; m utual information
U ) , 若 B Α C 是 C 相对约简 , 则有 I ( B , D ) = I ( C, D ) . 即约简后的互信息保持不变 .
H ( P) = -
∑P ( X ) log ( P ( X ) ) .
i i i =1
定义 3 知识 (属性集合 ) Q ( U | IND ( Q ) ) = 相 对 与 知 识 (属 性 集 合 ) P ( U | IND ( P ) ) = { X1 , …, X n } 的条件熵 H ( Q | P ) 定义为 :