基于随机抽样的模糊粗糙约简
基于粗糙集和模糊聚类方法的属性约简算法
{) d 表示 。 B C Y ,EU , ) 若 C , xY ,≠y 称二 元关 系ID ( ,d ) _ N = B {}=
{ ,) U U I ()d y 或者口 B,()Ⅱy } ( Y ∈ x d = ( ) ∈ 口 = ()为不可分辨
关系。
1 . 粗 糙 集 2
京 : 子 工 业 出 社 .0 8 电 2o . ( 任编 辑 : 责 王 钊)
[ ] 杜 芳 芳. 析基 于 We 1 浅 b数 据 挖 掘 的 电子 商务 网站 架构 []电子 J.
商务 .0 0 2 . 2 1( )
[ ] 苗夺谦 , 道 国. 2 李 粗糙 集理 论 、 法 与应 用 [ . 算 M] 北京 : 清华 大 学 出
性口∈A的值域
。 一 单 射 , 论 域 u中的 任一 元 素取 属 为 使
性。 V 中的某 一 唯一 值 。 在 A由条件 属性 集 合C 决策 属性 集合 和 D组 成, 和D满 足 CLD A, C J = CND d,则 称S 决策 系 统 ,用( =? 为
CuD) 示 ; 表 当决 策 属 性 集 合 只 有 一 个 元 素 时 , 常 用( 也 CU
_
方 法4算术平 均最小 法 :
负 域 ,n ( = 一 X成 为 的曰边 界 域 。 b ) B
_
公 )_宰 式 ( : , _ L
隶属 函数 。
I JN () l L IDB
称 元 集 粗 为 素对 合 的 糙
:
1 m
(I ) x+ k
e方 法 5几 何 平 均 最 小 法 :
若 I D( =N B a )a∈B,称B为 中 的 不 必 要 属 性 , N B)I D( 一{} , 。 反
基于粗糙集理论的评价指标属性约简
基于粗糙集理论的评价指标属性约简摘要:粗糙集理论是一种对数据进行约简的有效工具。
文章运用粗糙集理论对评价指标进行了属性约简,并根据各指标包含信息量的大小确定权重,构建了基于粗糙集理论的指标综合评价模型。
标签:指标评价;粗糙集;属性约简引言粗糙集(Rough set)是由波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定信息的方法。
粗糙集理论把知识看做关于论域的划分,以不可分辨关系为基础,在保持分类能力不变的前提下,通过知识属性约简,导出问题的决策分类规则。
属性约简是指对知识库中冗余繁杂的信息进行精简,以较少的数据进行较多信息的表达,从而方便对数据的处理和分析。
根据其客观性和自身特点,其用在评价指标属性约简具有可行性,众多学者和专家们对该方法在各个领域运用的可行性方面进行了研究。
1 粗糙集理论1.1 信息表。
S=(U,R,V,f)表示为信息表,其中U是一个非空集合,称为论域,U={x1,x2,x3……xn},其中xi表示对象;R表示对象的属性集合,R=C∪D,即对象的属性集合是条件属性(C)和决策属性(D)的并集;V是属性值的集合,Va是属性a∈R的值域;f是U×R→V的一个信息函数,它为每个属性a赋予一个属性值,即a∈R,x∈U,fa(x)∈Va。
1.2 等价关系。
对于任意a∈A(A中包含一个或多个属性),A?R,x∈U,它们的属性值相同,即fa(x)=fa(y)成立,称对象x和y是对属性A的等价关系,表示为IND(A)={(x,y)|(x,y)∈U×U,?a∈A,fa(x)=fa(y)}。
1.3 等价类。
在U中,对属性集A中具有相同等价关系的元素集合称为等价关系IND(A)的等价类,表示为[x]A={y|(x,y)∈IND(A)}。
1.4 属性约简。
给定一个信息表IT(U,A),若有属性集B?A,且满足IND(B)=IND(A),称B为A的一个约简,记为red(A),即B=red(A)。
基于模糊粗糙集混合属性约简的相关研究
基于模糊粗糙集混合属性约简的相关研究摘要:随着数据量的不断增大和复杂性的提高,属性约简在数据挖掘和机器学习领域中变得越来越重要。
然而,传统的属性约简方法在处理混合属性时存在一定的局限性。
为了克服这些限制,本文提出了一种基于模糊粗糙集的混合属性约简方法,并对其进行了研究和分析。
关键词:属性约简;混合属性;模糊粗糙集;数据挖掘1. 引言属性约简是数据挖掘和机器学习中的一个重要问题,它通过删除冗余和无关的属性,提高数据处理的效率和准确性。
然而,传统的属性约简方法往往只适用于处理离散或连续属性,对于混合属性的处理存在一定的困难。
2. 模糊粗糙集理论模糊粗糙集理论是一种处理不确定性和模糊性的数学工具,它可以有效地处理混合属性。
该理论将属性划分为模糊等价类,通过模糊相似度度量属性之间的相似性。
在混合属性约简问题中,模糊粗糙集理论可以更好地反映属性之间的关系。
3. 混合属性约简算法基于模糊粗糙集的混合属性约简方法主要包括以下步骤:首先,将混合属性转化为模糊等价类;然后,计算属性之间的模糊相似度;接着,根据相似度选择重要的属性;最后,通过删除冗余和无关的属性实现属性约简。
4. 实验结果与分析本文使用UCI机器学习库中的数据集进行了实验,比较了基于模糊粗糙集的混合属性约简方法与传统方法的性能。
实验结果表明,该方法在处理混合属性时具有较好的效果,能够提高数据挖掘和机器学习的准确性和效率。
5. 结论本文提出了一种基于模糊粗糙集的混合属性约简方法,并对其进行了研究和分析。
实验结果表明,该方法在处理混合属性时具有较好的效果。
在未来的研究中,我们将进一步优化该方法,提高其在实际应用中的适用性。
粗糙集约简方法
粗糙集约简方法简介粗糙集约简方法是数据挖掘领域中一种常用的特征选择方法。
在众多特征选择方法中,粗糙集约简方法以其简单快速、易于理解的特点而受到广泛关注。
它通过粗糙集理论的基本原理,对原始数据集进行约简,从而得到一个更精简的特征子集,提高数据挖掘效率。
粗糙集理论基础粗糙集理论是由波兰学者Pawlak于1982年提出的,是一种处理不确定性信息的方法。
它基于集合论和近似推理,并尝试解决数据集中存在的不确定性和模糊性问题。
在粗糙集理论中,将数据集划分为对象的集合和属性的集合,并使用近似关系来描述属性与对象之间的关系。
约简的概念与意义约简是指通过对原始数据集进行操作,得到一个特征子集,该子集包含了原始数据集中的重要、有用的特征信息,而丢弃了无关、冗余的特征信息。
约简的过程就是在保持数据集中信息完整性和准确性的基础上,减少特征的数量,提高数据挖掘的效率。
约简所起到的作用有以下几个方面: - 减少特征的数量,提高数据挖掘算法的效率和性能; - 去除冗余信息,减少数据挖掘模型的复杂度; - 提高数据可视化效果,减少特征数量可以降低维度,更方便数据的可视化和分析。
粗糙集约简方法的步骤粗糙集约简方法一般包括以下几个步骤:1.确定属性集合和决策集合:首先确定数据集中的属性集合和决策集合。
属性集合是指数据集中待选择的特征集合,决策集合是指用于分类或预测的结果集合。
2.计算属性间的依赖度:使用粗糙集理论中的依赖度指标,计算属性集合中各个属性之间的依赖程度。
具体来说,可以计算属性集合中每个属性与决策集合之间的依赖度,衡量该属性对于分类结果的贡献程度。
3.确定依赖度阈值:根据需求和实际情况,确定一个依赖度阈值。
该阈值可以根据经验选择,也可以通过交叉验证等方法进行确定。
4.生成约简的特征子集:根据依赖度阈值,从属性集合中选择具有较高依赖度的特征,构成约简的特征子集。
5.验证约简的质量:使用约简的特征子集,进行数据挖掘任务,比如分类、预测等。
基于模糊粗糙逻辑的属性约简与规则提取
于模 糊 粗 糙 逻 辑 的 属性 约 简 的 方 法 ,最 后 根 据 约 简 提 取规 则并 计 算 其 精 度 . 关键 词 :模 糊粗 糙逻 辑 ;属 性 约 简 ; 规则 提 取 中 图分 类 号 :O1 9 5 文 献标 识码 :A 文 章 编 号 : 17 2 1 0 00 —3 80 6 43 6 ( 1)50 3 — 2 4
Ab ta t a ig d cs n atiue a u z o g o i, h eaie p st ed man frte sr c :T kn e ii t b t saf z y r u h l gc ter lt o i v o i o o r v i h
meh d g v n b s d o u z o g g c F n l , u e x r c i n we ed n n sa c rc sa s t o i e , a e n f z y r u h l i. i a l r l se ta t r o ea d i c u a y wa lo o y o t
l 属性 约简
11 基本 概念 . 定义 11 … .. 1
设模糊信 息系 统 S=( A V , , A=( a … a } , , , ) 以, 为属 性集 ,I I 为解释 函数 , 为模 糊
逻 辑公 式 , 在解释 函数I I 下 为 一 模糊集 ,a 1 … ) 一 ( , 2 相对于 论域 中关于 模糊集 的下近 似和上 近
第3 O卷 第 5 期
2 1 0 0年 l 0月
辽 宁工业 大学学报 ( 自然科 学版)
J u n l f io igUn v ri f e h oo y Naua ce c io ) o r a a nn iest o c n lg ( trl in eEdt n oL y T S i
粗糙集理论中的属性约简方法介绍
粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。
属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。
本文将介绍粗糙集理论中的一些常用属性约简方法。
1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。
其基本思想是通过比较不同属性对决策类别的区分能力,来确定最为重要的属性。
具体步骤如下:首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类别的区分能力越强。
然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。
如果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。
2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。
它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。
具体步骤如下:首先,计算属性之间的相关系数或互信息量。
然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。
如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。
3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。
它通过将属性集划分为不同的粒度,来减少属性的数量。
具体步骤如下:首先,将属性集划分为不同的粒度。
每个粒度包含一组相关性较高的属性。
然后,选择每个粒度中最为重要的属性作为初始约简。
接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。
如果添加粒度后的重要性没有显著提高,则停止添加,得到最终的约简属性集。
4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。
模糊集与粗糙集的简单入门
模糊集与粗糙集的简单入门1.前言Zadeh在1965年创立了模糊集理论[1],Pawlak在1982年又给出了粗糙集的概念[2],模糊集理论和粗糙集理论都是研究信息系统中只是不完全,不确定问题的两种方法,是经典集合论的推广,它们各自具有优点和特点,并且分别在许多领域都有成功的应用,如模式识别、机器学习、决策分析、决策支持、知识获取、知识发现等.模糊理论是简历集合的子集边缘的病态定义模型,隶属函数多数是凭经验给出的,带有明显的主观性;粗糙集理论基于集合中对象间的不可分辨行的思想,作为一种刻画不完整想和不确定性的数学工具,它无需任何先验信息,能邮箱分析处理不精确、不完整等不完备信息,对不确定集合的分析方法是客观的.两种理论之间有着密切的关系和很强的互补性,同事粗糙集理论和模糊集理论可以进行结合,产生粗糙模糊集理论和模糊粗糙集理论,并且发挥着不同的优势.本文在已有的模糊集理论和粗糙集理论的基础之上,分析和总结了模糊集和粗糙集理论,对二者进行了全面的比较.2.基本概念这部分将集中介绍模糊集和粗糙集的基本概念及其性质.2.1模糊集模糊理论[3][4]是一种用以数学模型来描述语意式的模糊信息的方法.模糊概念也是没有明确外延的概念.根据普通集合论的要求,一个对象对应于一个集合,要么属于,要么不属于,二者必居其一;而模糊集则通常用隶属函数表示模糊概念.2.1.1模糊集合的基本定义定义 1 设X是有限非空集合,称为论域,X上的模糊集A用隶属函数表示如下:→→A X x A x:[0,1],()其中()A x表示元素x隶属于模糊集合A的程度,记X上的模糊集合全体为F X.()模糊集合的数学表示方式为A x A x X where A x=∈∈{(,(x))|},()[0,1]2.1.2模糊集合的运算设,A B为X上的两个模糊集,它们的并集,交集和余集都是模糊集,且其隶属函数分别定义为=∀∈A B A x B x x Xmax{(),()}A B A x B x x X=∀∈min{(),()}⌝=-A A12.1.3 模糊集合的关系A xB x作为模糊集合之间关系的表示方式,是以集合所存在的隶属函数(),()集合之间的关系表示的.(1)模糊集合之间的相等:=⇔=∀∈A B A x B x x X()()(2)模糊集合之间的包含:⊂⇔≤∀∈()()A B A x B x x X2.1.4 截集与支集定义2 对于()A F X ∈和任意[0,1]λ∈,定义{}()A x A x λλ=≥{}()s A x A x λλ=>分别为A 的λ截集和A 的λ强截集.特别的,当1λ=时,1A 为A 的核;当0λ=时,0s A 为A 的支集.表示为如下:{}1()()1core A A x A x ==={}0()()0s support A A x A x === 则根据上面截集的概念,模糊子集通过λ截集就变成了普通集合.截集就是将模糊集合转化为普通集合的方法,截集的概念是联系模糊集合与普通集合之间的桥梁.2.2 粗糙集2.2.1粗糙集合的基本定义(1)粗糙集合提出的背景由于经典逻辑只有真假二值之分,而在现实生活中存在许多含糊的现象,并不能简单的用真假值来表示.于是,在1904年,谓词逻辑的创始人G.frege 提出了含糊(vague)一词,他把含糊现象归结到边界线上.1965年,L.A. Zadeh 提出Fuzzy Sets 的概念,试图通过这一理论解决G.frege 的含糊概念.Zadeh 的FS 方法是利用隶属函数描述边界上的不确定对象.1982年,波兰华沙理工大学 Z.Pawlak 教授针对G. frege 的边界线区域思想提出了Rough Sets 理论.Pawlak 的RS 方法:把无法确认的个体都归属于边界区域,把边界区域定义为上近似集和下近似集的差集.(2)粗糙集合的定义粗糙集理论特点是不需要预先给定默写特征或属性的数量描述,直接从给定的问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,找出问题内在规律.定义 2 设(,,,)K X A V f =是一个知识库,其中X 是一个非空集合,称为论域.A C D =是属性的非空有限集合,C 为D 的决策属性,C D =Φ,a V 是属性a A ∈的值域,:f X A V ⨯→是一个信息函数,它为每个对象赋予一个信息值.定义 3 设X 是一个有限的非空论域,R 为X 上的等价关系,等价关系R 把集合X 划分为多个互不相交的子集,每个子集称为一个等价类,用[]R x 来表示,[]{}R x y X xRy =∈,其中x X ∈,称,x y 为关于R 的等价关系或者不可分辨关系.论域X 上的所有等价类的集合用/X R 来表示.2.2.2 上、下近似集,粗糙度(1)上下近似集的定义定义4 对于任意的Y X ⊆,Y 的R 上、下近似集分别定义为(){/|}R Y Z X R Z Y =∈≠Φ(){/|}R Y Z X R Z Y =∈⊆集合()posR Y 称为集合Y 的正域,()()posR Y R Y =;集合()()negR Y X R X =-称为集合Y 的负域;集合()()()bnR Y R Y R Y =-称为Y 的R 边界域.集合的不确定性是由于边界域的存在,集合的边界域越大,精确性越低,粗糙度越大. 当()()R Y R Y =时,称Y 为R 的精确集;当()()R Y R Y ≠时,称Y 为R 的粗糙集,粗糙集可以近似使用精确集的两个上下近似集来描述.(2) 粗糙度粗糙度是表示知识的不完全程度,由等价关系R 定义的集合X 的粗糙度为:()1R RX X RX ρ=-其中X ≠Φ,X 表示集合X 的基数.3 研究对象、应用领域及研究方法3.1模糊集的研究对象、应用领域及研究方法(1) 模糊集的研究对象模糊集研究不确定性问题,主要着眼于知识的模糊性,强调的是集合边界的不分明性.(2) 模糊集的应用领域模糊集理论[5]广泛应用与现代社会与生活中,主要有以下几个方面:消费电子产品、工业控制器、语音辨识、影像处理、机器人、决策分析、数据探勘、数学规划以及软件工程等等.(3)研究方法模糊集理论的计算方法是知识的表达和简化.从知识的“粒度”的描述上来看,模糊集是通过计算对象关于集合的隶属程度来近似描述不确定性;从集合的关系来看,模糊集强调的是集合边界上的病态定义,也即集合边界的不分明性;从研究的对象来看,模糊集研究属于同一类的不同对象间的隶属关系,强调隶属程度;从隶属函数来看,模糊集的隶属函数反映了概念的模糊性,而且模糊集的隶属函数大多是专家凭经验给出的,带有强烈的主观意志.3.2粗糙集的研究对象、应用领域及研究方法(1)粗糙集的研究对象[6]粗糙集理论研究不确定性问题,基于集合中对象间的不可分辨性思想,建立集合的子集边缘的病态定义模型.(2)粗糙集的应用领域粗糙集理论在近些年得到飞速发展,在数据挖掘,模式识别,粗糙逻辑方面取得较大进展.与粗糙集理论相关的学科主要有以下几方面:人工智能,离散数学,概率论,模糊集理论,神经网络,计算机控制,专家系统等等[7].(3)粗糙集的研究方法粗糙集理论的研究方法就是对知识的含糊度的一个刻画,其计算方法主要是连续特征函数的产生.粗糙集理论研究认知能力产生的集合对象之间的不可分辨性,通过引入一对上下近似集合,用它们的差集来描述不确定的对象.从集合的关系来看,粗糙集强调的是对象间的不可分辨性,与集合上的等价关系相联系;从研究的对象来看,粗糙集研究的是不同类对象组成的集合关系,强调分类;从隶属函数来看,粗糙集的粗糙隶属函数的计算是从被分析的数据中直接获得,是客观的[8].4.基本研究内容4.1 模糊集理论研究的主要内容模糊集理论研究的内容很广泛,主要包括以下几方面:模糊控制,模糊聚类分析,模糊模式识别,模糊综合评判,模糊集的扩展.4.1.1 模糊控制 自从Zadeh 发展出模糊集理论之后,对于不明确系统的控制有极大的贡献,自七十年代以后,便有一些实用的模糊控制器相继的完成,使得我们在控制领域中又向前迈进了一大步,在此将对模糊控制理论做一番浅介[6].模糊控制利用模糊集理论的基本思想和理论的控制方法.在传统的控制领域里,控制系统动态模式的精确与否是影响控制优劣的最主要关键,系统动态的信息越详细,则越能达到精确控制的目的.然而,对于复杂的系统,由于变量太多,往往难以正确的描述系统的动态,于是工程师便利用各种方法来简化系统动态,以达成控制的目的,但却不尽理想.换言之,传统的控制理论对于明确系统有强而有力的控制能力,但对于过于复杂或难以精确描述的系统,则显得无能为力了.所以,模糊集理论便被用来处理这些控制问题.4.1.2模糊聚类分析模糊聚类分析的研究是基于模糊等价关系和以及模糊分类上的[4].主要有以下的定理以及定义.定理1 令R 是一个模糊等价关系,并且01αβ≤<≤,则对y X ∀∈有[][]R R y y βα⊆.定义 5 设数据集12{,,,}n X x x x =,且12,,,c A A A 是其一个分类,若该分类满足以下条件:(1) 对k ∀,存在i 使得k i x A ∈;(2) 对所以i 均有i A ≠Φ;则称该分类是X 的一个模糊划分.基于上面的理论,我们可以用一个划分矩阵()ik c n D d ⨯=来刻画数据集的分类,其中0 , 1 , k i ik k i x A d x A ∉⎧=⎨∈⎩ 定义6 对于上面的矩阵D ,若其满足以下三个条件:(1){}0,1ik d ∈;(2)11, c ik i d k ==∀∑;(3)10, n ik k d i =>∀∑;则称D 是X 上的一个精确的c -划分矩阵.定义7 设c 和n 时两个给定的正整数若模糊矩阵()ik c n D d ⨯=满足以下三个条件:(1) []0,1ik d ∈;(2) 11, c ik i d k ==∀∑;(3) 10, n ik k d n i =<<∀∑;则称D 为X 上的一个模糊的c -划分矩阵.定义8 设12{,,,}m n X x x x =⊆,12{,,,}m c V v v v =⊆,()ik c n D d ⨯=()c n ≤是X 上的一个模糊的c -划分矩阵,则 ()211(,)c n p ik i k i k J D V d v x ===-∑∑(p ∈)称为模糊划分上的一个聚类准则函数,这里()12()21[]m i i x x===∑ 定义9 如果对于任意的12{,,,}mn X x x x =⊆,存在****12{,,,}m c V v v v =⊆以及模糊的c -划分矩阵*D 使得 **(,)(,)J D V J D V ≤对所有的12{,,,}m n X x x x =⊆以及模糊的c -划分矩阵D 都成立,则称*D 为最优模糊c -划分矩阵,*V 为一个模糊聚类中心.4.1.3模糊模式识别模糊模式识别是利用模糊集理论对行为的识别.根据识别模式的性质,可以将模式识别分为两类:具体事物的识别,如对文字,音乐,语言等周围事物的识别;抽象事物的识别,如对已知的一个论点或者一个问题的理解等.下面介绍一些基本的定理及定义.定义10 清晰度增强因子:令()A F X ∈是X 上的一个模糊集,定义另外一个模糊集(2)()()I A F X ∈,其中 2(2)22() , ()[0,0.5]()()12(1()), ()(0.5,1]A x A x I A x A x A x ⎧∈⎪⎨--∈⎪⎩ 称(2)()()I A x 为清晰度增强因子.4.1.4模糊综合评判模糊综合评判是利用模糊集理论对一个事物进行评价.具体的过程为:将评价目标看成是由多种因素组成的模糊集合X ,再设定这些因素所能选取的评审等级,组成评语的模糊集合(称为评判集V ),分别求出各单一因素对各个评审等级的归属程度(称为模糊矩阵D ),然后根据各个因素在评价目标中的权重分配,通过计算(称为模糊矩阵合成),求出评价的定量解值.定义11 设:[0,1][0,1]n f →满足以下几个条件:(1)1212(,,,)n n x x x x f x x x x ====⇒=; (2)(1)(2)(1)(2)111111(,,,,,,)(,,,,,,)i i i i i n i i i n x x f x x x x x f x x x x x -+-+≤⇒≤,i ∀; (3)12(,,,)n f x x x 对每个变量都是连续的;则称f 为n -维综合函数. 常用的n -维综合函数主要有加权平均函数,几何平均函数,单因素决策函数,显著因素准则函数等等.4.2粗糙集理论研究的主要内容粗糙集理论作为一种数据分析处理理论,无论是在理论方面还是在应用实践方面都取得了很大的进展,展示了它光明的前景,因而其研究内容以及领域也是非常广泛的,主要包括以下几方面:变精度粗糙集,集值信息系统,粗糙集理论的应用,支持向量基等.4.2.1变精度粗糙集变精度粗糙集模型[9]是Pawlak 粗糙集模型的扩充,它是在基本粗糙集模型的基础上引入了β(00.5β≤<),即允许一定的错误分类率存在,这一方面完善了近似空间的概率,另一方面也有利于用粗糙集理论从认为不相关的数据集中发现相关的数据.当然,变精度粗糙集模型的主要任务是解决属性间无函数或不确定关系的数据分类问题.当0β=时,Pawlak 粗糙集模型是变精度粗糙集模型的一个特例.4.2.2集值信息系统集值信息系统[5]是信息系统的一般化模型,在实际应用中信息系统随着对象的变化而不断地动态变化.(,)S X AT =是信息系统,其中X 是对象的非空有限集合,AT 是属性的非空有限集合,对于每个a AT ∈有:a a X V →,其中a V 称为a 的值域.每个属性子集A AT ⊆决定了一个不可区分关系()ind A :(){(,)|,()()}ind A x y X X a A a x a y =∈⨯∀∈=.关系()ind A (A AT ⊆)构成了X 的划分,用/()X ind A 来表示.对于一个对象,一些属性值可能是缺省的.为了表明这种情况,通常给定一个区分值(即空值 null value )给出这些属性定义12 如果至少有一个属性a AT ∈使得a V 含有空值,则称S 是一个不完备信息系统[5],否则称它是完备的,我们用*表示空值.设S 是一个不完备信息系统,a AT ∈使得a V 含有空值*时,并且该空值*的取值为一个集合,该集合的元素是这个属性中其他所有可能值的集合,则S 就是集值信息系统.下面是一个不完备信息系统的例子:4.2.3 支持向量基支持向量机(Support Vector Machine,SVM)[10][11]是Corinna Cortes和Vapnik8等于1995年首先提出的.SVM起初是广泛应用在神经信息处理系统(Neural Information Processing Systems,NIPS), 但是,现今,SVM 已经在所有的机器学习研究领域中起着重要作用.SVM是一种学习系统,他利用高维空间中的线性分类器,在这个空间中建立一个最大的间隔超平面,这里的最大是基于最优化理论的.广义的SVM起源于统计学习理论[12].5.模糊集与粗糙集的结合由上面的讨论可知,模糊集理论与粗糙集理论各具特点,两种理论有着很强的联系与互补性,因此将两者的特点结合起来形成研究不完全数据集的有效方法.此外,通过模糊聚类和粗糙集两种方法进行属性的对象约简和属性约简,可以使数据得到横向和纵向两个方向上的约简,对象约简是引入了相似性的概念进行模糊聚类的过程,对象约简改变了标准粗糙集模型的不可分辨关系的确定条件;由于粗糙集所处理的都是离散数据,所以在数据分析中需要应用模糊聚类或隶属函数离散化,进而应用粗糙集理论属性约简、提取规则.所以结合模糊集、粗糙集理论能够有效地分析数据,提高生成规则的可信性和和合理性,倒出可信的规则集.5.1模糊粗糙集及粗糙模糊集结合模糊集和粗糙集两种理论可以得到模糊粗糙集及粗糙模糊集模型,当知识库中的知识模块是清晰的概念,而被描述的概念是一个模糊的概念,人们建立粗糙模糊集模型来解决此类问题的近似推理;当知识库中的知识模块是模糊知识,而被近似的概念是模糊概念时,则需要建立模糊粗糙集模型,也有人将普通关系推广称模糊关系或者模糊划分而获得模糊粗糙集模型.定义13 设R 是X 上的一个等价关系,()A F X ∈,[0,1]λ∈,模糊集A 、A λ以及s A λ的上下近似分别为:(){|[]},(){|[]}RR R A x X x A R A x X x A λλλλ=∈≠Φ=∈⊆ (){|[]},(){|[]}s s s s R R R A x X x A R A x X x A λλλλ=∈≠Φ=∈⊆(){|[]},(){|[]}RR R A x X x A R A x X x A =∈≠Φ=∈⊆ 可以验证,当A 是X 上的经典集合时,上面所介绍的上下近似就是Pawlak 意义下的上下近似. 定义14 设R 是X 上的等价关系,A 是X 的一个模糊集合,()A F X ∈,则A 关于R 的上下近似分别定义如下:()sup{()|[]},()inf{()|[]}R R R R A x A y y x A x A y y x =∈=∈可以看出,模糊集()A F X ∈关于等价关系R 的上下近似仍为模糊集合,若 R R A A =,则称A 是可定义的,否则称A 是粗糙集,称R A 是A 关于近似空间(,)X R 的正域,称~R A 是A 关于(,)X R 的负域,称(~)R R A A 为A 的边界.R A 可以理解为对象x 肯定属于模糊集A 的隶属程度;R A 理解为对象x 可能属于模糊集A 的隶属程度,同样可以验证,当A 时X 上的经典集合时,就是Pawlak 意义下的上下近似.在标准粗糙集模型中引入变精度,提高了相对近似精度,而在粗糙模糊集引入变精度,得到新定义:()sup{()|[]()1}R R A x A y y x A y ββ=∈∧>-()inf{()|[]()}R R A x A y y x A y ββ=∈∧≥这样下近似集合中元素隶属度降低,而上近似的隶属度提高,提高了相对精度.5.2粗糙隶属函数粗糙隶属函数式借助模糊理论来研究粗糙集理论的方法,通过粗糙隶属度函数可以将粗糙集理论与模糊集理论联系起来,建立一种粗糙集理论与模糊集理论的关系,并得到一些性质.定义15 设R 是论域X 上的一个相似关系,若A 是X 上的一个模糊集合,则A 关于R 的一个下近似()R A 和上近似()R A 分别定义为X 上的一个模糊集合,称为粗糙隶属度函数[5],定义为 |[]|()|[]|R R A x A x x = 粗糙隶属函数表示的是一个模糊概念,一般不是Zadeh 意义下的隶属函数.粗糙隶属函数()A x 表示的是x 的等价类[]R x 隶属于A 的程度.由定义14和定义15可以得到:模糊集A 的下近似且关于等价关系R 的等价类隶属于A 的程度为1;模糊集A 的上近似且关于等价关系R 的等价类隶属于A 的程度为大于0小于1,因此有:性质1 1(){|()1,/}Core A A x A x x X R RA ===∈=0(){|()0,/}s support A A x A x x X R ==>∈(){|0()1,/}bnR A RA RA x A x x X R =-=<<∈(){|()0,/}negR A X RA x A x x X R =-==∈性质2 []()()R y x A x A y ∈⇒=[]()1R x A A x ⊆⇒=[]()0R x A A x =Φ⇒=[] []()(0,1)R Rx A and x A A x ⊄≠Φ⇒∈ 6 总结本文系统的介绍了模糊集理论与粗糙集理论,二者研究的主要内容,以及二者的结合的相关理论.是对本学期所学的模糊计算和粗糙计算的一个简单的小结,也是我本人对该学科的一个简单的入门.参考文献[1] L.A.Zadeh, Fuzzy sets[J], Information and Control, 1965,8:338-353.[2]Pawlak Z, Rough sets[J], International Journal of Computer andInformation science, 1982,1(11):341-356.[3]胡宝清,模糊理论基础,武汉:武汉大学出版社,2010.[4]张文修,模糊数学基础,西安:西安交通大学出版社,1984.[5]张文修,粗糙集理论与方法,北京:科学出版社,2001[6] /view/87377.htm[7]K. Y. Chan, C.K. Kwong, B.Q. Hu, Market segmentation and ideal pointidentification for new product design using fuzzy data compression and fuzzy clustering methods[J], Applied Soft Computing, 2012, 12, 1371-1378.[8]Z.Pawlak, Rough sets and fuzzy sets [J], Fuzzy sets and Systems,1985,17,99-102.[9]Beynon M.Reducts within the variable precision rough sets model: afurther investigation[J], European Journal of Operational Research, 2001,134:592-605.[10]邓乃扬,田英杰,数据挖掘中的新方法:支持向量基,北京:科学出版社,2004.[11]邓乃扬,田英杰,支持向量基-理论、算法与拓展,北京:科学出版社,2009.[12]V.Vapnik, Statistical Learning Theory, John Wiley & Sons, 1998.。
粗糙集理论的核心算法及其在实际问题中的应用
粗糙集理论的核心算法及其在实际问题中的应用粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它能够在信息不完备或不准确的情况下进行决策和推理。
本文将介绍粗糙集理论的核心算法,并探讨其在实际问题中的应用。
一、粗糙集理论的核心算法粗糙集理论的核心算法主要包括粗糙集近似算法和粗糙集约简算法。
粗糙集近似算法是粗糙集理论最基本的算法之一,它用于将不完备或不准确的数据集划分为若干个等价类。
该算法基于属性重要性的概念,通过计算属性的正域和反域来确定属性的重要性,从而实现数据集的划分。
粗糙集约简算法是粗糙集理论中的关键算法,它用于从原始数据集中提取出最小的、具有相同决策规则的子集。
该算法通过计算属性的依赖度来确定属性的重要性,从而实现数据集的约简。
二、粗糙集理论在实际问题中的应用粗糙集理论在实际问题中有着广泛的应用,尤其在数据挖掘、模式识别和决策支持等领域。
在数据挖掘中,粗糙集理论可以用于特征选择和数据预处理。
通过粗糙集约简算法,可以从原始数据集中提取出最重要的特征,减少数据维度,提高数据挖掘的效率和准确性。
在模式识别中,粗糙集理论可以用于特征提取和模式分类。
通过粗糙集近似算法,可以对模式进行划分和分类,从而实现对复杂模式的识别和分析。
在决策支持中,粗糙集理论可以用于决策规则的生成和评估。
通过粗糙集约简算法,可以从原始数据集中提取出最简化的决策规则,为决策制定提供支持和指导。
除了以上应用,粗糙集理论还可以用于知识发现、智能推理和不确定性推理等领域。
它的优势在于能够处理不完备或不准确的信息,提供一种有效的决策和推理方法。
总结起来,粗糙集理论的核心算法包括粗糙集近似算法和粗糙集约简算法,它们在实际问题中有着广泛的应用。
通过粗糙集理论,可以处理不完备或不准确的信息,提高数据挖掘、模式识别和决策支持等领域的效率和准确性。
粗糙集理论为我们解决实际问题提供了一种有效的数学工具。
基于直觉模糊粗糙集的属性约简研究
中 图分 类 号 : 1 2 TP 8
文 献标 识 码 : A
确定问题的理论( 如概率 论、 糊数学和证 据理论等 ) 模 进行
1 引言
在粗糙集合理论 中, 属性约简 是一个非 常重要 的课题 和核心内容。它在不降低信 息系统分类 能力 的基础 上 , 用
能 区分 所 有 对 象 的 最 小 属 性 子集 代 替 原 来 的属 性 集 。计 算
关 键 词 : 觉 模 糊 集 ; 觉 模 糊粗 糙 集 ; 域 ; 赖 度 ; 直 直 正 依 非依 赖度
Ke o d :n u t n si u z e ;n u t n s i f z y r u h s t p st e f l d p n e c e r e n n e e d n e d g e y w r s i t i o i t f z y s t i t i o it u z o g e ; o ii i d; e e d n ed g e ; o d p n e c e r e i c i c v e
摘
要: 本文针 对传 统的离散化技术所造成的信息丢失 问题 , 出 了利 用直觉模糊粗糙集合理论来进行属性 约简的方 提
法 。文 中描 述 了直 觉 模 糊 等 价 关 系下粗 糙 集 的模 型 , 并在 此 基 础 之 上 定 义 了正 域 、 赖 度 与 非依 赖度 概 念 , 依 然后 详 细 分 析 了直 觉模 糊 粗 糙 集 属 性 约 简算 法 。最 后 , 实例 证 明 了该 算 法 的 可 行性 , 对 算 法 的 优 缺 点进 行 了阐述 。 用 并
维普资讯
C 4 —28 TP N 31 5 /
I SSN 00 — 30 1 7 1 X
基于模糊粗糙集的两种属性约简算法
收稿日期:2005-09-22 基金项目:四川省教育厅重点资助项目(2003A080) 作者简介:王丽(1980-),女,四川成都人,硕士研究生,主要研究方向:运筹学、数据挖掘; 冯山(1967-),男,重庆丰都人,副教授,博士,主要研究方向:软件工程方法、智能教育软件平台、数据挖掘.文章编号:1001-9081(2006)03-0635-03基于模糊粗糙集的两种属性约简算法王 丽1,2,冯 山1,2(1.四川师范大学计算机软件实验室,四川成都610066;2.四川师范大学数学与软件科学学院,四川成都610066)(wl_myn@ )摘 要:模糊粗糙集将模糊集合中的隶属度看作粗糙集理论中的属性值,描述了模糊事件的可能性程度和必然隶属度。
详细分析了基于模糊粗糙集的两种属性约简算法FRS AR 和CCD 2FRS AR,对比了它们的计算复杂性和收敛性,并以计算实例验证了分析结论:CCD 2FRS AR 总体优于FRS AR 。
关键词:属性约简;模糊粗糙集;紧计算域;计算复杂性;算法收敛性中图分类号:TP311.13 文献标识码:ATwo a ttr i bute reducti on a lgor ith m s ba sed on fuzzy 2rough setWANG L i 1,2,FE NG Shan1,2(1.L aboratory of Co m puter Soft w are,S ichuan N or m al U niversity,Chengdu S ichuan 610066,China;2.College of M athe m atics and Soft w are Science,S ichuan N or m al U niversity,Chengdu S ichuan 610066,China )Abstract:Fuzzy 2r ough set treats membershi p values in fuzzy sets as attribute values in r ough set theory ,which describes the possible degrees and the certain degrees of fuzzy events .T wo attribute reducti on algorith m s based on fuzzy 2r ough set,FRS AR and CC D 2FRS AR were analyzed and compared in computati onal comp lexity and convergency .The conclusi on isvalidated by concrete experi m ents:as a whole,CCD 2FRS AR is better than FRS AR.Key words:attribute reducti on;fuzzy 2r ough set;compact computati onal domain;computati onal comp lexity;convergency0 引言在粗糙集理论中,属性约简是一个非常重要的课题。
基子粗糙集的随机样本的指标约简与应用
基子粗糙集的随机样本的指标约简与应用
基子粗糙集的随机样本的指标约简是一种数据分析方法,可以帮
助我们从众多的指标中挑选出最重要的几个指标,以便更有效地进行
数据分析和决策。
该方法采用基于信息熵的决策树算法,将数据分为
多个类别,然后选择最具代表性和区分度的指标。
在实际应用中,该
方法可用于投资决策、风险评估、营销策略等方面。
指标约简方法的优点是可以减少决策时所需的数据量和计算时间,从而提高决策的效率和准确性。
然而,在使用该方法时需要注意的是,选择的指标必须能够覆盖所有重要的方面,而不能过于依赖某些具体
的指标。
否则,可能会导致决策的失误和风险增加。
因此,在应用该
方法时需要结合具体情况进行选择和调整,以确保决策的准确性和可
靠性。
基于自适应遗传算法的粗糙集属性约简算法
基于自适应遗传算法的粗糙集属性约简算法孙娓娓;王春生;姚云飞【摘要】为了获得有效的最小属性约简,提出了一种基于改进遗传算法的粗糙集属性约简算法.该算法将属性的相对核加入遗传算法的初始种群以提高算法的收敛速度.通过采用自适应交叉和变异、修剪相似个体、动态补充新个体等遗传操作,增加了群体的多样性,避免了“早熟”现象.仿真结果表明,算法在约简的效率和准确性方面都取得了较好的结果,是一种行之有效的属性约简算法.%In order to get the reduction of attribute,a new rough set attribute reduction algorithm based on Improved Genetic Algorithm (IGA) is proposed.The relative core of attribute is joined initial population in IGA in order to improve the convergence rate.By using self-adaptive crossover and mutation, pruning similar individuals, supplying new individuals dynamically and other operations, the diversity of population is increased and the "premature" phenomenon is avoided.The simulation results show that this algorithm has achieved better results in the efficiency and accuracy of reduction.It is an effective attribute reduction algorithm.【期刊名称】《计算机工程与应用》【年(卷),期】2011(047)033【总页数】3页(P49-51)【关键词】属性约简;遗传算法;相对核;自适应;修剪【作者】孙娓娓;王春生;姚云飞【作者单位】阜阳师范学院数学与计算科学学院,安徽阜阳236041;阜阳师范学院数学与计算科学学院,安徽阜阳236041;阜阳师范学院数学与计算科学学院,安徽阜阳236041【正文语种】中文【中图分类】TP301粗糙集理论[1]是由波兰数学家Z.Pawlak于1982年提出的一种处理不精确、不相容、不完备数据的新型数学工具。
基于遗传算法的粗糙集知识约简
基于遗传算法的粗糙集知识约简摘要:知识约简是粗糙集理论的核心内容之一。
本文通过知识表达系统中条件属性对决策属性的重要性,来描述由条件属性所提供的知识对整体决策的重要程度,利用遗传算法,提出一种基于遗传算法的粗糙集知识约简方法。
关键词:遗传算法;粗糙集;知识约简粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。
其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。
目前粗糙集理论已被成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域,成为近年来的热点研究方向。
知识约简是粗糙集理论的核心内容之一。
众所周知,知识库中知识(属性)并不是同等重要的,甚至其中某些知识是冗余的。
知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识,使得高维数据降为低维数据,从而有效地实现数据缩减、减少冗余信息,是知识发现中的重要步骤。
1知识约简的相关概念定义1K=(U, R)为一个知识库,其中U≠是对象的有限论域,R是U上的所有等价关系的集簇。
显然,如果P∩R,P≠,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分关系,记为ind(P)。
定义2令R为一族等价关系,R∈R,如果ind(R)=ind(R-{R}),则称R为R中不必要的;否则R为R中必要的。
定义3如果每一个R∈R都为R中必要的,则称R为独立的;否则称R为依赖的。
定义4设Q∈P,如果Q是独立的,且ind(Q)= ind(P),则称Q为P的一个约简。
显然,P可以有多种约简。
P中所有必要关系组成的集合称为P的核,记作core(P)。
核与约简有如下关系core(P)=∩red(P)其中red(P)表示P的所有约简。
定义5令K=(U,R)为一个知识库,且P,Q∩R,当时,我们称知识Q是k(0≤k≤1)度依赖于知识P的,记作P Q 。
定义6设S=(U,A,V,f )为一个知识表达系统,A=C∪D,C∩D≠,其中C和D分别条件属性集和决策属性集,属性子集C’∩C关于D的重要性为特别当C ‘={a}时,属性a∈C关于D的重要性为传统的约简算法,主要是从粗糙集的核出发,采用启发式搜索的方法构造所含条件属性最少的约简,即最小约简。
基于粗糙集的知识约简方法及应用的开题报告
基于粗糙集的知识约简方法及应用的开题报告一、研究背景在大数据时代,数据处理变得越来越复杂,数据维度和属性数量也越来越多。
为了更好地利用这些数据,需要对数据进行分析和处理,但是数据维度过多会导致处理时间和空间开销增大。
同时,大数据中存在很多不必要的冗余信息和噪声,这些信息对于数据分析和处理不利。
为了解决这一问题,我们需要对数据进行简化和优化。
知识约简技术是一种有效的数据优化方法,可以在不损失信息的前提下,将数据集中的冗余信息和噪声去除,从而提高数据的处理效率和准确性。
二、研究内容本文将研究基于粗糙集理论的知识约简方法及其在实际应用中的效果。
具体研究内容如下:1. 粗糙集理论的基本概念和原理。
介绍粗糙集理论的起源、发展历程和基本原理,包括正域、约简、决策类等相关概念和理论。
2. 基于粗糙集的知识约简方法。
探讨基于粗糙集的知识约简方法,包括正域约简、决策规约、属性规约等相关算法和技术。
3. 粗糙集约简方法的应用案例分析。
通过实际应用案例,分析粗糙集约简方法的应用效果和优势,探讨其在数据挖掘、分类、聚类等领域的应用前景。
4. 粗糙集约简方法的改进和发展。
在分析粗糙集约简方法的基础上,提出一些改进和发展的思路和方法,探索进一步提高其效率和准确性的手段和途径。
三、研究意义知识约简技术在数据分析和处理领域具有广泛的应用前景,尤其是在大数据时代下更显得尤为重要。
本文研究基于粗糙集的知识约简方法,具有以下重要意义:1. 深入探讨粗糙集约简方法的理论基础和技术原理,为数据分析和处理提供了新的思路和方法。
2. 实际案例分析,验证了粗糙集约简方法在实际应用中的有效性和优越性。
3. 提出改进和发展的思路和方法,进一步推动粗糙集约简方法的发展和应用,为数据处理和分析提供更加高效、准确的手段和途径。
四、研究方法本文采用文献综述和案例分析的方法,通过收集、整理和分析相关文献和案例,深入探讨基于粗糙集的知识约简方法及其应用。
具体方法如下:1. 收集和整理与粗糙集约简方法相关的文献和资料,包括国内外学术期刊、论文、专著等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简的计算复杂度, 同时又保持 了数据集中信息含量几乎不变. 最后, 数值实验将基于随机抽样的序约简算法和两种传 统的属性约简算法从以下 3个方面进行了对比: 计算属性约简时间消耗、计算属性约简空间消耗、约简效果. 对比
实验验证 了 基 于随机抽样 的序 约简算 法在 时间与空间上 的优 势.
w w w . j o s : o r g i c r d l  ̄0 , 9 8 2 5 / 5 3 3 m勃 钍
英文引用格式: C h e n , 2 o S Y ; L i X F ; C h o nm L i C P F l l z z y mu g h r e d u c t i o n b a s c do n r a n d o m s a  ̄ p t i n g i R u a n J i nX a u e B a o /
关键 词: 模 糊粗 糙集; 随机抽样 ; 属性 约简; 统计粗糙 集 中图法 分类号 :T P 3 1 1
中文 引用格 式 : 陈 俞, 赵 素云, 李 雪峰, 陈红 , 李翠 平. 基 于随 机 抽样 的模 糊粗 糙 约简 . 软件 学报 , 2 0 1 7 , 2 8 ( I 1 ) : 2 8 2 5 - 2 8 3 5 . h t t o : / /
( S c h o o l o f I n f o r ma t i o n , R e n mi n Un i v e r s i t y o f C h i n a , B e r i n g 1 0 0 8 7 2 , C h i n a ) ( Ke y L a b o r a t o r y o f Da t a E n g i n e e r i n g a n d K n o wl e d g e E n g i n e e r i n g( Re n mi n U n i v e r s i t y o f C h i n a ) , Mi n i s t r y o f E d u c a i o n , Be i j i n g 1 0 0 8 7 2 ,
1 o u ma l o f S O .a r e , 2 0 i 7 , 2 8 ( 1 1 ) : 2 l 8 2 5 _ 2 8 3 5 ( i n C h m e s o ) . h t t p  ̄ / / w w w . j o s : o t g . c n / l O  ̄9 8 2 5 1 5 3 3 7 1 h t m
( 中国人 民大 学 信息 学院, 北 京 1 0 0 8 7 2 )
( 数 据工程 与知 识工程教 育部 重点实验 室( 中国人 民大 学) , 学 环境 学院, 北 京 1 0 0 8 7 2 )
通讯作 者:赵素 云, E — ma i l : z h a o s u y u n @r u c . e d u . c n
E — ma i l : j o s @i s c a s . a c . c n h t t p : / / w ww . j o s . o r g . c n
Te l : +8 6 . - 1 0 . . 6 2 5 6 2 5 6 3
基 于随机抽 样 的模 糊粗糙 约简
陈 俞1 , 2 ,赵 素 云1 , 2 ,李 雪 峰 ,陈 红1 , 2 ,李 翠 平1 , 2
Fuz z y Ro ugh Re duc t i on Bas e d on Rando m Sa m pl i ng
CHE N Yu . - , ZHAO S u . Y u n , _ , LI Xu e . Fe n g , CHE N Ho n g ’ 。 , L I Cu i - P i n g ,
Abs t r a c t : Tr a d i t i o na l a t t r i b u t e r e d uc t i o n i s l e s s e f f e c t i v e wh e n a p p l y i n g t o l a r g e - s c a l e d a t a s e t s b e c a u s e o f i t s h i g h t i me a n d s p a c e c o mp l e x i t y .I n t h i s pa p e r ,r a nd o m s a mp l i n g i s i n t r o d u c e d i nt o t r a d i t i o n a l r o u g h r e d u c t i o n .Fi r s t ,s t a t i s t i c a l d i s c e ni r b i l i t y d e g r e e nd a
C h i n a )
( S c h o o l o f E n v i r o n me n t , R e n mi n U n i v e r s i t y o f C h i n a , B e i j i n g 1 0 0 8 7 2 , C h i n a )
软 件 学报 I S S N 1 0 0 0 . 9 8 2 5 . C OD E N R U XU E W J o u r n a l o fS o f t wa r e , 2 0 1 7 , 2 8 ( 1 1 ) : 2 8 2 5 — 2 8 3 5[ d o i : 1 0 . 1 3 3 2 8 8 . c n k i . j o s . 0 0 5 3 3 7 ] @中 国科 学 院 软 件研 究 所 版 权 所 有.
摘
要: 传统 的属性约 简由于其 时间复杂度和 空间复杂度 过高, 几乎 无法应用到 大规模 的数据 集 中. 将 随机抽样
引入传 统的模 糊粗糙集 中, 使得 属性约 简的效率大幅度提升. 首先, 在统计下近似的基础上提 出一种统计属性约简的 定义 . 这里的 约简不是原有 意义上的约 简, 而是保持基 于统计 下近似定 义的统计 辨识度 不变的属 性子 集. 然后 , 采用 抽 样的方 法计 算统计辨识度 的样本估 计值 , 基于此估计值- . q -  ̄对 统计属性重要性进行排序 , 从而可以设计一种快速 的适用 于大规模数 据的序约 简算法. 由于随机抽样 集以及 统计近似概念 的引入, 该算法从时间和空 间上均降低 了约