一种集成遗传算法与模糊推理的粗糙集数据分析算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文章编号 $""!;%@@$;（ !""! ） $%;"$MM;"@
! "#$%& ’()* +,), !-,./*0* !.%#10)&2 3#240-(5 60)& 7(-()08 !.%#10)&2* ,-5 9$::/ ;-<(1(-8(
=0 >$1#-%? @0,# A0-B $ （ :,O3&-D,=- ’P C5,Q-&>Q35 C=)>=,,&>=) ， R(E*’( J=>S,&+>-.， R(E*’( @A"""!） ! （ K’55,), ’P C5,Q-&>Q35 C=)>=,,&>=) ， 7*,G>3=) J=>S,&+>-. ， T3=)E*’( @$""!B ）
!4*)1,8)： 1*, D3>= 3<S3=-3), ’P &’()* +,-+ <3-3 3=35.+>+ >+ -*3- >- <’,+=U- &,V(>&, 3=. O&>’& ’& 3<<>->’=35 6=’45,<), 3W’(- -*, <3-3， 4*>Q* >+ -*,= (+,< >= -*>+ O3O,& -’ 3=35.+>+ -*, <3-3W3+,， 3QV(>&>=) 3(-’D3->Q355. -*, *>,&3&Q*>Q35 &(5, +,-+#L= ’&<,& -’ ,=+(&, D3F>D(D Q’=+>+-,=Q. ’P -*, V(3=->P>Q3->’= <3-3， -*, ),=,->Q 35)’&>-*D+ >+ (+,< -’ ),- -*, ’O->D35 =(DW,& 3=< O’>=-+ ’P <>S>+>’= ’P V(3=->P>Q3->’= >=-,&S35+#?- -*, +3D, ->D, -*, V(3=->P>Q3->’= >=-,&S35+ >+ P(EE>P>,< 3=< Q&>+O &(5, +,-+ 3&, -*,= -&3=+P’&D,< -’ P(EE. &(5, +,-+#1*,= -*, P(EE. >=P,&,=Q, >+ Q’=<(Q-,< -’ ,=*3=Q, -*, &’W(+-=,++# 1*, S35><>-. ’P -*, O&’O’+,< 35)’&>-*D >+ O&’S,< -*&’()* -*, -,+- ’= +’D, <3-3W3+,+ ’P -*, JKL &,O’+>-’&.# C(/6#15*： &’()* +,-+ -*,’&. ， ),=,->Q 35)’&>-*D+， P(EE. >=P,&,=Q,
基金项目：福建省自然科学基金资助项目（编号： ?""$"""I ）
作者简介：李玉榕，博士，福州大学电气系讲师，主要研究方向为粗糙集理论、信息融合、进化计算等。乔斌，浙江大学电气工程学院博士生，主要研究方向为粗糙集理论及其应用。
计算机工程与应用 !""!#$% $MM
ຫໍສະໝຸດ Baidu
法的 &’() 大大提高了数据处理能力。
<
决策过程
经过上述步骤，粗糙集数据分析从原始数据中提取出了各
个层次上的规则集后，根据这些各个层次的规则集就可以对新的数据进行决策分类了。具体的决策过程为：首先将新数据中的连续值进行量化；然后从上述各个层次的节点集中找出与当前数据属性类型相一致的节点，用当前数据属性值去匹配该节点中的规则集，取出相匹配的规则；最后取出该节点的所有后继节点，从每一个后继节点中取出与数据属性值相匹配的规则。经过上述的匹配过程，可能获得四种情况：一是新数据匹配到了唯一的一条规则；二是新数据匹配到了多条的规则，并且这些规则具有相同的决策属性值；三是新数据虽然匹配到了多条的规则，但是这些规则具有不同的决策属性值；最后一种情况是该数据没有匹配到任何规则。对于前两种情形，结果是显然的。第三种情形可以以某种综合评判算法选择所有匹配规则中优先级最高的规则。对于没有匹配到规则的数据，说明区间量化法无泛化能力。在这种情况下，可以采用模糊推理进行决策。
+
基于粗糙集数据分析的多层次规则集的建立
粗糙集数据分析通过相对简约和值简约的计算，能从大量
数据中抽取出数据内部蕴涵的规则，并且这些规则在表现形式上是比较简洁的，称这些规则为最小决策规则。利用这些规则就可以对新数据进行决策处理了，这是粗糙集数据分析的基本步骤。但是，如此建立起来的这些详细的最小决策规则包含原数据库的一些特异性，对噪声很敏感，即它们对原数据是过适配的，因而对新数据的分类能力较差。推导规则时，关键应该决定哪些属性应该包含在规则的条件部分。一般来说，必须抽取出条件属性比较少、更具一般性的规则。另一方面在实际中由于各种原因，例如，有些信息无法获取，获取这些信息的代价太大，系统实时性能要求较高，即要求得到这些信息之前就要迅速做出判断或决策等原因，因此待处理的数据有某种程度的不完整性，即决策系统中有某些条件属性没有赋值。这两种因素就意味着需要寻找的是一种近似简约，而不是简约，即要找到属性的子集，它“ 几乎” 能保持数据的不可分辨关系，而不是完全保持。文 *<,介绍了一种动态简约的
一种集成遗传算法与模糊推理的粗糙集数据分析算法
李玉榕 $
$ !
乔
斌!
（福州大学电气系，福州 @A"""! ）（浙江大学电气工程学院，杭州 @$""!B）
C;D3>5： 5.&EFGH$I@#=,-
摘
要
粗糙集数据分析的主要优点在于它不要求任何关于被处理数据的先验或额外的知识，文章利用其对数据库进
!
基于遗传算法的量化方法
离散化本质上就是将每个连续属性值的定义域分为若干
个区间，每个区间分别对应一个离散值。将连续的属性值进行区间离散化后，原始的数据能被归纳到一定层次的抽象级上。选择合适的区间个数和分点值是一个复杂的问题，随着需要离散化的属性数目的增长而成指数增长。离散化过程不仅仅许多规则或树产生式算法都要求能进行恰是 &’() 所需要的，当的离散化。无监督离散和监督离散。无离散方法主要可以分为两类 *+,：监督离散包含两种常见的方法：等宽区间方法和等频区间方法。虽然无监督离散很简单，但由于没有考虑到条件属性和决策属性之间的关系，这种离散方法的效果并不好。因而在实际应用中大量使用的是监督离散方法，包括：基于 -./01231 算法，熵的算法，统计算法及滤波过程等。现存的这些离散算法的不足之处在于它们都是局部离散方法。换句话说，在离散过程中，每个属性是独自离散的，没有考虑到实际情况中，不同属性之间的分点存在着相互影响。从另一个角度可以发现，量化实际上是在满足一定的最优条件下，确定各个连续属性值量化区间的个数及量化区间的各个分点值，属于一类参数寻优问题。作为一种快速高效的参数寻优方法，遗传算法（简称 4);）可以完成 41516/7 )8392/6.:;，对每个属性的区间个数及分点值进行优化这一任务。文中，进化的目的是保证离散化后的决策系统的一致性最大，故利用原始决策系统的相关系数作为适应值函数。相关系数越大，则经过离散化后的知识可以更大程度地保证决策系统的一致性，说明量化结果越好。可以看出，由于对所有的条件属性是同时进行离散化的，考虑了各个条件属性之间的相关性，故这是一类全局最优的离散化方法。同时可知，在对连续值进行量化时，不需要任何的先验参数或模型假定，也不需要领域专家的参与，适用性广，从而进一步保证了粗糙集数据分析的原则，即它仅使用内部参数进行数据分析及处理，而不需要外部的参数假定。
行分析计算，自动获取数据库在各个层次上的规则集。在保证量化后的数据库具有最大一致性的前提下，利用遗传算法求取连续属性值的最优量化区间个数及各个区间分点值。同时将量化区间进行模糊化，将清晰规则集转化为模糊规则集，利用模糊推理进行决策以提高鲁棒性。通过对 JKL 中几个数据库的测试验证了所提出算法的有效性。关键词粗糙集理论遗传算法模糊推理文献标识码 ? 中图分类号 12!BN
$
引言
粗糙集理论（简称 /01）是由 234536 7# &’()* +,-+ -*,’&. ，
/0:? 具有很大的优越性。
文章利用粗糙集数据分析的方法，从原始数据本身出发，通过粗糙集理论中相对简约和值简约的概念和计算方法，建立了一个多个层次的规则集。这些多层次的规则集，由于它们更简短，更具一般性，故对数据中的噪声或异常性具有容错能力，并且可以对不完整的新数据进行决策；而实际生活中的数据大多数是具 /0:? 处理的是离散量，有连续属性值。因此，文章采用原始数据库的相关系数作为适应值函数，利用遗传算法对各个连续属性变量的量化区间个数及各个分点值进行优化，在保证量化后数据最大一致性的前提下，对原始数据进行量化；普通的量化区间缺乏连续性和鲁棒性，数据从一个区间变化到另一个区间是突然的。因此同时对量化区间进行模糊化处理，克服了数据变化的突然性，从而将利用 /0:? 得到的多层次清晰规则集转化为多层次模糊规则集，而后利用模糊推理进行决策，以发挥模糊推理的优越性。结合了模糊推理和遗传算
它们都能提取出更具方法，文 *=, 介绍了提取缺省规则的方法，一般性的规则。为了对噪声及其它的一些异常数据具有容错能力，提高对新数据的分类能力，并且为了能保证在每种信息不完整的情况下，利用粗糙集数据分析得出的规则都能尽可能地给出问题的最大可能解，论文采取如下步骤提取规则：（将原始的数据样本写成一张决策表的形式。这是一张 $）二维表格，每一行描述一个对象，每一列描述对象的一个属性。（将连续属性进行离散化。利用遗传算法，在使量化后的 !）决策表的相关系数（即一致性测量）最大的原则下，优化出各个连续属性的量化区间个数及各个量化区间的分点值，对原始决策表中的连续属性进行离散化。建立多层次的规则集 *>,。首先计算决策表的相对简约；（ +）然后以各个相对简约为初始节点，分别删除一个条件属性得到下一个后继节点，对所有的后继节点重复该过程，直到只剩一个条件属性为止，从而形成了一个多层次的节点集（如图 + 所示）；最后，对节点集中的每个节点，分别计算其每个等价类的值简约，得到简化的一组规则及各条规则的强度和确性度。规则的强度即为支持该规则的数据数目。将其中确性度大于设定值的规则加入该节点的规则集。每个节点有一个规则集，最终形成一个多层次的规则集。
=
基于模糊逻辑的决策推理
利用普通的区间量化方法将连续数据转化为离散值，数据
量化不是平缓过渡而是存在突变，缺乏连续性和鲁棒性。而模糊集合，正如其名称所表明的，是具有模糊平缓边界集合的理论。作为模仿人类思维的一种方法，恰好可以弥补普通量化区间的不足。将一个清晰集转化为一个模糊集合后，其通用性和解决实际问题的能力会大大提高 *?,。基于这一点的考虑，将普通量化区间模糊化为模糊集合。可以采用菱形函数或三角形函数进行模糊化。
及其合作者于 %" 年代初提出的一种新的处理模糊性和不确定性的数学工具 8$98!9。较其它不确定推理方法的优点在于它不需要预先给定某些特征或属性的数量描述，也不需要先验的模型假定，例如统计理论需要确定概率分配，模糊逻辑需要确定隶属度函数， :;0 证据理论需要确定基本概率分配等。它仅仅使用数据本身的内部知识，通过不可分辨关系和不可分辨类确定给定问题的近似域，自动获取该问题中的内在规律。因此，粗糙集理论和应用的研究迅速成为一个很活跃的研究课题，涉及的领域很广，包括模式识别、机器学习、决策分析和决策支持、医学、药理学、工程等，并在数据分析领域引起了广泛的注意，即粗糙简称 /0:? ）。许多被广集数据分析（ &’()* +,-+ <3-3 3=35.+>+，泛使用的数据分析方法要求除了被观测数据之外的一些参数值，或者为了保证一些统计方法可以应用于该领域，人为地假定被观测数据具有定量特性，并且受到随机干扰。与之相比，