属性约简

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。

信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。

信息系统实现了粗糙集模型的知识表示。

定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。

其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数
:U V c a f A ⨯→ .
例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,
1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.
表2.1.1 信息系统
定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈,
I U 称为上的不可分辨关系。

(1)若(,)x y I ∈,则称:x y 和是不可分辨的。

(2)不可分辨关系是等价关系,具有:
自反性:xIx ; 对称性:xIy yIx ⇒;
传递性:,xIy yIz xIz ⇒ .
(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,
12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。

(4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,
12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I P
ind P I P ∈== ,
则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。

()[][]ind P I I P
x x ∈= 称为P 的基本知识。

当12()()ind I ind I ⊆,称1,I 比2I 细,21I I .
1.1.1粗糙集与近似
定义2.1.3[46] X U ⊆,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1
t
j
i t X
= ,称X 是关于I 的精确集。


则称X 是I 的粗糙集。

定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ⊆,X U ⊆,
x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为:
下近似:()D apr X DX ={:()}x U D x X =
∈⊆ {,}Y U D Y X =∈⊆ {[][],}D D x x X x U =⊆∈ ;
上近似: ()D apr X =DX =
{:()}x U D x X ∈⋂≠∅
{,}Y U D Y X =∈⋂≠∅ {[][],}D D x x X x U =⋂≠∅∈ ;
负区域:()D neg X =()D U apr X -=
{:()}x U D x X ∈⋂=∅ ;
边界区域:()D bnd X =()D apr X ()D apr X -DX =DX -.
下近似是肯定属于某一子集的对象的集合,上近似是可能属于某一子集的对象的集合。

定义 2.1.5[46]给定一个知识系统(,,,)S U A V f =令12{,}n X X X Γ= 为论域U 的知识,其中
(1,2,)i X i n = 是Γ的第i 个类别,P A ⊆,
则定义: 1
1
()
()()
n
P
i
i P n
P
i
i apr X apr X α==Γ=
∑∑为知识Γ的近似精度,
1
()
()n
P
i
i P apr X U
γ=Γ=
∑定义为知识Γ的近似分类质量。

()P γΓ度量了知识Γ对于属性集P 的依赖程度。

当()P γΓ=0,则说明知识Γ
完全不依赖于属性集P ,即属性集P 对知识Γ完全没有影响;当0<()P γΓ<1,则说明知识Γ在()P γΓ数值的程度上依赖于属性集P ,即属性集P 对知识Γ影响是有限的,或者数据集本身具有自身矛盾性等其他缺陷;当()P γΓ=1,则说明知识Γ100%依赖于属性集P ,即知识Γ完全取决于属性集P .
在粗糙集信息系统中,设R 是一个等价关系簇,I R ∈,如果
{{}}{}ind R I ind R -=,则称I 在等价关系簇R 中是不必要的。

否则称I 在等
价关系簇R 中是必要的。

若R 中的每一个等价关系I 都是必要的,则称R 是独立的。

知识约简就是在知识库分类能力保持不变的情况下,删除不相关的冗余属性。

定义2.1.6[46] 对于信息系统(,,,)S U A V f =,若对于属性子集B A ⊆中每一个属性在B 中都是必要的,则称B 是独立的;若在属性子集B A ⊆中,存在
某一属性在B 中是不必要的,则称B 是相依的。

定义2.1.7 若D B ⊆,满足下面两个条件: (1) D 是独立的。

(2) ()()ind D ind B =
则称D 是B 的一个约简。

记为:()D Red B ∈。

B 中所有的必要关系组成的集合,称为B 的核,记为:()Core B 。

即:()()Core B Red B = 。

核是信息系
统中的核心属性集,是所有约简的公共部分。

例如:(,)K U =I ,128{,}U x x x = ,
114528367{{,,},{,},{},{,}}U I x x x x x x x x =, 213562478{{,,},{},{,,,}}U I x x x x x x x x =, 315627834{{,},{},{,,},{,}}U I x x x x x x x x =,
求:123{,,}I I I 的约简和核。

解:1215428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =
12315628743{,,}{{,},{},{,},{},{},{}}U I I I x x x x x x x x =
因为 12123{,}{,,}U I I U I I I =, 所以
12{,}I I 是123{,,}I I I 的一个约简。

1315428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =123{,,}U I I I =
所以
13{,}I I 也是123{,,}I I I 的一个约简。

2315362784{,}{{,},{},{},{,,},{}}U I I x x x x x x x x =≠123{,,}U I I I
所以
23{,}I I 不是123{,,}I I I 的约简。

综上所述:1231213{,,}{{,},{,}}Red I I I I I I I =,
1231{,,}{}Core I I I I =.
定义2.1.8[46] 设P 和Q 是U 中的两个等价关系,Q 的P 正域定义为:
()P X U Q
Pos Q PX ∈=。

若I P ∈,{}()()P I P Pos Q Pos Q -=,则称等价关系I 是P
中关于Q 是不必要的,或称I 是P 中Q 不必要的,否则称I 是P 中Q 必要的;若P 中每一个等价关系都是Q 必要的,则称P 是Q 独立的,否则称P 是Q 依赖的。

记:()P Pos Q k U
=
表示Q 依赖于P 的程度。

(一般01k ≤≤)。

定义2.1.9[46] 若S P ⊆,如果S 满足以下两个条件: (1) S 是Q 独立的
(2) 满足式子:()()S P Pos Q Pos Q = 则称S 是P 的一个Q 约简,记为:()Q S Red P ∈
()()Q Q Core P Red P = 称为P 的Q 核。

定义2.2.1[46] 信息系统(,,,)S U A V f =可以用一般表来表示,称为信息表,
例如表2.1.1。

信息表中每一个属性是一个等价关系。

若A C D =⋃,
C D φ⋂=,C 是条件属性集,D 是决策属性集,此时的信息表称为决策表。

例如表2.2.1是
一个判断感冒信息决策表。

表2.2.1 决策表
U ︱症状 头痛 肌肉痛 体温 感冒 病人1 是 是 正常 是 病人2 是 是 高 是 病人3 否 是 很高 是 病人4

否 正常

对于一个决策表,设P 和Q 是U 中的两个等价关系,对于Q 依赖于P 的程
度k ,如果k = 1,称这样的决策表为一致决策表,如果0 k << 1,称这样的决策表为不一致决策表;如果k = 0称这样的决策表为完全不一致决策表。

不一致决策表,直观的说,就是决策表中至少存在两个个体,在所有的条件属性均对应相同时,其决策属性是不同的。

决策表的属性约简,一般是针对条件属性的约简。

即寻找最小的条件属性子集P ,.st P C A ⊆⊆,()()P C X X γγ=.
属性约简是粗糙集理论的重要研究方向,对于分类对象在实际问题中,最终构建一系列规则下的模型具有重要的作用。

在各国各领域学者的努力下,已经得知属性约简是NP 难问题,如何在较短的时间里找出最佳约简或次佳约简,是人们关注的热点之一。

目前,已经有了很多行之有效的约简算法。

在本小节,只是简要介绍常见的几个属性约简算法。

1.1.2快速约简算法
快速约简算法主要用于计算属性集基数最小的约简[46],其主要思想为: 从P φ=开始,在条件属性集C 中按照选择规则选择属性,逐个加入到P 中,选择规则是:取当前能够使分类质量()P X γ最大的属性。

终止条件是:使分类质量满足:()P X γ= 1,或者()()P C X X γγ=. 具体算法如下:
此算法的缺点是:得到的约简不一定是最佳约简。

1.1.3属性约简的区分矩阵算法
1991年,Skowron 提出用区分矩阵表示知识,此时区分矩阵可以用于计算属性集的约简[46]。

算法的主要思想是:构建区分函数,利用区分函数的吸收律,分配律等运算规律,计算出区分函数的最小析取范式,求出属性集的约简和核。

设(,,,)S U C D V f =⋃,U n =,S 的区分矩阵是一个n n ⨯矩阵,矩阵的任一元素计算为:12(,){(,)(,)}{,,}k a x y a A f x a f y a a a a =∈≠= ;
S 的区分函数: 12(,)(,)k x y U U
a a a a x y ∈⨯∆=∨∨∨=
∑∏ .
区分函数的极小析取范式中的所有合取式是属性集A 的所有约简。

核:(){(,){},,}core A a A a x y a x y U =∈=∈。

例如:表2.3.2.1是一个知识信息系统,其区分矩阵见表2.3.2.2,求其属性约简和核。

表2.3.2.1信息系统
U a b
c
d
1 0 1
2 0 2 1 2 0 2
3 1 0 1 0 4
2
1
1
5 1 1
0 2
表2.3.2.2区分矩阵
1 2 3 4 5 1 2 a,b,c,d 3 a,b,c b,c,d 4 a,c,d a,b,d a,b,c,d 5
a,c,d
b
b,c,d
a,d
区分函数:()()()()a b c d a b c a c d a c d ∆=∨∨∨∨∨∨∨∨∨
()()()b c d a b d b a b c d ⋅∨∨∨∨∨∨∨()()b c d a d ⋅∨∨∨
ab bd =∨
所以,此信息系统的约简为:{a ,b }和{b,d },约简的核为:{b }.
信息系统的约简一般有很多个,任意一个约简都可以提供关于论语U 同样的知识划分。

例如:约简{a ,b }可以将原信息系统表示如表2.3.2.3所示的形式。

此算法的优点是:可以方便的解释和计算信息系统的约简和核。

缺点是:构建区分函数稍有不同,导致计算量爆炸性增加。

表2.3.2.3 约简{a ,b }对信息系统的表示
U a b
d
1 0 1 0
2 1 2 2
3 1 0 0
4 2 1 1 5
1
1
2
1.1.4属性约简的启发式算法
启发式属性约简方法[46]一般从属性集的核属性集P 开始,在条件属性集C 中按照选择规则选择属性,逐个加入到P 中,选择规则是:取当前属性重要性最大的属性。

终止条件是:P 是属性集C 的一个约简。

启发式属性约简算法的一般步骤为:
第一步:运用区分矩阵,求得约简核的属性集P ; 第二步: 初始化:1P =P ;
第三步: 选择,a M M ∈是区分矩阵中的元素集合且M P ⋂=∅,使得:
{(,)}M
a Arg
sgf a P Max =,令{}P P a =⋃.
重复操作,直到区分矩阵中的所有元素集合与1P 交集都非空。

第四步: 检查1P 是否为一个约简,去掉多余属性。

此算法的缺点是:必须先找到属性集的核属性集。

1.1.5 代数理论下的遗传算法属性约简
遗传算法是1969年美国Holland 教授根据生物遗传进化进程提出的一类模
拟进化算法[66]。

标准形式下的遗传算法采用二进制编码,个体空间{0,1
}L
L H =,繁殖包括选择,交叉,变异三个独立的进化步骤。

在各国学者的不断努力下,遗传算法有了非常丰富的发展。

比如:仅编码形式就还可以是灰度编码,实数编码,符号编码,可分解可拼接编码等等。

简单遗传算法的搜索过程如下:
运用遗传算法进行粗糙集属性约简的主要设计:
(1)编码设置:采用二进制编码,对可能的条件属性子集P ⊆C ,编码长度为C ,编码的每一个基因染色体表示P 中的每一个属性。

例如:基因10011表示12345{,,,,}C c c c c c =时,145{,,}P c c c =的编码。

(2)适应度函数设计:属性子集P 的适应度函数:1()P f P k C
-=+
其中:k 为决策属性d 对P 的属性依赖度。

(3)选择算子设计:两极随机过程法选择出优良个体。

(4)交叉算子设计: 重组产生新的个体。

交叉概率一般为:0.4~0.99.
(5)变异算子设计:选中个体独立低效率的生成新的个体。

变异概率一般为:0.0001~0.1.
(6)种群规模:一般小于2C或者20~100.
(7)终止条件:大部分为设定进化代数,进化代数一般为100~500.
遗传算法符合达尔文的“优胜劣汰,适者生存”的自然生物进化理论,采用随机信息交换思想,既消除了劣质解,又很好的利用了原有解中的有利信息,从而更好更快的进行属性约简。

由于遗传算法固有的并行性,因此此算法能够快速的解决巨量并行复杂问题。

数据预处理分为两大步:数据采集与变量选择,数据离散化。

我们一旦确定研究对象,紧接着就需要对研究对象进行观测,采集相关数据和进行变量选择。

搜集得到的信息系统数据具有数据类型多样,结构复杂等特点。

这些数据通常具有以下三大特点[47]:
1.数据类型多样化。

数据简单的可分为离散型数据(整数型,名义型,有序型,
符号型等),连续性数据,集值型数据(区间值型,模糊集型,邻域型等)等类型。

2.数据信息结构多样化。

数据之间存在等价关系,序结构关系,邻域关系等等。

还有的数据之间同时存在多种结构关系。

3.在计算机领域,数学领域,金融分析领域,工程领域中获得的数据,往往是
多种类型数据混杂在一起,而且经常有数据缺失现象。

本文主要涉及的问题是连续数据处理问题。

当数据是连续数据时,我们需要先对数据进行离散化,目前数据离散化的方法很多,下面简单介绍几种常见的数据离散化方法。

数据离散化本质上是选取合适的断点,将原先信息系统的信息在条件属性构成的空间系统上划分为有限个区域。

数据离散化方法很多,根据划分依据的不同,既可以分为全局方法和局部方法,也可以分为静态方法和动态方法,还可以根据是否利用类信息划分为有监督和无监督两种类型。

目前常见的有如下几种[47]:(1)专家离散法:专家根据必要的研究经验和知识给出相应的划分区间,或者根据领域内的某种规则,确定标准对输入的数据空间进行划分,确定合适
的离散点,进而对信息系统进行离散化。

(2)等距区间离散化:选择合适的离散间断点,使每一个小区间步长相同,即区间具有相等的宽度W:
W = (H-L)/N,其中H表示一个属性的最大值,L表示其最小值。

(3)等频区间离散法:选择合适的离散间断点,使得每一个小区间个体的个数相等。

(4)Naviescaler 算法离散法:对属性值按照从小到大的顺序排列,相邻两个个体的属性值和决策值都不相等时,取其均值作为断点。

(5)Chimerge 算法离散法:在原分类精度不受影响的前提下,对已划分的相邻两个区间进行合并,从而得到新的离散间断点。

例如:决策表2.4.1离散化后的决策表2.4.2.
表2.4.1 连续数据的决策表
a b d
x0.8 2 1
1
x 1 0.5 0
2
x 1.3 3 0
3
x 1.4 1 1
4
表2.4.2 Naviescaler 算法离散化后的决策表
a b d
x0 1 1
1
x 1 0 0
2
x 1 2 0
3
x 2 1 1
4
定义3.1.1[46] 给定一个知识系统(,,,)S U A V f =,P A ⊆,X U ⊆,则:
()()()
P P P apr X X apr X α=
定义为X 的近似精度,它反映了集合X 知识的完全程度。

()1()P P X X ρα=-定义为粗糙集的粗糙度,它反映了集合X 知识的不完全程
度。

例如,在例2.1.2中111()
()6
()I I I apr X X apr X α=
= = 0 ,
222()
2
()5
()I I I apr X X apr X α==;11()1()I I X X ρα=-= 1 - 0 = 1 ,
2223()1()155
I I X X ρα=-=-
=.
定义 3.1.2[46] 给定一个知识系统(,,,)S U A V f =,I 为U 上的不可分辨关系,P A ⊆,Q A ⊆,则:
(1) 若()()I P I Q ⊆,则称属性集Q 依赖于属性集P ,记作:P Q ⇒; (2)若P Q Q P ⇒⇒且,则称属性集Q 等价于属性集P ,记作:P Q ⇔; (3) 若P Q ⇒和Q P ⇒都不成立,则称属性集Q 和属性集P 相互独立。

例如,在表2.1.1的信息系统中,去除属性4a ,去除重复行,得到信息系统表3.1.2如下,此信息系统与原始信息系统的元素集数量是相同的,属性4a 是冗余的,所以,该信息系统的属性集是依赖的。

表3.1.2 去除属性4a 和重复行的信息系统
1.2容差关系和属性重要度
1.2.1容差关系
经典粗糙集理论是建立在精确等价关系下的分类机制基础之上的。

基于现实情况,不完备信息系统对此条件要求必须放宽。

所以我们在不完备信息系统中考虑的通常是容差关系,相似关系,甚至是一般的二元关系。

定义3.2.1[31] 给定一个信息表(,,,)S U C V f =,属性子集B C ⊆,个体对于属性子集B 具有遗漏属性值,记遗漏值为“*”,二元关系R 的满足:
{(,)(,)
B R x y x y =i y U x U c B ∈∧∈∧∈
}(()*()*()())
j j j j c x c y c x c y ⇒=∨=∨=
则称二元关系R 为属性子集B 所确定的U 上的容差关系。

显然,容差关系(,)B R x y 满足自反性和对称性,不具备传递性。

容差关系条件要求较弱,在此类关系下的数据处理过程中,空值认为是可以和任意值相等的数据。

容差关系(,)B R x y 的性质:
性质1[46]:设()B R x 在属性子集B 下与个体x 具有容差关系的所有个体的全 体,即:{}()(,)
B B R x y U
R x y =∈,(,)(,)B c c B
R x y R x y ∈= .
性质2[46]:设B D C ∅⊂⊆⊆,则()()D B R x R x ⊆,x U ∀∈.
定义3.2.2[31] 对于信息表(,,,)S U C V f =,属性子集B C ⊆,个体对于属
性子集B 具有遗漏属性值,记遗漏值为“*”,则当二元关系ω满足:
{(,)(,)B i x y x y c B x U y U
ω=∈∧∈∧∈
((()*()*()(
i i
i i c x c y c x c y ⇒≠∧≠⇒= }(()())()()*)
B B i i P x P y c x c y ∧⋂≠∅∨==
其中{}()()*B i i P y c B c y =∈≠,则称二元关系ω为属性子集B 所确定的U
上的限制容差关系。

定义3.2.3[31] 对于信息表(,,,)S U C V f =,属性子集B C ⊆,个体对于属性子集B 具有遗漏属性值,记遗漏值为“*”,当二元关系ς的满足:
{(,)(,)B x y x y x U y U ς=∈∧∈∧任意i c 满足
}(()()()*)
i i i i c B c x c y c x ∈⇒=∨=
则称二元关系ς为属性子集B 所确定的U 上的非对称相似关系。

1.2.2属性重要度
在决策系统(,,,)S U C D V f =⋃中,条件属性不止一个,他们对于决策系统的重要性是不完全相同的。

从分类质量的角度,我们可以定义一个属性的重要性。

定义3.2.4[46] 对于信息系统(,,,)S U A V f =,B ⊆U ,a ∈P ,P ⊆A ,则:a 对于B 的属性重要度(,)sgf a B 定义为:(,)sgf a B = ()P B γ-{}
()P a B γ
-.
(,)sgf a B 值越大,依赖性变化就越大,说明属性a 越重要。

从属性依赖度的角度,我们可以定义一个属性的重要性:
定义3.2.5[46] 令决策信息系统(,,,)S U C D V f =⋃,C ∩D =∅,C 为条件属性集,D 为决策属性集,B C ∅≠⊂,c C B ∈-,定义:
(,)sgf a B =({},)(,)g B c D g B D ⋃-为基于依赖度的属性重要性,其中
(,)g B D =()B Pos D /()C Pos D .
从信息熵的角度,我们可以定义一个属性的重要性:
定义3.2.6[46] 设()E D B 为D 相对于B 的条件熵,B C ∅≠⊂,c C B ∈-,定义:
(,)()({})sgf a B E D B E D B c =-⋃,为基于信息熵的属性重要性。

1.2.3粗糙熵理论和熵约简
熵原先是一个物理学中用来度量热力学分子运动无规则性的一个概念,在概率论中用其来度量剩余信息量,在模糊理论中用其度量模糊集合的模糊性,在粗糙集理论中用其度量粗糙集的粗糙性。

定义3.2.3.1[46] 对于决策表(,,,)S U C D V f =⋃,,B D 是U 上的两个等价关系, 12{,,}n U D Y Y Y = , 12{,,}m U B X X X = ,则,B D 在U 的子集组成的σ代数上的概率分布:
1212,,(,)(),(),()m m X X X X B P X P X P X ⎛⎫= ⎪⎝⎭ ,1212,,(,)(),(),()n n Y Y Y Y B P Y P Y P Y ⎛⎫= ⎪⎝

(),1,2,i i X P X i m U
=
= ,(),1,2,j j Y P Y j n U
=
= ;
定义知识B 的熵()H B 为:1
()()lg ()m
i
i
i H B P X P X ==-∑.
知识D 相对于知识B 的条件熵:
1
1
()()()lg(())m n
i j i j i i j H D B P X P Y X P Y X ===-∑∑.
熵具有有界性,确定性,最大性,连续性等性质,其值具有随着信息粒
度的变小而单调增加。

具体请参看文献。

定理3.2.3.1[46] 设,B D 是U 上的两个等价关系簇,
若()()ind B ind D =,则:()()H B H D =.
定理3.2.3.2[46] 设,B D 是U 上的两个等价关系簇,且B D ⊆,
若()()H B H D =,则: ()()ind B ind D =.
定理3.2.3.3[46] 设U 是论域,B 是U 上的一个等价关系簇,I B ∈,则:
I 是B 中不必要的({})0H I B I ⇔-=.
推论[46]:设U 是论域,B 是U 上的一个等价关系簇,I B ∈,则:
I 是B 中必要的({})0H I B I ⇔->.
定理3.2.3.4[46] 设U 是论域,B 是U 上的一个等价关系簇,D B ⊆则:
D 是B 的约简⇔ (1)()()H B H D =;
(2),({})0d D H d D d ∀∈->.
1.3应用粗糙模糊度度量的不完备信息系统属性约简
1.3.1模糊集和粗糙模糊集
19世纪末,数学家Cantor 首创集合论,他把一定的并且可以明确识别的对象形成的整体,叫做集合。

集合具有无序性,例如:全体三角形是一个集合,全体某学校的男生是一个集合。

这些集合中的对象必定是清晰的,要么属于这个集合,要么不属于这个集合。

而对于生活中人们经常遇到的有些概念却是模糊的。

例如,在研究水温问题时,规定自来水60摄氏度及以上是温水,那59摄氏度,58.5摄氏度,59.4摄氏度的水呢?到底算冷水还是温水,在人们的实际理解中肯定将其归类为温水。

再比如:中国境内的所有小河,某班级的矮个子同学,某班级学习成绩好的学生等等,这些概念没有清晰的划分边界,却是实实在在时时刻刻存在于人们生活之中的。

为了处理这种不确定问题,数学家Zadeh 将这类边界模糊的对象整体定义为模糊集(Fuzzy 集)。

粗糙集与模糊集理论都是处理不确定与不精确问题的重要方法,当知识库各知识模块都是很清晰的,但是由于输入模式的不可分辨关系或者输出模式类别的
模糊性,导致粗糙性与模糊性同时出现,基于这种状况,Dubios 引入了粗糙模糊集[70]的概念。

对于信息系统(,,,)S U A V f =,A 是U 上的一个模糊集合,此时我们可以定义相关的粗糙模糊熵等概念,详细内容请参看文献[71]。

1.3.2粗糙模糊度度量和粗糙集的模糊熵
定义3.3.1 设决策表(,{},,)S U C d V f =⋃,决策属性d 的值域为:
12{,,}d d d
d m V v v v = ,则对于集合X U ⊆,定义集合X 基于信息观下的粗糙集模
糊度度量:
1
1
()ln (1)ln(1)n
S X i
i
i
i
i h F p p p p U
==-
+--∑
式中,/i i p k X =, i k 为集合X 中决策属性值为d
i v 的实例个数。

定义3.3.2 设决策表(,{},,)S U C d V f =⋃,对于{}c C d ∀∈⋃,定义信息函数: :c c f U V →,{}
c c C
d V V ∈⋃=。

给定二元关系T ,条件属性子集P C ⊆,
/(){()}P U SIM P T x x U =∈,定义条件属性子集P 的T 下的模糊熵为:
()
()1
()()(1())P P S T x S T x x U
E P h F
h F U
∈=
-∑
例如:对于不完备信息表3.3.1,1123223{,,},{,},P c c c P c c == 312{,},P c c =
413{,}P c c =,516273{},{},{}P c P c P c ===,
则各属性子集在容差关系T 下的应用模糊度的模糊熵为:
1()E P = 0.11057708,2()E P = 0.11007602,
3()E P = 0.13613263,4()E P = 0.11419747,
5()E P = 0.17965757,6()E P = 0.15631609,7()E P = 0.11119817.
定义3.3.3[31] 在一个二元关系T 下,C 是一个属性子集,记:
/(){()}C U SIM C T x x U =∈式中,(){(,)}C T x y U T x y =∈是对象x U

关于属性子集C 的相似类。

定义3.3.4[31] 设决策表系统为(,{},,)S U C d V f =⋃,条件属性集C 的熵为
()E C ,则属性子集B C ⊆,B 是决策表系统S 的一个熵约简等价于()()
E B E C ≤且'
B B ∀⊂,都有'
()()E B E B .
不完备信息表3.3.1
1x 2x 3x 4x 5x 6x 7x 1c
2 2 1 2 2 1 * 2c 1 1 1 1 1 0 0 3c * 2 1 1 2
3 3 d
A
B
A
A
B
A
C
1.3.3应用粗糙模糊度的不完备信息系统属性约简算法
对于相容的不完备决策表,文献[31]中提出的IEARA 算法,在计算集合X 的信息熵时,仅考虑了集合X 内部部分元素的贡献,忽略了相对于研究对象集合U 的集合X 外部部分元素的贡献。

基于这种情况,对于决策表的属性子集,我们考虑综合属于和不属于集合X 的双方面元素的特征,经研究发现,在某些时候更有利于问题的解决。

在此基础上,我们提出了基于粗糙模糊度度量的不完备信息系统算法(Based on fuzzy degree of attributes reduction algorithm ),简记为*
F 算法,具体算法如下:。

相关文档
最新文档