属性约简

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。

定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数

:U V c a f A ⨯→ .

例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,

1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.

表2.1.1 信息系统

定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈,

I U 称为上的不可分辨关系。

(1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有:

自反性:xIx ; 对称性:xIy yIx ⇒;

传递性:,xIy yIz xIz ⇒ .

(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,

12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。

(4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,

12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I P

ind P I P ∈== ,

则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。

()[][]ind P I I P

x x ∈= 称为P 的基本知识。

当12()()ind I ind I ⊆,称1,I 比2I 细,21I I .

1.1.1粗糙集与近似

定义2.1.3[46] X U ⊆,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1

t

j

i t X

= ,称X 是关于I 的精确集。否

则称X 是I 的粗糙集。

定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ⊆,X U ⊆,

x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为:

下近似:()D apr X DX ={:()}x U D x X =

∈⊆ {,}Y U D Y X =∈⊆ {[][],}D D x x X x U =⊆∈ ;

上近似: ()D apr X =DX =

{:()}x U D x X ∈⋂≠∅

{,}Y U D Y X =∈⋂≠∅ {[][],}D D x x X x U =⋂≠∅∈ ;

负区域:()D neg X =()D U apr X -=

{:()}x U D x X ∈⋂=∅ ;

边界区域:()D bnd X =()D apr X ()D apr X -DX =DX -.

下近似是肯定属于某一子集的对象的集合,上近似是可能属于某一子集的对象的集合。

定义 2.1.5[46]给定一个知识系统(,,,)S U A V f =令12{,}n X X X Γ= 为论域U 的知识,其中

(1,2,)i X i n = 是Γ的第i 个类别,P A ⊆,

则定义: 1

1

()

()()

n

P

i

i P n

P

i

i apr X apr X α==Γ=

∑∑为知识Γ的近似精度,

1

()

()n

P

i

i P apr X U

γ=Γ=

∑定义为知识Γ的近似分类质量。

()P γΓ度量了知识Γ对于属性集P 的依赖程度。当()P γΓ=0,则说明知识Γ

完全不依赖于属性集P ,即属性集P 对知识Γ完全没有影响;当0<()P γΓ<1,则说明知识Γ在()P γΓ数值的程度上依赖于属性集P ,即属性集P 对知识Γ影响是有限的,或者数据集本身具有自身矛盾性等其他缺陷;当()P γΓ=1,则说明知识Γ100%依赖于属性集P ,即知识Γ完全取决于属性集P .

在粗糙集信息系统中,设R 是一个等价关系簇,I R ∈,如果

{{}}{}ind R I ind R -=,则称I 在等价关系簇R 中是不必要的。否则称I 在等

价关系簇R 中是必要的。若R 中的每一个等价关系I 都是必要的,则称R 是独立的。知识约简就是在知识库分类能力保持不变的情况下,删除不相关的冗余属性。

定义2.1.6[46] 对于信息系统(,,,)S U A V f =,若对于属性子集B A ⊆中每一个属性在B 中都是必要的,则称B 是独立的;若在属性子集B A ⊆中,存在

某一属性在B 中是不必要的,则称B 是相依的。

定义2.1.7 若D B ⊆,满足下面两个条件: (1) D 是独立的。 (2) ()()ind D ind B =

则称D 是B 的一个约简。记为:()D Red B ∈。B 中所有的必要关系组成的集合,称为B 的核,记为:()Core B 。即:()()Core B Red B = 。核是信息系

统中的核心属性集,是所有约简的公共部分。

例如:(,)K U =I ,128{,}U x x x = ,

114528367{{,,},{,},{},{,}}U I x x x x x x x x =, 213562478{{,,},{},{,,,}}U I x x x x x x x x =, 315627834{{,},{},{,,},{,}}U I x x x x x x x x =,

求:123{,,}I I I 的约简和核。

解:1215428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =

12315628743{,,}{{,},{},{,},{},{},{}}U I I I x x x x x x x x =

因为 12123{,}{,,}U I I U I I I =, 所以

12{,}I I 是123{,,}I I I 的一个约简。

1315428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =123{,,}U I I I =

所以

13{,}I I 也是123{,,}I I I 的一个约简。

2315362784{,}{{,},{},{},{,,},{}}U I I x x x x x x x x =≠123{,,}U I I I

所以

23{,}I I 不是123{,,}I I I 的约简。

综上所述:1231213{,,}{{,},{,}}Red I I I I I I I =,

1231{,,}{}Core I I I I =.

相关文档
最新文档