第七章 决策表属性约简

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章信息表属性约简

基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简(简化),包括属性约简和值约简。本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析,并介绍几种有效的属性约简算法。

7.1决策表属性约简概述

一个决策表就是一个决策信息系统,表中包含了大量领域样本(实例)的信息。在第四章中,我们曾经对决策规则进行了讨论,决策表中的一个样本就代表一条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合,但是,这样的决策规则集合是没有什么用处的,因为其中的基本决策规则没有适应性,只是机械地记录了一个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。

根据定义2.1-1,我们可以进一步讨论决策表中属性的必要性和相应的约简算法。

定义7.1-1 设U是一个论域,P是定义在U上的一个等价关系簇,R∈P。如果IND(P-{R})=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。

绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库的分类能力。相反,若知识库中去掉一个绝对必要的关系,则一定改变知识库的分类能力。

定义7.1-2 设U为一个论域,P为定义在U上的一个等价关系簇,R∈P。如果每个关系R∈P在P中都是绝对必要的,则称关系簇P 是独立的;否则,称P是相互依赖的。

对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;而对于独立的关系簇,去掉其中任何一个关系都将破坏知识库的分类能力。

定义7.1-3 设U 为一个论域,P 为定义在U 上的一个等价关系簇,P 中所有绝对必要关系组成的集合,称为关系簇P 的绝对核,记作CORE(P)。

定义7.1-4 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,且Q ⊆P 。

如果 (1) IND(Q)=IND(P);

(2) Q 是独立的;

则称Q 是P 的一个绝对约简。

如果知识Q 是知识P 的绝对约简,那么,U 中通过知识P 可区分的对象,同样可以用知识Q 来区分。

在讨论决策表信息系统约简的时候,一个条件属性A 就对应着一个等价关系(也称不分明关系或不可分辨关系),即在条件属性A 上取值的相等关系,它对论域U 形成一个划分U/A 。决策表的所有条件属性形成条件属性集合(P )对论域U 的划分U/P ,同时,决策属性集D={d}也对论域形成一个划分U/D 。这两个划分形成了条件属性和决策属性在对论域样本分类上的知识。属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D 有相同的分类能力。这就是相对约简的概念。

定义7.1-5 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,Q 的P 正域记为POS P (Q),定义为:

Q U X P X Q POS P /)()(∈-

=

。 定义7.1-6 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,若POS P (Q)=POS (P-{r})(Q),则称r 为P 中相对于Q 可省略的(不必要的),简称P 中Q 可省略的;否则,称r 为P 中相对于Q 不可省略的(必要的)。

定义7.1-7 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,若P 中的每一r 都是P 中Q 不可省略的,则称P 为(相对于)Q 独立的。

定义7.1-8 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,若P 的Q 独立子集S (S ⊂P )有POS s (Q)=POS P (Q),则称S 为P 的Q 约简。

可以记P 的所有Q 约简关系簇为RED Q (P)。

定义7.1-9 设U 为一个论域,P 、Q 为定义在U 上的两个等价

关系簇,P 的所有Q 不可省略原始关系簇称为P 的Q 核,记为CORE Q (P)。

定义7.1-10 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,如果POS P (Q)=U ,则称论域U 是P 上相对于Q 一致的。

定理7.1-1 设U 为一个论域,P 、Q 为定义在U 上的两个等价关系簇,RED Q (P)为P 的所有Q 约简关系簇,CORE Q (P)为P 的Q 核,则CORE Q (P)=⋂RED Q (P)。

下面再给出在可变精度Rough 集模型相应的属性集之间依赖、独立,以及约简的定义(定义7.1-11至定义7.1-13)。

定义7.1-11 如果),()},{(D C K D a C K ββ=-,则称属性a 是属性集C 中相对于决策属性D 是依赖的;否则称属性a 是属性集C 中相对于决策属性D 是独立的。

定义7.1-12 如果存在条件属性集B (B ⊆C )的真子集E ,使得),(),(D B K D E K ββ=,则称B 相对于决策属性D 是依赖的;否则,称B 相对于决策属性D 是独立的。

定义7.1-13 决策表条件属性集合C 的相对约简C ’是条件属性集合C 相对于决策属性D 的最大的对立子集。

下面通过实例对决策表的约简问题加以说明。

如表7.1-1所示的一个关于气象信息的决策表系统。

表7.1-1 关于气象信息的决策表系统

令Q=决策属性集={d},P=条件属性全集={a1,a2,a3,a4},则

IND(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13}, {14}},

IND(Q)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}},

POS P(Q)=U,

因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表中不包含不一致信息(样本)。

IND(P-{a1})={{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14}, {13}},

IND(P-{a2})={{1,8},{2},{3},{4},{5,10},{6},{7},{9},{11},{12},{13}, {14}},

IND(P-{a3})={{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12}, {14}},

IND(P-{a4})={{1,2},{3},{4,14},{5,6},{7},{8},{9},{10},{11},{12}, {13}},

从而,

POS(P-{a1})(Q)={2,5,9,10,11},

POS(P-{a2})(Q)=U=POS P(Q),

POS(P-{a3})(Q)=U=POS P(Q),

POS(P-{a4})(Q)={1,2,3,7,8,9,10,11,12,13},

由此可知,属性a2、a3是相对于决策属性d可省略的,但不一定可以同时省略。而属性a1和a4是相对于决策属性d不可省略的,CORE Q(P)={a1, a4},

进一步,

IND(P-{ a2, a3})={{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12}},POS(P-{a2,a3})(Q)={3,4,5,6,7,10,12,13,14},

故属性a2是条件属性集P-{a3}相对于决策属性d不可省略的,属性a3是也条件属性集P-{a2}相对于决策属性d不可省略的。条件属性集{a1,a3,a4}和{a1,a2,a4}为相对于决策属性集Q={d}独立的,RED Q(P)={{a1,a3,a4},{a1,a2,a4}},

CORE Q(P)=⋂RED Q(P)={a1,a3,a4}⋂{a1,a2,a4}={a1,a4}。

去掉表7.1-1中的决策属性列,可以得到一个如表7.1-2所示的信息系统。

令P=属性全集={a1,a2,a3,a4},根据前面的计算可知

IND(P)≠IND(P-{a i}), i=1,2,3,4。

即,在表7.1-2所示的信息系统中,所有的属性都是绝对必要的,

相关文档
最新文档