熵及条件熵的相关定理及其证明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
熵及条件熵的相关定理及其证明
设出属性集合P 和D ={d }导出的对论域()n U U =||的划分分别为
(){}n X X X P IND U ⋯=,,|21和(){}n Y Y Y d IND U ⋯=,,|21,则有如下定理成立: 定理[]()()()P H P D H P D H == |1.339。
定理3.2设U 是一个论域,P ,Q 是U 。
上的两个属性集合
若 ()(),P UIND Q UIND =则()()P H Q H =(逆并不成立)。
定理 3.3设U 是一个论域,P ,Q 是U ,上的两个属性集合
且Q P ⊆,若()()P H Q H =,则()()P UIND Q UIND =。
定理3.4设U 是一个论域,P 是U 上的一个属性集合,P 中的一个属性r 是不必要的,其充分必要条件为{}{}()0=-r P r H 。
推论3.1P 中的一个属性r 是必要的必要条件为{}{}()r P r H ->0。
定理3.5设U 是一个论域,P 是U 上的一个属性集合,Q 是P 的一个约简的充分必要条件为()()P H Q H =,且对任意的Q q ∈都有{}{}()q Q q H ->0。
由定理3.3、定理3.4和定理3.5可知,对于属性约简而言,信息熵表示形式与代数表示形式是等价的。
可以从信息熵的角度来研究属性约简问题,但上述定理还仅仅是针对一般信息表的约简问题(绝对约简)而言的。
对于决策表的相对约简问题,文献[11]证明了如下定理。
定理3.6设U 是一个论域,P 是U 上的一个属性集合,d 为决策属性,且论域U 是在P 上相对于{d }一致的,则P 中的一个属性r 是P 相对于决策属性d 不必要的(多余的),其充分必要条件为{}(){}{}()r P d H P d H -=||。
证明:首先令(){}n X X X P IND U ⋯=,,|21,(){}m Y Y Y d IND U ⋯=,,|21。
因为论
域U 是在P 上相对于{d }一致的,即{}()U d POS p =,所以()P IN D
U |是{}()d IND U |的细分,有{}()(){}n X X X P IND U d P IND U ⋯==+,,||21,
{}()()()()0|log ||1111111=-=∑∑==n j m
j X Y P X Y P X P P d H
必要性:假设属性r 是P 相对于决策属性d 不必要的,则{}(){}()U d POS d POS P r p ==-,所以{}()r P I N D U -|是()d IND U |的细分。
令{}{}(){}(){}k ,Z
Z Z r P IND U d r P IND U ⋯=-=+-21,||则
{}(){}()()()()∑∑====-m j k j Z Y P Z Y P Z P r P d H 1
1111110|log ||故
{}(){}{}()r P d H P d H -=||。
充分性:假设{}(){}()d POS d POS P r p ≠-令{}(){}k ,Z Z Z r P IND U ⋯=-21,|,则至少存在{}()(){}()()d IND U Y Y r P IND U Z Z j j ||1111∈-∈和{}()()d IND U Y Y j j |22∈,21j j Y Y ≠使得≠11j Y Z Ø且≠21j Y Z Ø。
因此
{}{}()()()()()∑∑===-n j j m
j X Y P Z Y P Z P r P d H 111111|log ||>0
{}{}(){}()0||==-P d H r P d H 相矛盾。
故假设{}()U d POS r p ≠-不成立,则有{}(){}()d POS U d POS P r p ==-成立。
根据相对约简的定义知,属性r 是P 相对于决策属性d 不必要的。
定理3.7[]39设U 是一个论域,P 是U 上的一个条件属性集合,d 为决策属性,且论域U 是在P 上相对于{}d 一致的。
则P 是相对于决策属性d 独立的,其充分必要条件为对于P 中任意属性r 都有{}(){}{}()r P d H P d H -≠||成立。
定理3.8[]39设U 是一个论域,P 是U 上的一个条件属性集合,d 为决策属性,且论域U 是在P 上相对于{}d 一致的。
则P Q ⊆是P 相对于决策属性d 的一个约简的充分必要条件为{}(){}()P d H Q d H ||=,且Q 是相对于决策属性d 独立的。
为了找出某些属性或属性集合的重要性,需要从属性集合中去掉一些属性,再来考察没有该属性后分类会发生什么变化。
若去掉该属性分类情况改变较大,说明该属性重要性高,反之重要性低。
可以想见,属性的重要性可以用正域来衡
量。
定理3.7和定理3.8的证明,根据定理3.6和相对独立与相对约简的定义是容易得到的。
由定理3.6定理3.7和定理3.8可以知道,对于不包含不一致信息的决策。