信息系统的属性约简算法-【中文】概要

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

快速计算属性约简算法[Qian Shen]
基于Skowron差别矩阵的属性约简算法
定义 (差别矩阵) 设IS (U , A,V , f )是一个信息系统,其中 ,论域是 对象的一个非空有限集 合U {x1, x 2, , xn}, U n, 则定义 c11 c21 ( ) M nn cij nn cn1 c11 c21 cn1 *
属性约简算法分类

依据有无启发式 1、盲目法 2、启发式算法
例如:盲目删除属性约简算法 例如:基于Pawlak属性重要 度的属性约简算法,基于差 我们常用的大 别矩阵的属性约简算法,基 多是启发式的 于信息熵的属性约简算法等 添加算法
例如:盲目删除属性约简算法 例如:基于属性重要度的属 性约简算法,基于信息熵的 依据属性获取途径 属性约简算法等
则称P' 是P的约简
7. 属性的核 给定信息系统 IS U , A,V , f , P A P中所有必要属性构成的集合称为P的核,记为CORE(P)
属性约简算法

信息系统的盲目删除属性约简算法
基于Pawlak属性重要度的属性约简算法
基于Skowron差别矩阵的属性约简算法 基于信息熵的属性约简算法
基于Pawlak属性重要度的属性约简算法

2、具体步骤
( 2 ) 求属性约简算法 输入:信息系统IS (U , A, V , f )。 输出:属性集合 A 的约简 RED( A). 具体步骤: 第1步 第 2步 第3步
思想:从核开始 逐个添加,直到 满足约简条件。
依照求核算法求出信息 系统IS的核CORE( A); 令B CORE( A),如果IND(B) IND(A), 转向第 5 步; a A \ B, 计算属性重要度sig( a, B ) | IND(B {a}) | - | IND(B ) |,
?
cardU IND , cardU IND (B {a}) ( B) cardU
然后取 a* arg max {sig( a, B; A)}, 这里的arg表示取使重要度达到最 大的
a A B
参数a,而非最大的重要度值 , B CORE( A) {a*}, 转到 (3) 。
j 1 n
f : U A V 即 f xi , a j aij 1 i N;1 j n
表1. 一个信息系统的例子
No. 1 2 3 4 5 Outlook Sunny Sunny Overcast Rain Rain Temperature Humidity Wind Hot Hot Hot Mild Cool High High High High Normal Weak Strong Weak Weak Weak Decision No No Yes Yes Yes
基于Pawlak属性重要度的属性约简算法

2、具体步骤 ( 1 ) 求核算法
输入: 信息系统IS (U , A, V , f ). 输出: 属性集合A的核CORE( A). 具体步骤: 第 1 步 设R ; 第 2 步 a A, 如果IND(A \ {a}) IND(A),则R R {a}; 第 3 步 CORE( A) R 即为所求,输出 R, 算法结束。
aC \ B aC \ B
求得 a* arg max sig( a, B ) , 如果满足 max sig( a, B )的属性有多个,则 选取划分个数最小的属 性,然后,令B B {a*}; 第 4步 第5步 如果 IND(B) IND(A) ,转向第 3 步,否则转向第 5 步; 输出 B RED( A),算法结束。
Strong
Strong Weak Weak Weak Strong Strong Weak
No
Yes No Yes Yes Yes Yes Yes
14
Rain
Mild
High
Strong
No
2. 不可分辨关系(等价关系) 给定信息系统 IS U , A,V , f , x,y U R A, 称x和y关于R是不可分辨的,如果
定理
CORE A a | a A cij | cij M nn cij 1 元素组成的集合。




即信息系统的核等于该 信息系统的差别矩阵中 所有单属性
证明:当cij {a | a A}是单个属性的元素时, 去掉它一定 会改变信息系统的分类 能力,即属性 a在A中是绝对必要的, 否则不必要的。因此所 有必要属性组成的集合 即信息系统的核, 在差别矩阵表示法中转 化为所有简单属性组成 的集合。
基于Pawlak属性重要度的属性约简算法

属性重要度度量了属性对信息系统的分类能力
定义 (属性的重要度) 设给定一个信息系统 IS (U , A,V , f ), B A以及a A B, 定义
cardU IND (B {a}) cardU IND (B) sig( a, B; A) , cardU
INDP INDP p
则称属性p为P中不必要的(或冗余的),否则称p
为P中不必要的。
如果P中任意属性都是必要的,则称P是独立的。
6. 属性约简 给定信息系统 IS U , A,V , f ,P A 对任意的 P P ,若P' 满足如下条件
(1) P是独立的 (2)INDP INDP
3. 下近似和上近似 给定信息系统 IS U , A,V , f , R A ,X U X关于R的下近似和上近似分别定义为
R X x | x U xR X

R X x | x U xR X
例题
输入:信息系统 IS (U , A, V , f) .
第 2 步 a A, 若a B, 则Mark(a ) 0, 否则Mark(a ) 1; 第 3 步 任意选取一个a B, 且Mark(a ) 0,令Mark(a ) 1,如果 U / IND(B {a}) U / IND(B), 则从B中删除属性a,即B B {a}, 转到第2步;否则,转到第 4步; 第 4 步 若a B且Mark(a ) 0,转到第3步, 否则,算法结束,输出 B.
为属性a对属性集B的重要度。
基于Pawlak属性重要度的属性约简算法

1、构造思想
(1) B ; (2) B CORE( A); (3) 判断IND(B ) IND(A), 若成立则输出CORE A a | a B, 否则转到(4); (4) 计算a A B关于信息系统核B CORE( A)的重要度 sig( a, B; A)
对表1所示信息系统,
负类
正类
(1)设R={Outlook},X={1, 2, 6, 8, 14},计算X关于R 的下近似 R X 和上近似 R X 。 (2)设R={Outlook, Temperature},X={3, 4, 5, 7, 9, 10, 11, 12, 13},计算X关于R的下近似 R X 和上近 似 R X 。
下面分别求X1和X2关于P的下近似 P X1 和 P X 2 。
根据下近似的定义得 ,而
从而 故
这说明对于信息系统 U ,只要条件属性 Outlook 的值等于 Overcast ,则可断定该 样例为负类。
5. 属性集的独立性 给定信息系统 IS U , A,V , f , P A 如果对于任意的 p P 下式成立
1、删除法 2、添加法
信息系统的盲目删除属性约简算法
定义 (标记函数Mark(a) ) 设A是给定信息系统 的属性集,a A, 定义 0, a尚未被访问 Mark(a ) 1, a已被访问 为属性a的标记函数。
信息系统的盲目删除属性约简算法
算法的具体步骤:
思想:从属性全 集中逐个删除, 输出:该信息系统的一 个属性约简B RED( A ). 直到满足约简条 件。 第 1 步 取 B A;
c c c
12 22

n2
c11 * 2n cnn *
c c
1n
c c
12 22
*
2n cnn
c c
1n
c
n2
* * 为信息系统的差别矩阵 ,其中 cnn
cij a | a A f a xi f a x j i, j 1,2, , n。

核等于差别矩阵中所有简单属性(单个属性)元素的集合。
注1:差别矩阵的元素 cij是能区分xi 和x j 的所有 简单属性组成的集合。 当对象xi x j 时,规定cij 。 注2:因为cij c ji (i, j 1,2,, n), 所以差别矩阵是 关于主对角线的对称矩 阵,常用上或下三角矩 阵表示。
注:说明仅用R来描述X(负类)是不够的
解:(1)根据上近似的公式
R X x | x U xR X
因为U1, U2,U3和X均有非空交集,故X的R上 近似为全集(论域)。 (2)可类似求解
4. Q-P正域 给定信息系统 IS U , A,V , f , P, Q A Q的P正域定义为
6
7 8 9 10 11 12 13
Rain
Overcast Sunny Sunny Rain Sunny Overcast Overcast
Cool
Cool Mild Cool Mild Mild Mild Hot
Normal
Normal High Normal Normal Normal High Normal
信息系统的属性约简算法 信息系统的特征选择算法
输入
信息系统 或决策表

算法
属性约简 或降维

输出
约简 REDUCT 属性子集


Preview
1. 信息系统是一个4元组 IS U , A,V , f
U x1 , x2 ,, x N
A a1 , a2 ,, an
V Va j
注源自文库用知识R描述决策类的问题
解:(1)根据下近似的公式
R X x | x U xR X
先计算样例x的R等价类,分别是: U1={1, 2, 8, 9, 11}; U2={3, 7, 12, 13}; U3={4, 5, 6, 10, 14}.
X={1, 2, 6, 8, 14} U1, U2,U3均不包含于X,故X的R下近似为空集。
a R,f x,a f y,a
例题
对表1所示信息系统, (1)若R={Outlook},则样例1, 2, 8, 9, 11关于等价关系 (或知识) Outlook 是不可分辨的,因为它们在属 性 Outlook 上的取值是相同的。类似地,样例 3, 7, 12, 13关于Outlook是不可分辨的;样例4, 5, 6, 10, 14关于Outlook是不可分辨的。 (2)若 R={Outlook, Temperature} ,则样例 1, 2 关于 R 是不可分辨的;样例3, 13是不可分辨的;样例4, 10, 14是不可分辨的;……
POSP Q
X U /Q
PX
说明:若 Q 为决策属性子集 ( 一般决策属 性是单属性),P为条件属性子集,则Q-P 正域描述的是用知识R可以完全描述决策 类。
Q-P边界域
Q-P负域
Q依赖P的依赖度
条件属性a∈P相对于决策属性Q的重要度
例题
负类
正类
对表1所示信息系统,设P={Outlook}, Q={Decision}, 计算信息系统的Q-P正域。 解:首先求论域关于决策属性Q的划分,得 X1={1, 2, 6, 8, 14}, X2={3, 4, 5, 7, 9, 10, 11, 12, 13}
相关文档
最新文档