基于粗糙集的符号与数值属性的快速约简算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4. 实验分析
为测试优化算法的效果，采用 UCI 数据集作
对比实验. 所用的数据集构成如表 1 所示.
表 1 数据集描述
数据集
样本个数
数值型属性
符号型属性
类别数
1
abalone
4177
7
1
29
2
mushroom
8124
0
22
2
3
letter
20000
16
0
26
4
diabe
768
8
0
2
5
glass
214
度为 (k + n) / N . 由于需要计算邻域，判断某个样本是否在正
域时，其他样本，无论是否已判定在正域内的，都将被用到。具体算法如下：
算法 1：前向搜索邻域粗糙集属性约简快速算法 (FARNeMF) 输入：决策表 < U , C, D,V , f >
输出：属性子集 red
步骤 1：初始化 red = ∅ ，初始化待检验样本集 smp _ chk = U 步骤 2： while smp _ chk ≠ ∅
for each ki ∈ (C − red ) DTi =< U , red U ki , D,V , f > ；初始化 POSi = ∅ ； for each a j ∈ smp _ chk 计算 a j 在 DTi 下的邻域 δ (a j ) ； if δ (a j ) 各样本决策属性 D 取值相同 POSi = POSi U a j ； end if end for
对于 xi ∈U ，定义 xi 的邻域为 δ B (xi ) = {x j | x j ∈U , Δ B (xi , x j ) ≤ δ } , 其中 Δ 是一个距离函数.对于 ∀x1, x2 , x3 ∈U ， Δ 满足如下关系 1) Δ(x1, x2 ) ≥ 0 ， Δ(x1, x2 ) = 0 ，当且仅当 x1 = x2 ; 2) Δ(x1, x2 ) = Δ(x2 , x1) ;
关键词粗糙集，属性约简，邻域，属性重要度，快速算法
Efficient Symbolic and Numerical Attribute Reduction with Rough Sets
Hu Qing-hua, Zhao Hui, Yu Da-ren (Harbin Institute of Technology, Harbin 150001, Heilongjiang)
Key words rough set; attribute reduction; neighborhood; attribute significance; fast algorithm
1. 引言
粗糙集理论自 1982 年由Pawlak教授提出以来，得到了广泛的重视和发展.目前已被应用于属性选择[1]、分类器设计[2]等问题的研究中.但经典粗糙集理论定义在等价关系基础上，只能处理名义型数据，对数值型数据必须通过离散化后才能处理.这就给直接应用带来了不便.连续数据经过离散化处理可能会丢失重要信息[3].并且不同的离散化策略会影响最终的处理效果.为此，人们引入了邻域粗糙集模型来进行数值属性约简和分类器构造[4，5].
实验发现，FARNeM0 计算过程占用了实验绝大部分时间（图 1）.且内存占用率高.Mushroom 有 8124 个样本，计算到 2500 的样本规模时，系
computational time(s)
10000 8000 6000 4000 2000 0 0
FARNeMF FARNeM1 FARNeM0
Δ P (x1, x2 ) 定义是对于数值型属性集而言，但邻域模型很容易将距离计算扩展到含有符号
和数值型的数据上来.对于符号型属性 ai ，可定
义
1） | f (x1, ai ) − f (x2 , ai ) | =0，若 x1, x2 在 ai 上取
值相同
2） | f (x1 , ai ) − f (x2 , ai ) | =1，若 x1, x2 在 ai 上取
我们在文献[4]已经证明了邻域粗糙集模型下正域与属性集的单调关系，但并未在属性选择过程中运用这一性质，提高运算速度.本文利用这一性质指导属性选择算法，并用实验验证这一性质对提高运算速度的有效性.
2. 邻域粗糙集的性质分析
对于信息系统 IS =< U , A,V , f > , 其中 U = {x1, x2 ,..., xn } 表示非空有限集合，称为论域. A 是属性集合，V 是值域. f :U × A →V 是一个信息函数,表示样本与其属性取值的对应映射关系.如果 A = C U D ，其中，C 是条件属性，D 是决策属性，则 < U , A,V , f > 称为一个决策表.
1000
2000
3000
numbers of samples
统已提示 out of memory.且在占用虚拟内存时，
(a) abalone 上的计算时间
计算速度异常变慢，计时方式来对比已不科学. 由于时间太长，abalone 未能计算完成.该方法在后面大数据实验时不作比较.
在FARNeMF与FARNeM1 的比较中（图 2），发现由于FARNeMF大量减少了样本比较次数，较大幅度地提高了计算速度图 2(c,e).例外的是图 2(a)，FARNeM1 居然比FARNeMF速度还快些.但两
基于经典粗糙集正域、互信息和属性重要度的属性选择得到了广泛研究，并产生了很多算法和快速算法[6，7，8，9，10].这些算法是结合经典粗糙集下粒化特点完成的，无法应用于邻域模型下的快速计算.如文献[9]，通过简化决策表、样本排序，来减小搜索空间，提高搜索速度，这些策略在邻域粗糙集模型下是无法实现的.由于要通过计算距离来确定样本间的相邻关系，邻域模型下的计算量要比经典离散空间下的大得多.
end for 找出最大的 POSi 和对应的 ki ； if POSi ≠ ∅
red = red U ki ； smp _ chk = smp _ chk - POSi ； else 退出 while 循环； end if end while 步骤 3：return red
由前面分析可知，本文的加速思想不改变结果，只对速度产生影响.
性质 3：如果 M ⊆ N ⊆ C ，X ⊆ U 则 M X ⊆ N X . 对于两种粗糙集模型，根据下近似的定义，可得
性质 4：若 M ⊆ N ⊆ C ，则 POSM (D) ⊆ POSN (D) .
性质 5： M ⊆ N ⊆ C ， X ⊆ U 则 ∀x ∈U ，若 x ∈ POSM (D) ，则 x ∈ POSN (D) .
Abstract Rough set theory has been widely used in the domain of feature reduction, where considerable
computational complexity is available, especially for the neighborhood model. In this paper, we analyze some mathematical properties of neighborhood rough set model. Using the property that positive region increases with the amount of attributes, we introduce an optimized method used in forward attributes selection strategy based on dependency，with the purpose of decreasing comparison times and improving computational efficiency. The experiments show that our method is effective.
性质 2： M ⊆ N ⊆ C ， X ⊆ U ，则 ∀x ∈U ，若 δ M (x) ⊆ M X 则δ N (x) ⊆ N X . 证明：由下近似定义可知 δ M (x) ⊆ X ，由性质 6 可得 δ N (x) ⊆ δM (x) ⊆ X ，从而由下近似定义得 δ N (x) ⊆ N X 由性质2中 x 任意性，可得
有问题，相反从侧面验证了加速策略的特点.我
度相似性.为去除程序差异造成的计算时间差
们关注的是在计算量较大的数据集上的比较结
别，另外统计了样本比较次数.
果.
为观察样本规模对三种方法计算时间的影响，使用三个较大的数据集，属性不变，逐渐改变样本数量，来进行实验.结果以曲线形式显示在图 1 和图 2 中.计算环境是一台 PC 机(P4 3.0GHz，1GB 内存).本文实验若用到邻域阈值，均设为 0.15，采用的距离为无穷范数.
在正域(该算法标记为FARNeM0).因此区别矩阵
于或等于 2 时才行，且前面属性的依赖度越大，
在这里不便使用.为便于对比，同样的算法，若效果越明显).此时，复杂化的计算流程造成了图
不采用区别矩阵，记为FARNeM1，而采用加速策 2(a)所示的比较结果.此结果不能说明优化算法
Βιβλιοθήκη Baidu
略的程序标记为FARNeMF.两个程序结构有着高
computational time(s)
6000 5000 4000 3000 2000 1000
9
0
7
6
iono
351
32
2
2
7
wine
178
13
0
3
8
zoo
101
在文献[1]提出邻域分类器以处理混合型数
0
16
7
10-4规模.而其他样本集都选到两个以上的属性.
据时，属性选择算法中我们使用了区别矩阵，每可见本文的加速思想在此时未发挥作用,由图
次加入一个候选属性后，重新判断各个样本是否 2(b)也可见(理论上，只有在选出的属性子集大
3. 属性选择快速算法
属性选择过程常采取前向贪心搜索策略，通过测试加入新的候选属性后度量指标的变化，来生成新的属性子集.以粗糙集属性依赖度作为度量指标时，需计算属性子集下的正域样本个数. 以往在逐个向已选条件属性集 E 中添加任一新
属性 r 时，要重新依次判断各个样本是否在正域内.根据性质 5，若样本 x 为 E 上的正域样本，则 x 也是 (E + r) 上的正域样本.即，新加入的属
3) Δ(x1, x3 ) ≤ Δ(x1, x2 ) + Δ(x2 , x3 ) .
对于 N 个属性的样本集，距离常用 P 范数表示为
∑ Δ
P
(
x1
,
x
2
)
=
⎜⎜⎝⎛
N i =1
|
f (x1, ai ) −
f (x2 , ai ) |P ⎟⎟⎠⎞1/ P
其中 f (x, ai ) 为样本 x 在属性 ai 上的取值.
性仅对区分边界样本有效.根据这一特性，在计算决策属性 D 对 (E + r) 的属性依赖度时，只需判断原来负域中的样本即可.由此可能大大减少样本判断次数.
若U 中样本个数为 D ，在已选属性子集 E 下，正域样本集为 S ，D 对 E 的属性依赖度为 k , 加入属性 r 后，U − S 中的样本在 (E + r) 下正域样本为 s ，个数为 n ，则 D 对 (E + r) 的属性依赖
值不同
从而邻域粗糙集下近似、上近似、边界分别
为：
ΝX = {xi | δ (xi ) ⊆ X , xi ∈U}
ΝX = {xi | δ (xi ) I X ≠ ∅, xi ∈U}
BNX = ΝX − ΝX
给定邻域大小，则有以下性质：
性质 1：在 P 范数距离定义下，如果 M ⊆ N ⊆ C ，
X ⊆ U 则 ∀x ∈U ， δ N (x) ⊆ δ M (x) . 证明：由 Δ P (x1, x2 ) 和 δ B (xi ) 的定义直接可得
基于粗糙集的符号与数值属性的快速约简算法
胡清华，赵辉，于达仁
（哈尔滨工业大学哈尔滨 150001）
摘要粗糙集理论被广泛应用于属性约简，复杂性是制约这些算法应用于数据挖掘任务的主要障碍，尤其是邻域模型下的约简问题.本文分析了邻域粗糙集模型的数学性质，利用正域与属性集的单调关系，构造基于属性依赖度和前向搜索策略的快速算法，以降低样本比较次数，提高计算效率.实验分析表明了算法的有效性.