一种基于粗糙集的聚类算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j 个属性特征相同,
因为 X ⊆ X ∪ Y ,所以集合 X 中所有对象的第 j 个属性特 征 都 相 同 , 故 j ∈ S ( X ) , 同 理 有 j ∈ S (Y ) , 由 此 得 出 :
S ( X ∪ Y ) ⊆ S ( X ) ∩ S (Y ) 。
另一方面, 可以证明 S ( X ) ∩ S ( Y ) ⊆ S ( X ∪ Y ) 。 实际上, 对于任意 j ∈ S ( X ) ∩ S (Y ) ,因为集合 X 中所有对象的第 而且集合 Y 中所有对象的第 j 个属性 j 个属性特征都相同, 特征也相同,那么集合 X ∪ Y 中所有对象的第 j 个属性特 征一定都相同, 即 j ∈ S ( X ∪ Y ) , S ( X ) ∩ S (Y ) ⊆ S ( X ∪ Y ) , 因此 S ( X ∪ Y ) = S ( X ) ∩ S (Y ) = S 。 (3)根据集合相似度的定义及 S ( X ∪ Y ) = S 得
(2) 首 先 证 明 S ( X ∪ Y ) ⊆ S ( X ) ∩ S (Y ) 。 对 于 任 意 j ∈ S( X ∪Y ) ,集合 X ∪Y 中所有对象的第
定义 6 集合特征向量加法法则 假设有 n 个对象,描述每个对象的属性有 m 个, X 和 Y 为其中不相交的两个对象子集,相应的集合特征向量分别 为 SFV ( X ) = ( X , S ( X ), SFD( X )) , SFV (Y ) = ( Y , S (Y ), SFD (Y )) , 集合特征向量的加法法则定义为 SFV ( X ) + SFV (Y ) = ( N , S, SFD) 其中, S F D ( X ) = S / X , SFD (Y ) = S / Y , N = X + Y ,
a ,集合 X 的相似度 SFD ( X ) 定义为 S F D ( X )
= a/ X
。
a ∈ A , Va 是 属 性 a 的 值 域 ; f 是 一 个 函 数 , 是 一 个
U × A → V 的映射函数,它为每个对象的每个属性赋予一个 属性值,即 ∀ a ∈ A , x i ∈ U , f ( x i , a ) ∈ V a
1 2 n
定义 4 集合的相似度 假设有 n 个对象, 描述每个对象的属性有 m 个, 取值为 离散值, X 为其中的一个对象子集,其中的对象个数记为 X ,在该子集中所有对象离散区间取值相同的属性个数为
属性集合,分为两个不相交的子集,即条件属性集 C 和决策 属性集 D , A = C ∪ D ; V 是属性值的集合, V = ∪ (V a ) ,
(1. 辽宁工学院计算机系,锦州 121001;2. 北京科技大学管理学院,北京 100083) 摘 要:针对传统聚类算法受数据空间分布影响大且效率较低的问题,提出一种应用粗糙集理论的聚类算法。以信息表中条件属性与决策属性 的一致性原理为基础,以数据超立方体、信息熵实现数据属性约简和离散化。在此基础上,利用集合特征向量加法法则运算,只需扫描一 次信息表就可实现对数据对象的聚类划分。实验结果表明该算法是有效可行的。 关键词:粗糙集;聚类;属性约简;离散化
Clustering Algorithm Based on Rough Set
E Xu1,2, GAO Xuedong2, CHEN Yi2, GUO Hongwei2
(1. Department of Computer Science, Liaoning Institute of Technology, Jinzhou 121001; 2. Management School, University of Science and Technology Beijing, Beijing 100083) 【Abstract】In order to improve the quality of traditional clustering algorithm and prevent the distribution of data from affecting the clustering algorithm greatly, a clustering algorithm based on rough set is proposed. Depending on the consistency of condition attributes and decision attributes in the decision table, the data is discretized and attributes are reduced by using data super-cube and information entropy. Based on the above, the algorithm can use the additivity of set feature vector to cluster data just by scanning the decision table only one time. Illustration indicates that the algorithm is efficient and effective. 【Key words】Rough set; Clustering; Attributes reduction; Discretization
POS
U '
B ∪
2 相关定理
SFD( X ∪ Y ) =
S( X ∪Y ) S = N N ( X ∪Y )
= SFD
根据特征向量的定义,显然有 SFV ( X ∪ Y ) = ( X ∪ Y , S ( X ∪ Y ), SFD( X ∪ Y ))
= ( N , S , NS , SFD ) = SFV ( X ) + SFV (Y )
定义 2 区间划分 设信息系统为 S = (U , A,V , f ) , 决策种类的个数为 r ( d ) , —14—
基金项目: 国家自然科学基金资助项目(70572070); 博士后科学基金 资助项目(2005038319); 教育部春晖项目(Z-1-15007); 教育部博士点 科研基金资助项目(20040147006) 作者简介:鄂 旭(1971-),男,博士生、副教授,主研方向:数据 E-mail:exu21@ 仓库与数据挖掘;高学东,教授、博导;陈 益、国宏伟,博士生 收稿日期:2006-05-28
{
)
)
}
定义 3 信息熵 设 信 息 表 S = (U , A , V , f
),
X ∈ U , U | IND ( D ) =
{Y1 , Y2 ,..., Yn } ,
X
j
X | IND(C ) = { X1 , X 2 ,..., X m } , 对 于 任 意 子 集
j
∈ X
, x ij 是 子 集 X
证明: (1) 因为集合 X 和 Y 不相交,且其中的元素个数分别为 X 和 Y ,所以集合 X ∪ Y 中的元素个数为 X + Y ,即
X ∪Y = X + Y = N 。
其中,a = S SFV ( X ) = ( X , S ( X ), SFD ( X )) ,
,SFD ( X ) = S / X 。
S = S ( X ) ∩ S (Y ) 。
由于算法的需要,根据条件属性与决策属性间的对应关 系、粗糙集理论中的相关概念,本文引入并证明了如下定理。 定理 1 设决策表为 S = (U , A, V , f ) ,其中论域 U 是一个 非空有限对象集合,A 是对象的属性集合, A=C ∪D 且 U C ∩ D = ∅ ,∀ B ⊆ C ,令 U ' = U − PO S B ( D ) 为粗糙负域,如 果 U ' | IND ( B ∪ {c} ) = {m1 , m 2 ,..., m p } ,U ' | IND ( D ) = {n1 , n2 ,..., nq } , 则在粗糙负域中 , ∀c ∈ C ,都有:
定义 5 集合特征向量 假设有 n 个对象,描述每个对象的属性有 m 个,X 为其 一个对象子集,其中的对象个数为 |X|,在该子集中所有对象 取值相同的属性个数为 a ,对应的属性序号为 j s , j s , ..., j s , 则 对 象 集 合 X 的 特 征 向 量 为
1 2 a
SFV ( X ∪ Y ) = SFV ( X ) + SFV (Y )
随着计算机技术、网络技术的迅猛发展与广泛应用,人 们面临着日益增多的业务数据,这些数据中隐含了大量不易 被人们察觉的宝贵信息,为了得到这些宝贵信息,人们想尽 一切办法。数据挖掘技术 [1] 就是在这种需求下应运而生的, 聚类知识发现是数据挖掘中的一项重要内容。目前,国内外 学者已经研究出许多聚类算法 [2],如 K-means 算法、基于密 度的算法等。但这些算法因为对数据空间分布十分敏感,或 者为了提高算法的效率,以损失数据质量为代价进行数据压 缩,因而有时造成聚类结果很差。粗糙集理论 [3,4]是 20 世纪 80 年代初由波兰华沙理工大学 Pawlak 教授提出的。它是一 种处理不确定、不完备知识的理论,简化数据的理论。它最 大特点是仅利用数据本身所提供的信息,而不需要任何附加 信息或先验知识来对数据进行填补 [5] 、离散、属性约简等。 为此,本文应用粗糙集理论提出了一种新的聚类算法。
a a
⎣
⎣
⎣
a
a
⎦
则 在 值 域 V a = [ l a , ra ] 上 的 任 意 一 个 断 点 集 合
{( a , c ) , ( a , c ) , ..., ( a , c )} 定义了
a a a 1 2 ka
Va 上的一个区间划分 Pa:
a a ⎡ a a ⎡ a a ⎤ 。 Pa = ⎡ ⎣ c 0 , c1 , ⎣ c1 , c 2 ,..., ⎣ c k a , c k a + 1 ⎦
根据属性重要性公式计算得出属性冗余属性将其从信息表中删除进而得到信息表的一个属性约简经过本算法中的连续属性离散化步骤对信息表进行离散化后可得离散决策表05sfd合并后集合的内部相似度不小于一个类内对象的相似度下限05因此将合并到一个集合作为一个初始类记为合并合并后的集合中数据对象05sfd合并后集合的内部相似度不小于一个类内对象的相似度下限05因此将合并到一个集合作为一个初始类记为合并合并后的集合中数据对象025sfd合并后集合的内部相似度小于一个类内对象的相似度下限05所以将个数c变为大于一个类内对象的相似度上限05那么将合并到一个集合作为更新后的初始类仍然记为小于一个类内对象的相似度下限05那么将依次进行类似操作直到得到最后的初始类141610111213结论从聚类结果可以看出只有数据对象被错误地划分到了异类别中其余数据对象的聚类结果完全符合预先已知的class分类
属 性 a ∈ A 的 值 域 Va 上 一 个 断 点 记 为 ( a , c ) 。 若 l a = a a a a a a a a a a , , c0 < c1a < c2 < ... < ck < ck +1 = ra Va = ⎡ c0 , c1 ) ∪ ⎡ c1 , c2 ) ∪ ... ∪ ⎡ ck , ck +1 ⎤
第 33 卷 Vol.33
第4期 No.4
计 算 机 工 程 Computer Engineering
文章编号:1000—3428(2007)04—0014—03 文献标识码:A
2007 年 2 月 February 2007
中图分类号: TP18
·博士论文·
一种基于粗糙集的聚类算法
鄂 旭 1,2,高学东 2,陈 益 2,国宏伟 2
j
中 含 有 类 Yi 的 样 本 数 , 若
p ij = x ij / X
,则信息熵为
m i =1
I ( X 1 j , X 2 j ,..., X mj ) = − ∑ pij log ( pij )
1 相关概念
定义 1 信息系统
设信息系统为 S = (U , A, V , f ) ,其中 U 是一个非空有限对 象集合, U={ x , x , ..., x },式子中的 xi 为对象; A 是对象的
m j =1
j =1
= ∪ POS U ' ( D ) n B ∪ {c}
j =1
m
i
U 定理 2 设 ∀ B ⊆ C , ∀ c ∈ C 且 ∉ B , U ' = U − POS B (D )
为粗糙负域,则有:
( D )n i
'
{c }
(D ) =
i=1
∪ POS
m
U '
B ∪
{c }
总结上述,定理得证。
| B ∪ {c} : Yi ⊆ X j= ∪ B ∪ {c} ( X B ∪ {c }
'
m
j =1
j
{Yi ∈U )=∪ j =1
m
}
= ∪ {Yi ∈ {Y1} ∪ {Y2 } ∪ ... ∪ {Yn } : Yi ⊆ X j } = ∪ {Yi ∈{Yi } : Yi ⊆ X j }