基于约简数据集的FCM聚类算法_吕晓云
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于模糊划分的相关定义如下所示:
定义 1 模糊集合[5]:假设 = { }表示点空间, 中模糊集
合 是一组有序数对集: = { , 集 A 中的隶属度。
}, ,其中 uA(x)是模糊
定义 2 模糊划分 :论 [6-7] 域 上的一模糊集合族 =( ∣
)叫做 的一个模糊划分距阵,若满足如下条件:
(1)
Abstract:To solve the problem that amount of computation is too large when the distance between the multi-attribute data sample and the center of the class is calculated using Euclidean distance function in fuzzy C-means (FCM) clustering algorithm, an FCM clustering algorithm based on attribute reduction is proposed. In the proposed algorithm, first, attributes of the initial data are reduced based on the rough set theory, and the redundant values of data objects are eliminated; and then fuzzy clustering is carried out on the reduction attribute sets. Experimental results show that the amount of computation of the distance function of FCM algorithm is effectively reduced in the algorithm, and the efficiency of the implementation of FCM algorithm is improved without reducing the prosion of clustering. Key words:fuzzy partition; FCM algorithm; rough set; attribute reduction; discernibility matrix
样本数据集fcmclusterx?步骤1根据公式2和计算出初始模糊距阵步骤2根据公式3和计算出第一次迭代后模糊距阵1步骤3根据公式2和1计算出初始模糊距阵1步骤4得到第步骤5如果停止运算输出1否则tt1返回步骤123基于约简数据集的fcm算法fcm算法的每一次迭代都要计算数据点与类中心的距离数据点其中表示第406420103118计算机工程与设计computerengineeringdesign个类中心点的第维属性上的值
FCM clustering aglrotithm based on attribute reduction
.. LU Xiao-yun1, LI Xing-yi1, SHI Hua-ji2 (1. School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang 212013, China; 2Computer Application Institute, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
1 相关概念
1.1 模 糊 C-均 值 聚 类相 关 概 念 设由 个数据点组成的 维样本数据集 = { 1,2,…, },
每个数据点为 = { 1,2,…, },∈{1,2,3,…,}。将数据集
收稿日期:2009-10-19;修订日期:2009-12-19。 基金项目:国家火炬计划基金项目 (2004EB33006);江苏省高校自然科学指导性计划基金项目 (05JKD520050)。 作者简介:吕晓云 (1984-),女,江苏盐城人,硕士研究生,研究方向为数据挖掘、计算机网络与分布计算; 李星毅 (1969-),男,江苏镇江 人,博士,副教授,研究方向为数据挖掘、空间数据库、交通信息系统和控制理论; 施化吉 (1964-),男,江苏镇江人,博士,教授,研究方 向为数据挖掘、计算机网络与分布计算、企业应用集成。E-mail:lixingyii@
摘 要:为了解决模糊 C-均值 (FCM) 聚 类算法在使用 欧氏距离计算样 本与类中心点 的距离时计算量 大的问题,提出了 一种 基于 属性约简的 FCM 聚类算 法。该算法根 据粗糙集理论对 初始数据进行 属性约简,消除 数据对象中的冗 余值,然后再 对约 简后 的属性集进行模 糊聚类。实 验结果表明,该 算法能有效减少 FCM 算 法的距离函数 计算量,在不降低 聚类精度的前提 下, 提高 了 FCM 算法的执行效率 。 关键 词:模糊划分; FCM 聚类; 粗糙集; 属性约 简; 区分矩阵 中图 法分类号:TP311 文献标识码 :A 文章编 号:1000-7024 (2010) 18-4062-03
,
,满足 >0.5;
于一般聚类算法当 中。模糊 C 均值(fuzzy c-means)聚类算法是将模糊划分理论用 于 C 均值聚类算法,采用平方和函数作为聚类目标函数如式 (1),把聚类归结成一个带约束的非线性规划问题,通过求解最 小 值 得 到 数 据 集 的 聚 类 。其 中 数 据 点 与 类 中 心 点 的 距 离 用 欧 几里德距离计算。FCM 算法目标函数如下所示[8]
区分距阵 (也称为可辨识距阵) 是由 Skowron[2] 教授提出,是经
常使用的一种属性约简方法。定义如下:
定义 3 [5] 令信息表系统为 = < , ,,>,其中 是属性
集合, 是属性值的集合, = { ∣ = 1,2,…,}, = { 1,2,…, }是论域, 是样本 在属性 上的取值, , 表示区分矩阵
中第 行第 列的元素,则区分矩阵 M 定义为如下所示
, = { ∣ ∧ },, = 1,…,
区分距阵是一个 * 的矩阵, 是能够区分数据点 与
的所有属性组成的集合,当数据点 = 时, 为空集。因为
= ,所以区分距阵是关于主对角线的对称矩阵,运算中
取上三角或下三角矩阵表示区分矩阵。
定义 4[5] 给定信息系统 = < , ,,>, = { 1,2,…, }
算法:discernable matrix[X,P]; 输入:初始数据信息表 = < , ,,>; 输出: , 。 步骤 1 根据定义 3 计算信息表的区分矩阵 = × 其 中 = |M|; 步骤 2 对差别矩阵所有取值非空集合的元素 ,根据
定义 4 求区分函数 =
,;
,×
步骤 3 利用幂等率与吸收率化简区分函数
是论域, = { ∣ = 1,2,…,}, ,令数据点 , 对于属性
的区分变量
{ , = 1 2… 1, 则定义区分函数如下
, Mki ={ 1, 2,…, } Mki =
=
,
,×
区分函数的极小析取范式中的所有合取式是属性集 的
所 有 约 简 ,即 是 满 足 能 够 区 分 由 整 个 属 性 集 区 分 的 所 有 对 象
(2) 与 式 (3)[9]。
模糊划分距阵 U
{1 2 1
= =1
0
0 =0& i j
(2)
1
=0& i=j
类中心点为
=
=1
(3)
=1
1.2 属 性 约 简
属 性 约 简 是 粗 糙 集 理 论 研 究 的 核 心 内 容 之 一 ,属 性 约 简
应该为不含多余属性并能保证分类正确的最小条件属性集合。
0引言
聚 类 是 将 一 组 对 象 划 分 成 相 似 的 类 的 过 程 。类 是 数 据 对 象 的 集 合 ,类 内 的 对 象 彼 此 相 似 ,类 间 的 对 象 彼 此 相 异 。传 统 基 于 划 分 的 聚 类 算 法 是 一 种 硬 划 分 ,将 每 一 个 待 处 理 的 对 象 严 格 地 划 分 到 一 个 类 中 ,具 有 非 此 即 彼 的 性 质 。 现 实 中 大 多 数 对 象 无 法 进 行 严 格 的 属 性 区 分 ,硬 划 分 不 能 真 实 反 应 对 象 和类之间的关系。Zedeh 提出的模糊集理论可以有效地解决 属性不确定的划分问题,可以将其用于聚类问题。模糊 C-均 值聚类算法 FCM (fuzzy c-means) 是一种用模糊理论进行聚类 的算法。最早由 Dunn 提出[1],随后 Bexdek 对其进行了系统的 研究 ,在 [1-2] HCM(hard c-means)目标函数中引入新的参数模糊 指标 ,形成当前广泛使用的 FCM 算法。FCM 聚类算法使用 欧 几 里 德 距 离 计 算 样 本 数 据 与 类 中 心 点 之 间 距 离 。由 于 欧 氏 距 离 只 关 注 单 个 类 内 数 据 点 与 类 中 心 点 之 间 的 关 系 ,忽 略 了
吕晓云,李星毅,施化吉:基于约简数据集的 FCM 聚类算法
2010,31 (18) 4063
划分为 个类,其中 ∈{1,2,3,…,}。 为第 个类的中心点,
uij 表示数据集 X 中数据点 相对于第 个类的隶属度,它反映 了数据点 属于以 为类中心点的类的程度。若接近 1,表示
属于此类的程度高。若接近 0,表示属于此类的程度低。
析取范式;
,使之成为
步骤 4 析取范式中的每一个合取范式对应一个属性约 简结果,随机取其中一个合取范式作为约简后属性个数为 ,
,=
2
(1)
=1 =1
式 中: —— 样 本 数 据 与 类 中 心 点 的 欧 式 距 离, = ‖
‖=
; ——模糊指标,1< <+∞,在本文中取 =2[7]。
=1
根据定义 2 中的目标函数的极小值约束条件,利用拉格
朗 日 乘 子 法 ,可 求 得 目 标 函 数 达 到 极 小 值 的 必 要 条 件 是 如 式
极小子集。
2 算法描述
2.1 基 于 区 分 距 阵 的属 性 约 简 [2] 首先对于给定的信息表即给定的数据集按定义 3 建立区
分 矩 阵 。由 区 分 矩 阵 定 义 可 以 知 区 分 矩 阵 是 一 个 对 角 线 上 的 元素都为 0 的对称矩阵,计算时可以只计算上三角或下三角 中 的 元 素 即 可 。根 据 区 分 函 数 对 区 分 矩 阵 中 的 元 素 构 造 区 分 函 数 ,区 分 函 数 是 一 个 析 取 范 式 通 过 逻 辑 运 算 将 析 取 范 式 转 换 成 合 取 范 式 ,合 取 范 式 中 每 个 合 取 项 就 对 就 一 个 属 性 约 简 结 果 。利 用 区 分 矩 阵 来 做 属 性 约 简 可 以 很 容 易 地 计 算 出 信 息 表达系统的约简和核。
类 间 对 象 的 相 互 关 系 ,只 适 用 于 球 状 数 据 集 聚 类 。 台 湾 学 者 提出了基于马氏距离的半监督聚类算法 FCM-CM 聚类算法和 FCM-M 聚类算法 ,可 [3-4] 以用于非球状数据集聚类,成功解决 了 这 个 问 题 。欧 氏 距 离 和 马 氏 距 离 在 计 算 数 据 样 本 与 类 中 心 点 的 距 离 时 需 要 计 算 每 个 属 性 间 距 离 ,当 存 在 高 维 属 性 数 据 集 时 ,计 算 量 巨 大 ,不 利 于 实 际 的 应 用 。 在 实 际 的 聚 类 问 题 中 ,样 本 数 据 的 每 个 属 性 并 不 都 对 聚 类 结 果 起 决 定 性 作 用 ,因 此 可 以 采 用 属 性 约 简 的 方 法 ,删 除 非 决 定 性 属 性 ,减 少 聚 类 的 计算量。本文在此基础上提出了基于约简数据集的 FCM 聚 类算法。
4062 2010,31 (18)
计 算 机计工算机程工与程设与计设计ComCpoumtepruEtenrgEinegeinrienegrianngdaDndesDigensign
智能技术
基于约简数据集的 FCM 聚类算法
吕晓云 1, 李星毅 1, 施化吉 2 (1. 江苏大学 计算机科学与通信工程学院,江苏 镇江 212013; 2. 南京航空航天大学 计算机应用研究所,江苏 南京 210016)