数据挖掘中聚类算法研究进展_周涛
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[8] Application based upon Randomized Search) 算法
所以第 i 类的类内差异为:
n S i ( μ) = å μij||xi - xi||2 j=1
将采样技术与 PAM 结合起来, 不考虑整个数据集合, 而是随机地选择实际数据的一小部分作为数据样
102
2012,ຫໍສະໝຸດ Baidu48 (12)
3
聚类算法发展
没有任何一种聚类技术 (聚类算法) 可以普遍适
用于揭示各种多维数据集所呈现出来的多种多样的 结构 [3]。根据数据在聚类中的积聚规则以及应用这 些规则的方法, 有多种聚类算法。聚类算法体系结 构如图 1 所示。
3.1
传统聚类方法
Macqueen[4] 提出的 k- 平均方法是解决聚类问题
1
概述
最早的聚类思想出现于我国的 《战国策.齐策三》
析就是按照某种相似性度量, 具有相似特征的样本 归为一类, 使得类内差异相似度较小, 而类间差异较 大。迄今为止。聚类还没有一个学术界公认的定 义。这里给出 Everitt[1] 在 1974 年关于聚类所下的定 义: 一个类簇内的实体是相似的, 不同类簇的实体是 不相似的; 一个类簇是测试空间中点的会聚, 同一类 簇的任意两个点间的距离小于不同类簇的任意两个
[6] 提出 k- 模 (k-modes) 方法, 它扩展了 k- 平均方法, 用
则矩阵 μ = ( μij) 具有如下性质:
μij Î{0 1} 且 å μij = 1 ( j = 1 2 n)
i=1 c
设 ni 表示第 i 类中所包含的样本个数, 则
ni = å μij (i = 1 2 c) 设 xi Î ÂN 表示第 i 类的中心, 则 xi = μij x j å j=1 μij å j=1
N
量的该类数据能对平均值产生极大的影响。Kaufman 和 Roussseeuw 提出的 PAM (Partitioning Around Me[5] doid) 和 CLARA (Clustering Large Applications) 算
对 i=1, 2, …, c 和 j=1, 2, …, n, 定义:
一书中, 即 “物以类聚, 人以群分” , 聚类这个古老的 问题, 它伴随着人类社会的产生和发展而不断深化, 人类要认识世界就必须区分不同的事物并认识事物 间的相似性。数据挖掘的重要任务之一就是发现大 型数据中的积聚现象, 并加以定量化描述。聚类分
基金项目: 国家自然科学基金 (No.81160183) ; 宁夏自然科学基金 (No.NZ11105) ; 陕西省教育厅项目 (No.2010JK466) ; 宁夏卫生厅 重点科研项目 (No.2011033) ; 宁夏高等学校科学研究重点项目 (宁教高 [2011]263 号) ; 宁夏医科大学特殊人才项目 (No.XT2011004) ; 宁夏医科大学青年基金项目 (No.XQ2011011) 。 作者简介: 周涛 (1977—) , 男, 回族, 博士, 副教授, 硕士生导师, 主要研究方向为医学图像处理、 数据挖掘、 软计算理论等; 陆惠玲 (1976—) , 女, 讲师, 主要研究方向为数据挖掘、 医学图像处理。 收稿日期: 2011-10-18 修回日期: 2011-12-21 DOI: 10.3778/j.issn.1002-8331.2012.12.021
x j = ( x j1 x j2 x jd ) Î Âd ,x ji 表示特征 (变量、 属性或
[2] 者数据的维数) 。硬划分聚类算法主要是在 X 中寻
则整体类内差异为:
c c n (i) S ( μ) = å S ( μ) = å å μij||x j - xi||2 i=1 i=1 j=1
n n j=1 n
模来代替类的平均值, Lauritzen 提出 EM (Expectation
[7] Maximization) 算法不把对象分配给一个确定的簇,
= 1 å μij x j (i = 1,2, c) n j=1
n
而是根据对象与簇之间隶属关系发生的概率来分配 对象。 Ng 和 Han 提出的 CLARANS (Clustering Large
模糊聚类 粗糙聚类
基于粒度的聚类算法 不确定聚类算法 球壳聚类算法 基于熵的聚类算法 核聚类算法 基于概念的聚类算法 谱聚类算法 仿射聚类算法 本体聚类算法 混合属性聚类算法 基于双重距离的聚类算法 基于流形距离的迭代 优化聚类算法 数据流增量聚类算法 基于生物智能的增量 聚类算法 投影寻踪聚类算法 子空间聚类算法 量子聚类算法 球壳聚类算法 聚类集成算法 基于随机游动的聚类算法 其他聚类算法 基于样本的 更新策略 基于样本的 相似度度量 基于样本的 预处理 聚类新算法 基于样本的 归属关系 聚类 算法 基于划分的聚类
传统聚类算法
基于层次的聚类
基于网格的聚类
基于密度的聚类
基于模型的聚类
基于样本的 高维性
图1
聚类算法分类图
这就是经典的类内平方误差和 (Within-Group Sum of Squared error, WGSS) 准则函数。 K-means 聚类算法的目的就是寻找 μ* = ( μ* ij ) 使得 S ( μ) 取得最 小值, 即
S ( μ*) = min{S ( μ)}
C ={C1 C 2 C K}(K £ N ) , 找 K 个划分, 这 K 个划分
Computer Engineering and Applications 计算机工程与应用
K-means PAM CLARA K-modes EM CLARANS ISODATA BIRCH CURE Chameleon STING Wavecluster CLIQUE DBSCAN OPTICS DENCLUE COBWEB CLASSIT AutoClass Competitive Learning LVQ SOM 统计 学方 法 神经 网络 方法
ì1 如果第j个样本属于第i类 μij = í î0, 否则
法中, 每个类用接近该类中心的对象来表示, 因此称 之为 k- 中心点方法。 k- 中心点方法可以看做是 k- 平 均方法的改进方法, 因为中心点不像平均值那么容 易被极端数据影响, 所以当存在噪声和孤立点数据 时, k-中心点方法比 k-平均方法更强壮。 为了对大规模的数据集进行聚类, 以及处理复杂 的聚类, 基于划分的方法有了很多改进算法。Huang
周
涛, 陆惠玲: 数据挖掘中聚类算法研究进展
2012, 48 (12)
101
点间的距离; 类簇可以描述为一个包含密度相对较 高的点集的多维空间中的连通区域, 它们借助包含 密度相对较低的点集的区域与其他区域 (类簇) 相 分离。 给定一个输入模式集合 X ={ x1 x 2 x n} , 其中
现状和进展进行了较为全面的总结, 就一些新的聚类算法进行了梳理, 根据样本归属关系、 样本数据预处理、 样本的相似性度量、 样本的更新策略、 样本的高维性和与其他学科的融合等六个方面对聚类中近 20 多个新算 法, 如粒度聚类、 不确定聚类、 量子聚类、 核聚类、 谱聚类、 聚类集成、 概念聚类、 球壳聚类、 仿射聚类、 数据流聚 类等, 分别进行了详细的概括。这对聚类是一个很好的总结, 对聚类的发展具有积极意义。 关键词: 数据挖掘; 聚类算法; 聚类准则 文章编号: 1002-8331 (2012) 12-0100-12 文献标识码: A 中图分类号: TP311
100
2012, 48 (12)
Computer Engineering and Applications 计算机工程与应用
数据挖掘中聚类算法研究进展
周 涛, 陆惠玲 ZHOU Tao, LU Huiling
宁夏医科大学 理学院, 宁夏 银川 750004 School of Science, Ningxia Medical University, Yinchuan, Ningxia 750004, China ZHOU Tao, LU Huiling. Clustering algorithm research advances on data mining. Computer Engineering and Applications, 2012, 48 (12) : 100-111. Abstract: Clustering analysis is one of important research branches in data mining. Clustering criterion, similarity degree are illustrated; five kinds of traditional clustering algorithms are summarized, and their latest developments are pointed out; according to attribution ralation of the sample, sample data pre-processing, similarity measure of sample, sample update strategy, high-dimension of sample and integration with other disciplines, there are more than 20 clustering algorithms are explained and summarized, such as granular clustering, uncertainty clustering, quantum clustering, kernel clustering, spectral clustering, clustering ensemble, concept clustering, spherical shell clustering, affinity propagation clustering. That is a good summary and of positive significance for the clustering. Key words: data mining; clustering algorithm; clustering criterion 摘 要: 聚类分析是数据挖掘中重要的研究内容之一, 对聚类准则进行了总结, 对五类传统的聚类算法的研究
3.1.1 基于划分的聚类方法 的一种经典方法。它的主要优点是算法简单、 快 速。缺点是对不同的 k 值可能会导致不同的聚类结 果。其次, 该方法不能发现非凸面的簇, 或大小差别 很大的簇。而且对 “噪声” 和孤立点很敏感, 因为少
2
聚类准则
假设将 n 个样本 x j Î Â (j=1, 2, …, n) 分为 c 类,
满足: (1)Ci ¹ Φ i = 1 2 K (2)Ci = X
i=1 K
考察上式不难发现, 当样本各自独立成类时, 即
c = n 时, S ( μ) 取得最小值 0。因此单凭该准则是不能
找到最优分类的, 必须同时寻找其他的能够找到最 优分类的条件, 即寻找一个合适的准则函数。
(3)Ci C j = Φ i j = 1 2 K且i ¹ j 从机器学习的角度来看, 聚类所说的类不是事 先给定的, 而是根据数据的相似性和距离来划分, 聚 类的数目和结构都没有事先假定, 所以聚类分析是 一种无监督的学习方法。聚类算法的目的是寻找数 据中潜在的自然分组结构和感兴趣的关系。聚类分 析则是用数学方法研究和处理所给对象的分类以及 各类之间的亲疏程度, 是在对数据不作任何假设的 条件下进行分析的工具。在人工智能和模式识别 中, 聚类分析亦称为 “无先验学习” , 是机器学习中知 识获取的重要环节。目前聚类己被广泛地应用于各 种工程和科学领域, 如心理学、 生物学、 医学等。
所以第 i 类的类内差异为:
n S i ( μ) = å μij||xi - xi||2 j=1
将采样技术与 PAM 结合起来, 不考虑整个数据集合, 而是随机地选择实际数据的一小部分作为数据样
102
2012,ຫໍສະໝຸດ Baidu48 (12)
3
聚类算法发展
没有任何一种聚类技术 (聚类算法) 可以普遍适
用于揭示各种多维数据集所呈现出来的多种多样的 结构 [3]。根据数据在聚类中的积聚规则以及应用这 些规则的方法, 有多种聚类算法。聚类算法体系结 构如图 1 所示。
3.1
传统聚类方法
Macqueen[4] 提出的 k- 平均方法是解决聚类问题
1
概述
最早的聚类思想出现于我国的 《战国策.齐策三》
析就是按照某种相似性度量, 具有相似特征的样本 归为一类, 使得类内差异相似度较小, 而类间差异较 大。迄今为止。聚类还没有一个学术界公认的定 义。这里给出 Everitt[1] 在 1974 年关于聚类所下的定 义: 一个类簇内的实体是相似的, 不同类簇的实体是 不相似的; 一个类簇是测试空间中点的会聚, 同一类 簇的任意两个点间的距离小于不同类簇的任意两个
[6] 提出 k- 模 (k-modes) 方法, 它扩展了 k- 平均方法, 用
则矩阵 μ = ( μij) 具有如下性质:
μij Î{0 1} 且 å μij = 1 ( j = 1 2 n)
i=1 c
设 ni 表示第 i 类中所包含的样本个数, 则
ni = å μij (i = 1 2 c) 设 xi Î ÂN 表示第 i 类的中心, 则 xi = μij x j å j=1 μij å j=1
N
量的该类数据能对平均值产生极大的影响。Kaufman 和 Roussseeuw 提出的 PAM (Partitioning Around Me[5] doid) 和 CLARA (Clustering Large Applications) 算
对 i=1, 2, …, c 和 j=1, 2, …, n, 定义:
一书中, 即 “物以类聚, 人以群分” , 聚类这个古老的 问题, 它伴随着人类社会的产生和发展而不断深化, 人类要认识世界就必须区分不同的事物并认识事物 间的相似性。数据挖掘的重要任务之一就是发现大 型数据中的积聚现象, 并加以定量化描述。聚类分
基金项目: 国家自然科学基金 (No.81160183) ; 宁夏自然科学基金 (No.NZ11105) ; 陕西省教育厅项目 (No.2010JK466) ; 宁夏卫生厅 重点科研项目 (No.2011033) ; 宁夏高等学校科学研究重点项目 (宁教高 [2011]263 号) ; 宁夏医科大学特殊人才项目 (No.XT2011004) ; 宁夏医科大学青年基金项目 (No.XQ2011011) 。 作者简介: 周涛 (1977—) , 男, 回族, 博士, 副教授, 硕士生导师, 主要研究方向为医学图像处理、 数据挖掘、 软计算理论等; 陆惠玲 (1976—) , 女, 讲师, 主要研究方向为数据挖掘、 医学图像处理。 收稿日期: 2011-10-18 修回日期: 2011-12-21 DOI: 10.3778/j.issn.1002-8331.2012.12.021
x j = ( x j1 x j2 x jd ) Î Âd ,x ji 表示特征 (变量、 属性或
[2] 者数据的维数) 。硬划分聚类算法主要是在 X 中寻
则整体类内差异为:
c c n (i) S ( μ) = å S ( μ) = å å μij||x j - xi||2 i=1 i=1 j=1
n n j=1 n
模来代替类的平均值, Lauritzen 提出 EM (Expectation
[7] Maximization) 算法不把对象分配给一个确定的簇,
= 1 å μij x j (i = 1,2, c) n j=1
n
而是根据对象与簇之间隶属关系发生的概率来分配 对象。 Ng 和 Han 提出的 CLARANS (Clustering Large
模糊聚类 粗糙聚类
基于粒度的聚类算法 不确定聚类算法 球壳聚类算法 基于熵的聚类算法 核聚类算法 基于概念的聚类算法 谱聚类算法 仿射聚类算法 本体聚类算法 混合属性聚类算法 基于双重距离的聚类算法 基于流形距离的迭代 优化聚类算法 数据流增量聚类算法 基于生物智能的增量 聚类算法 投影寻踪聚类算法 子空间聚类算法 量子聚类算法 球壳聚类算法 聚类集成算法 基于随机游动的聚类算法 其他聚类算法 基于样本的 更新策略 基于样本的 相似度度量 基于样本的 预处理 聚类新算法 基于样本的 归属关系 聚类 算法 基于划分的聚类
传统聚类算法
基于层次的聚类
基于网格的聚类
基于密度的聚类
基于模型的聚类
基于样本的 高维性
图1
聚类算法分类图
这就是经典的类内平方误差和 (Within-Group Sum of Squared error, WGSS) 准则函数。 K-means 聚类算法的目的就是寻找 μ* = ( μ* ij ) 使得 S ( μ) 取得最 小值, 即
S ( μ*) = min{S ( μ)}
C ={C1 C 2 C K}(K £ N ) , 找 K 个划分, 这 K 个划分
Computer Engineering and Applications 计算机工程与应用
K-means PAM CLARA K-modes EM CLARANS ISODATA BIRCH CURE Chameleon STING Wavecluster CLIQUE DBSCAN OPTICS DENCLUE COBWEB CLASSIT AutoClass Competitive Learning LVQ SOM 统计 学方 法 神经 网络 方法
ì1 如果第j个样本属于第i类 μij = í î0, 否则
法中, 每个类用接近该类中心的对象来表示, 因此称 之为 k- 中心点方法。 k- 中心点方法可以看做是 k- 平 均方法的改进方法, 因为中心点不像平均值那么容 易被极端数据影响, 所以当存在噪声和孤立点数据 时, k-中心点方法比 k-平均方法更强壮。 为了对大规模的数据集进行聚类, 以及处理复杂 的聚类, 基于划分的方法有了很多改进算法。Huang
周
涛, 陆惠玲: 数据挖掘中聚类算法研究进展
2012, 48 (12)
101
点间的距离; 类簇可以描述为一个包含密度相对较 高的点集的多维空间中的连通区域, 它们借助包含 密度相对较低的点集的区域与其他区域 (类簇) 相 分离。 给定一个输入模式集合 X ={ x1 x 2 x n} , 其中
现状和进展进行了较为全面的总结, 就一些新的聚类算法进行了梳理, 根据样本归属关系、 样本数据预处理、 样本的相似性度量、 样本的更新策略、 样本的高维性和与其他学科的融合等六个方面对聚类中近 20 多个新算 法, 如粒度聚类、 不确定聚类、 量子聚类、 核聚类、 谱聚类、 聚类集成、 概念聚类、 球壳聚类、 仿射聚类、 数据流聚 类等, 分别进行了详细的概括。这对聚类是一个很好的总结, 对聚类的发展具有积极意义。 关键词: 数据挖掘; 聚类算法; 聚类准则 文章编号: 1002-8331 (2012) 12-0100-12 文献标识码: A 中图分类号: TP311
100
2012, 48 (12)
Computer Engineering and Applications 计算机工程与应用
数据挖掘中聚类算法研究进展
周 涛, 陆惠玲 ZHOU Tao, LU Huiling
宁夏医科大学 理学院, 宁夏 银川 750004 School of Science, Ningxia Medical University, Yinchuan, Ningxia 750004, China ZHOU Tao, LU Huiling. Clustering algorithm research advances on data mining. Computer Engineering and Applications, 2012, 48 (12) : 100-111. Abstract: Clustering analysis is one of important research branches in data mining. Clustering criterion, similarity degree are illustrated; five kinds of traditional clustering algorithms are summarized, and their latest developments are pointed out; according to attribution ralation of the sample, sample data pre-processing, similarity measure of sample, sample update strategy, high-dimension of sample and integration with other disciplines, there are more than 20 clustering algorithms are explained and summarized, such as granular clustering, uncertainty clustering, quantum clustering, kernel clustering, spectral clustering, clustering ensemble, concept clustering, spherical shell clustering, affinity propagation clustering. That is a good summary and of positive significance for the clustering. Key words: data mining; clustering algorithm; clustering criterion 摘 要: 聚类分析是数据挖掘中重要的研究内容之一, 对聚类准则进行了总结, 对五类传统的聚类算法的研究
3.1.1 基于划分的聚类方法 的一种经典方法。它的主要优点是算法简单、 快 速。缺点是对不同的 k 值可能会导致不同的聚类结 果。其次, 该方法不能发现非凸面的簇, 或大小差别 很大的簇。而且对 “噪声” 和孤立点很敏感, 因为少
2
聚类准则
假设将 n 个样本 x j Î Â (j=1, 2, …, n) 分为 c 类,
满足: (1)Ci ¹ Φ i = 1 2 K (2)Ci = X
i=1 K
考察上式不难发现, 当样本各自独立成类时, 即
c = n 时, S ( μ) 取得最小值 0。因此单凭该准则是不能
找到最优分类的, 必须同时寻找其他的能够找到最 优分类的条件, 即寻找一个合适的准则函数。
(3)Ci C j = Φ i j = 1 2 K且i ¹ j 从机器学习的角度来看, 聚类所说的类不是事 先给定的, 而是根据数据的相似性和距离来划分, 聚 类的数目和结构都没有事先假定, 所以聚类分析是 一种无监督的学习方法。聚类算法的目的是寻找数 据中潜在的自然分组结构和感兴趣的关系。聚类分 析则是用数学方法研究和处理所给对象的分类以及 各类之间的亲疏程度, 是在对数据不作任何假设的 条件下进行分析的工具。在人工智能和模式识别 中, 聚类分析亦称为 “无先验学习” , 是机器学习中知 识获取的重要环节。目前聚类己被广泛地应用于各 种工程和科学领域, 如心理学、 生物学、 医学等。