聚类分析原理及步骤.pdf
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析原理及步骤——将未知数据按相似程度分类到不同的类或簇的过程
1》传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用
k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名
的统计分析软件包中,如SPSS、SAS等。
典型应用
1》动植物分类和对基因进行分类
2》在网上进行文档归类来修复信息
3》帮助电子商务的用户了解自己的客户,向客户提供更合适的服务
主要步骤
1》数据预处理——选择数量,类型和特征的标度((依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化
为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数
灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数
据行为或模型的数据)
2》为衡量数据点间的相似度定义一个距离函数——
既然相类似性是定义一个类的基础,那么不同数据之间在同一个特
征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特
征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,
通常通过定义在特征空间的距离度量来评估不同对象的相异性,很
多距离度都应用在一些不同的领域一个简单的距离度量,如
Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相
似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概
念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两
个图形的相似性
3》聚类或分组——将数据对象分到不同的类中【划分方法
(划分方法一般从初始划分和最优化一个聚类标准开始,Crisp
Clustering和Fuzzy Clusterin是划分方法的两个主要技术,Crisp
Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的
每个数据可能在任何一个类中)和层次方法(基于某个标准产生一
个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分
离性用来合并和分裂类)是聚类分析的两个主要方法,另外还有基于
密度的聚类,基于模型的聚类,基于网格的聚类】
4》评估输出——评估聚类结果的质量(它是通过一个类有效索引来
评价,,一般来说,几何性质,包括类间的分离和类内部的耦合,一般
都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演
了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,
一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳
值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,
很多已经存在的标准对于相互分离的类数据集合都能得出很好的结
果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集
合。)
聚类分析的主要计算方法原理及步骤
划分法
1》将数据集分割成K个组(每个组至少包
含一个数据且每一个数据纪录属于且
仅属于一个分组),每个组成为一类2》通过反复迭代的方法改变分组,使得每
一次改进之后的分组方案都较前一次
好(标准就是:同一分组中的记录越近
越好,而不同分组中的纪录越远越好,
使用这个基本思想的算法有: