基于数据挖掘的聚类分析和传统聚类分析的对比研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘的聚类分析和传统聚类
分析的对比研究
【关键词】聚类分析
聚类分析是人们认识和探索事物内在联系的一种手段,成语“物以类聚,人以群分”是这一理念的最朴素和直观的反映,其目的是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低。

聚类分析(Clustering analysis)是分类分析的逆向方法,但聚类分析中要划分的类的数目是未知的,就是说聚类把没有分类的记录,在不知道应分成几类的情况下,按照数据内在的差异性大小,合理地划分成几类,并确定每个记录所属别。

聚类分析在经济、生物、医学等许多领域有着广泛的应用,比如在市场研究中,面对个体经营户的“营业收入额”、“营业支出额”、“产品销售水平”等多个评价指标,无法按照一个指标去分类,就可以通过聚类按照数据间的自然联系把分散的记录“聚”成几“堆”,然后再对每堆进行深入分析[1]。

还可以通过聚类分析把一组数据按照其相似性和差异性分为几个类别,使属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小,应用到消费群体的分类、消费者需求背景分析、产品销售趋势预测、个体经营户场所的细分等工作环节。

1 基于统计学的传统聚类分析
在统计学中,聚类分析是多元统计分析的重要组成部分,属于探索性统计分析方法。

按照分类目的可分为两大类:指标聚类(又称R型聚类)和样品聚类(又称Q型聚类),其中指标聚类是指将若干个指标归类的方法,其目的是将指标降维,从而选择有代表性的指标,样品聚类是指将若干个样品归类的方法,其目的是找出样品间的共性。

聚类分析的关键是选择指标或样品间的相似性度量�蚕嗨葡凳�,指标聚类常用相关系数rij表示变量间的相似程度,rij的绝对值越大表明变量间相似程度越高,而样品聚类常用距离dij表示,dij越小,表明样品间相似程度越高。

由于指标聚类实质上是对变量进行分类,也可进行主成分分析或因子分析,因此目前的聚类分析方法主要针对样品聚类。

系统聚类是统计学中进行聚类分析的最常用方法,既可用于样品聚类,也可对指标聚类,其聚类过程主要分3步:开始将各个样品或指标各自视为一类,计算类间相似系数矩阵,然后将相似系数最大,即相似程度最高的两类合并成新一类,并计算新类与其余类间相似系数,最后重复第2步,直至全部样品或指标被并为一类。

系统聚类的每一步都要计算类间相似系数,其算法主要包括最大相似系数法、最小相似系数法、重心法、类平均法、最小
离差平方和法,其中后3种仅用于样品聚类。

但相似系数的定义不同将导致系统聚类结果有所差异,尤其在样品聚类中,分类样品越多时差异愈加明显,这就要求在聚类分析前,应尽可能选择有效变量。

同时可尝试使用多种相似系数计算方法,并结合相关专业知识获得理想结论。

2 基于数据挖掘的聚类分析方法
数据挖掘(DM)是一个从存储于数据库中的大量数据中,利用各种方法提取隐含和潜在的对决策极为有利的信息和知识的过程,其目的是从大量的数据中发现知识,并服务于决策。

数据挖掘涉及数据库、统计学、人工智能、可视化等多个学科,它的过程一般包括数据准备、数据开采、结果表达和解释,其中数据开采是数据挖掘过程中的关键一步,通过选定某个特定的数据挖掘算法(如关联、分类、回归等),用于搜索数据中的模式,其中聚类分析已成为对海量数据集进行合理分类的首选方法。

聚类分析是面向实际应用的技术,因此,聚类的定义与待处理的数据类型有关。

传统的聚类分析已有多种算法,但由于数据挖掘的处理对象是海量的高维数据集,又有许多新的算法被提出,如基于网格的聚类算法,基于密度的聚类算法以及模糊聚类算法等。

实际上,在数据挖掘中,大多数对象并没有严格的类属性和隶属关系,它们在属性等方面存在着重叠性、交叉性,比较适合进行模糊划分,因此数据挖掘中的聚类分析主要为模糊聚类分析。

在模糊聚类分析中,主要的聚类算法是模糊C�簿�值算法(FCM)。

FCM算法是基于对目标函数的优化基础上的一种数据聚类方法,是通过目标函数的迭代优化算法来实现对给定样品集合的划分。

聚类结果是每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。

确定合适的聚类准则是FCM算法的关键步骤之一,一般可选用最小平方误差和准则。

FCM算法的主要步骤可分为:①初始化聚类中心点值P(0),确定迭代停止阈值ε ;②计算由隶属度的值组成的划分矩阵U;③利用划分矩阵更新聚类中心值;④重复第2步,直至聚类中心值满足停止阈值ε 的条件,则迭代停止。

由以上步骤可以看出,算法的过程就是不断地修正聚类中心值P和由隶属度值所组成的划分矩阵U,属于动态聚类过程。

3 数据挖掘中的聚类分析和传统聚类分析的对比研究
数据挖掘是近几年里发展起来的一门崭新的学科,由于它与统计学都关心从数据中发现某种结构,因而从数据挖掘诞生之日起,就与统计学有了千丝万缕的联系[1]。

但数据挖掘并不是统计学的应用分支,数据挖掘还应用到其它学科的思想、工具和方法,尤其是计算机领域方面的知识,如数据库技术等。

统计学和数据挖掘关注的范围不同,统计学关注的中心是:如果我们仅仅从样品中得出结论,那么如何通过样品得出的结论做出对总体的描述?而数据挖掘被用来研究分析的数据集很大,这就意味着如果仅仅靠一个样品来进行处理并做出对总体数据集详细而准
确的描述是行不通的,因为数据挖掘的相关问题常常包含了数据的全部样品即总体,譬如公司的全部工人、数据库中所有消费者一年的所有交易记录等。

传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质,因此这种分类的类别界限是分明的[2]。

而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适合进行软划分。

由于模糊聚类得到了样品属于各个类别的不确定性程度,表达了样品类属的中介性,即建立起了样品对于类别的不确定性的描述,能更客观地反映现实世界,从而成为数据挖掘中聚类分析研究的主流[3]。

模糊聚类分析是用模糊数学的方法研究聚类问题,也是一种无监督的模糊模式识别方法,其实质是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系。

目前受到普遍欢迎的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现。

因此,随着计算机的应用和发展,该类方法成为聚类研究的热点。

传统的聚类分析算法在数据挖掘中也可使用,但由于传统聚类算法导出确定的聚类,是一种"硬划分",这种类别划分的界限分明,无伸缩性,算法的效率较低。

聚类分析的应用非常广泛,但传统的聚类分析方法不能处理连续变量和分类变量混合出现的数据,对复杂的类别结构区分效果不佳,更关键的是这些方法不能自动判断结果中适宜的类别数,不能够提供结果验证手段,结果是否合理只能依靠随后的统计方法加以验证,但利用数据挖掘中的聚类分析方法,就能对上述问题加以解决。

另外,在数据挖掘的聚类分析中,对模型效果的验证一般采用样品拆分的方式进行,即在分析前首先将整个数据集随机拆分为训练集和验证集两部分,然后使用训练集样品建立预测模型,再使用该预测模型对验证集进行预测,以判断当前模型的预测效果如何[2],而传统的聚类分析由于不存在目标变量,因而不存在判断模型效果的指标,也就难以进行模型效果的验证。

【参考文献】
1 中国人民大学统计系数据挖掘中心.数据挖掘中的聚类分析.统计与信息论坛,2002,2:4~7.
2 张尧庭.数据采掘与统计.中国统计,2001,10:9~11.。

相关文档
最新文档