聚类分析与排列分析的原理和应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析与排列分析的原理和应用
植物学专业zw
引言
20世纪90年代以来,随着数据库和信息技术的发展,由于互联网技术的普及和企业、个人数据的积累,我们可以轻松的获取并存储大量的重要数据。但是如何对我们所感兴趣的数据信息进行提取和分析,这就迫切需要一种新的数据提取软件,它能够自动地、快速地、智能地把历史数据归纳成为有指导意义的信息。而数据挖掘技术具有较强的数据处理能力(刘同明等,2001)。聚类分析就是数据挖掘技术的一种。
聚类分析是统计学的一项分支,并且逐渐形成了一个系统的体系(Everitt et al,2001)。目前,聚类分析主要应用于两个领域,一个是模式识别领域,另外一个便是数据挖掘领域。近年来,聚类分析技术已经逐渐成为数据挖掘应用中的一个富有生命力的研究方向。我们面对海量数据的时候,首先必须要做的就是对它进行归类,对原始数据进行归类的一种方法就是聚类分析法,它是将抽象的或者物理的数据,根据它们之间的相近程度,分为若干个类别,并且使得同一个组内数据具有比较高的相似度,而相异组的对象数据关联距离较大。聚类分析的应用十分广泛(刘艳霞等,2008),在生物学领域里,聚类分析可以推导动植物的分类,基因的分类分析,获得对种群中固有结构的认识。在商务市场领域,聚类分析可以帮助市场分析工程师从客户的基本信息库中发现不同的客户群体,针对不同的客户群,制定不同的
购买模式,从而可以使利益最大化。在模式识别中,聚类可以用于语音识别、字符识别、雷达信号识别、文本识别等方面。聚类分析方法还可以应用于机器自动化和工具状态检测,以及进行气候分类、食品检验和水质分析,另外,数据挖掘中的聚类分析的一个重要功能是仅仅用聚类分析构成算法工具来描述、分析数据,并且概括其分布。另外,聚类分析也可以作为其他数据挖掘方法的预处理步骤。因此,在广泛的应用领域中,聚类方法起着非常重要的作用。
聚类分析原理和应用
聚类就是抽象的或者物理的数据,依据它们的相似性或者相似程度,将其分为若干组,同一组内的成员具有高度的相似性质,聚类就是具有相似特性的对象的集合,跟平常说的“物以类聚”相似(方开泰等,1982)。聚类分析就是使用聚类算法来发现有意义的类,主要依据是把相似的样本划分为一类,而把差异大的样本区分开来,这样所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,而与其他簇的对象彼此相异。在应用中经常把一个簇中的数据对象当成一个整体来对待(罗可等,2003)。簇:一个数据对象的集合。在同一簇中,对象具有相似性,不同簇中,对象之间是相异的。
聚类分析(Clustering analysis):把一个给定的数据对象集合分成不同的簇,即在空间X 中给定一个有限的取样点集或从数据库中取得有限个例子的集合,{X i}n i=1。聚类的目标是将数据聚集成类,使得类间的相似性最小,而类内的相似性尽可能得大。
聚类的数据描述为:
如果被研究的数据样本集为E,把C 定义为样本集E 的非空子集,那么可以得到:
C∈E,而且,C≠∅
聚类就是在类C1, C2, C3,…. C k的集合下满足两个条件:
(1)C1∪C2∪…C k,=E
(2)C1∩C2=∅
由第一个条件可以得到,在样本集E 中的每一个样本都有一个类与它对应,而第二个条件则表明,E 中的每个样本在归属上最多属于一个类。聚类分析的基本思想非常朴素、直观和简单,它是根据各个待分类的模式特征相似程度进行分类的,相似的归为一类,不相似的作为另外一类。聚类分析包括两个基本内容:模式相似性的度量和聚类算法。模式相似性测度分三种:距离测度、相似测度和匹配测度:聚类分析有许多具体的算法,有的比较简单,有的相对复杂和完善,从算法的基本策略上看,可分为三种主要方法:根据相似性阀值和最小距离原则的简单聚类方法、按最小距离原则不断进行两类合并的方法、依据准则函数动态聚类法(汤效琴,代汝源,2003)。在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。聚类质量的高低通常取决于聚类算法所使用的相似性测量的方法和实现方式,同时也取决于该算法能否发现部分或全部隐藏的模式。聚类分析算法取决于数据的类型、聚类的目的和应用。现有的主要聚类算法大致分为以下几类:划分方法、层次方法、基于
密度的方法、基于网格的方法以及基于模型的方法等(陆云,2007)。对于一个包含n个对象或元组的数据库,给定要创建的划分数目k,采用目标函数最小化的策略,通过迭代的重定位技术,尝试通过对象在划分间的移动来把数据分成k个组,这就是划分方法。该方法的典型代表是K一平均(K-Means)算法,K-中心(K一Mednids)算法(陈晓春等,2009)。
层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类;而按自顶向下的进行层次分解,则称为分裂的(divisive)层次聚类。主要的层次聚类方法包括BIRCH、CURE、ROCK、Chameleon算法等。BIRCH算法利用层次方法进行平衡迭代归约和聚类。它首先将对象划分成树形结构,然后采用其他聚类算法对聚类结果求精。它引入了两个概念:聚类特征和聚类特征树(CF树),它们用于概括聚类描述,可以提高聚类算法对大型数据库的高效性和可扩展性。聚类特征是一个反映类内对象信息的三元组,包含类内数据点的个数、线性和以及平方和。聚类特征树是高度平衡树,它用来存储聚类特征。每个非叶子节点存放的是其子节点聚类特征的和(秦松柏,2008)。
基于密度的聚类的主要思想是:用密度来取代相似性,只要邻近区域的密度(对象或数据点的数目)超过某个闭值就继续聚类。这样的方法除了可以发现任意形状的类,还能够有效过滤噪声和孤立点数据。常见的基于密度的聚类算法有DBSCAN,OPTICS,DENCLUE等。
基于网格的聚类算法,把对象空间量化为有限数目的单元,形成