FAUT—模糊聚类分析工具

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FUAT——模糊聚类分析工具

摘要:

众所周知,模糊聚类是一种软聚类方法并且主要以通过计算每个集群的隶属度的分段数据为基础。然而在调查不同集群之间的关系方面,当前的大多数模糊聚类模块打包在开放资源和商业产品中,都缺乏使用户能够更加深入和直观地探索模糊集群的能力。此外,在没有决策者或专家的情况下,在模糊聚类研究中确定集群的数量也非常困难。因此在这项研究中,一个被称为FUAT的桌面软件得到发展,它能够分析、探索并将从模糊c聚类算法(FCM)中分离出来模糊群集可视化。此外,为了获得并告知可能的自然集群数量,FUAT还配备了期望的最大化算法。

1、介绍

聚类是一种无人监督的,划分多元数据点集合成有意义的组织的分类方法,同组中的所有成员代表类似的特征而在不同群体之间的数据点彼此不同。有许多基于模糊概率和可能的方法和聚类算法,如k 均值聚类、c均值聚类、层次聚类。模糊c聚类算法(FCM)是使用最普遍的聚类算法之一。FCM结合c均值聚类方法与存在的模糊性数据处理,这种结合使它更强大,因为数据的模糊性在创建脆分区以一种不利的方式影响结果。一般来说,软聚类技术旨在消除这种情况,FCM是一种基于模糊集理论的软聚类方法(Zadeh,1965)。在聚类算法的实际应用中,必须解决的几个问题,包括确定集群的数量和评价分区的质量。

在这项研究中,工具-FUAT(模糊聚类分析工具)提出了探索与FCM聚类创建的集群。FUAT发展的原因来自FCM的报道困难。首先,FCM要求集群数量作为输入参数,但对实际的决策者来说知道这个数字是很困难的。因为,预测数据点的分布,从现实世界中可以获得,在空间中很难完成,有时甚至是不可能的。在FUAT,关于可能的集群号码,自然聚类给用户提出了一个建议。其次,初始集群对导致集群有很大的影响。然而,无论获得了集群的质心、演示数据与集群的数字还是隶属度都足以评估集群性能。因此,集群的大小和密度、饱和度和频率隶属度、集群之间的亲密度、集群之间的密度要求在集群参数、集群性能的评估上执行详细的分析。

模糊聚类的问题和关键点曾在文学中被议论,特别是这些研究的重点集中在有效性的主题索引。例如分配系数(PC)和分区(PE)是最基本的,简单而有效的指标来源于模糊分区的模糊成员值。此外,研究人员提出许多集群的有效指标包括模糊聚类成员值和信息结构(Zalik,2010),大多数有效指标采用密实度和分离的概念。密实度与集群亲密度相关,分离与集群彼此间的隔离相关。换句话说,模糊聚类有效性指数试图反映克服这些指定困难的比率。事实上,有效性指数具有必要性,因为黑盒模糊聚类算法的使用,并且他们依赖初始参数和结构。集群在通过模糊聚类算法之前,有效性检查通过使用已选择的有效性指数数值完成。

事实上FUAT有一种互补方法去解释有效性指数。它是一种工具,显示导致集群的许多特征(密实度、分离、重叠、病例分布和密度)。换句话说,通过FUAT,我们试图为用户将基于FCM的集群从黑盒有效转换到透明的盒子中。特别是,我们专注于创造单独集群分析的能力,帮助用户一起克服在FCM的使用中作为一个黑盒的困难。在FUAT中,FCM的所有特征的设计都要保持和不同的数据类型的支持(整数、实数)。

2、理论

在这项研究中,两个重要的聚类方案运用在一起。FCM和期望最大化(EM)基于聚类方法,因为他们的软聚类的行为得到使用,。下面将详细介绍它们的主要特征。

2.1、模糊c聚类

广义模糊c聚类算法(FCM)(Bezdek,1981)是无人监督模糊聚类算法中使用最为普遍的算法之一,广泛应用于模式识别、图像识别、基因分类等。可以理解FCM的名字,它是以扎德模糊集理论和应用c聚类算法为基础的。通过FCM,模糊集群构成,在FCM中分区的数据点到c集群之间的距离最小化的数据点,模糊聚类质心迭代。

2.2、期望最大化

EM(期望最大化)算法是一种无人监督的聚类方法基于发现适当的特定参数并定义数据的统计模型。在这个过程中,它的使用模型在这个过程称为混合模型查看数据作为一组病例通过使用不同的概率分布和在混合模型中数量的统计分

布,并且每个代表一个集群,此外,如前所述(Tanetal ,2005),每个分布的参数提供相应集群的描述。

因此,基于EM聚类分割方法利用最大似然的概念。另一方面,类似于模糊聚类,它拥有软分割的特点因为一个点作为成员被不止一个集群以一定的概率的包括。由于这些事实和让用户知道可能真实的集群数量数据,EM聚类模式包括于FUAT。关于基于聚类的EM,更详细的解释可以被发现。

3、组件使用

在这项研究的软件开发中,各种组件是利用。他们下面列出:

3.1、R

在这项研究中,R(http:),一个著名的统计计算程序,采用EM算法使用。据报道,R涉及许多的数据统计技术,预测模和数据可视化,开放资源库统计计算已成为一个事实上的标准。R的主要好处是拥有一个脚本语言继承于S,它允许用户程序清楚他们需要什么。

此外,R有一个广泛的各种各样的自由访问模块用于各种目的位于“综合R 档案网络”(CRAN,)。

随着R主要支持命令行脚本,它有两个重要的优势:(1)整个分析过程可以由明确定义,他们可以存储供以后使用;(2)R可以通过COM接口访问和指导等编程语言和平台支持,如c++,VBnet。

3.2、MClust

MClust是一个免费的,非商业和R包为正常混合建模设计和基于模型的聚类方法,通过提供参数估计方法借助EM算法运用于具有协方差结构的正常混合模型。它由华盛顿大学开发和许可并由CRAN发布。在MClust提出了三种类型的聚类分析方案:(1)基于模型的分层聚类相结合;(2)EM高斯混合模型;(3)参数化的混合物模型运用估计的集群BIC(贝叶斯信息准则)。另一方面,MClust包配备功能显示,可视化和仿真的模型不确定性等情节。

FUAT的设计考虑之一是在模糊聚类阶段之前找出可能的自然集群数量,MClust包被使用,因为它能在贝叶斯信息准则(BIC)的帮助下揭示其计算能力。在这一指标的帮助下,MClust计算自然集群数量。

相关文档
最新文档