基于K―means和布谷鸟算法的流程模型聚类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于K―means和布谷鸟算法的流程模型聚类
摘要:流程模型聚类是流程管理领域的一个热门话题。本文提出一种基于布谷鸟算法的K-means算法,该算法弥补了K-means算法的依赖初始解、易陷入局部最优等缺点。本文从流程模型结构性能、成本、效率、顾客满意度以及质量等五个方面模拟数据集,并选择权重较高的属性进行试验操作,结果表明算法的具有较高的可行性和有效性。
Abstract:Process model clustering is a hot topic in the field of process management. This paper presents a new
K-means algorithm based on cuckoo algorithm,which compensates drawbacks of traditional K-means algorithm,such as relying on initial solution and being easily trapped in local optimums. In this paper,simulated data sets consist of five features (process model structure performance,cost,efficiency,customer satisfaction and quality),but experiments are conducted by only two indicators with higher weight. Experimental results show that the method has relatively higher feasibility and effectiveness.
关键词:布谷鸟算法;K-means算法;流程模型聚类
Key words:cuckoo algorithm;K-means;process model
clustering
0 引言
随着流程管理领域关键技术的快速发展以及大型组织
或跨国企业拥有越来越多的纷繁复杂的业务流程,建立流程模型库成为一种趋势,而如何对流程模型库进行全面管理和维以及挖掘使用流程模型库成为目前热点问题之一。对于已聚类的业务流程模型进行流程挖掘,挖掘出更多的模型中隐含的信息,有助于企业领导做出正确的决策,同时用户也可以根据自己的需要进行个性化定制,大大提高了流程模型的使用效率和用户的满意度。流程模型以求解业务流程相似性的流程模型聚类成为解决流程模型库维护问题的新趋势。对于业务流程模型聚类的问题,传统的求解方法是利用业务流程模型的结构化组成部分,求解模型相似度,从而进行流程模型聚类。文献[1]将从标签文本、结构和行为相似三个方面,求解流程相似性。Dijkman等在文献[2]中提出利用图匹配的流程模型相似性机制。基于图编辑距离(graph edit distance)比较的结构相似性机制同时考虑了文本相似度和模型拓扑
结构[3]。关于流程行为相似性,相关文献提出了各种流程行为等价的概念,如互模拟等价(bisimulation)[4]、轨迹等价(trace equivalence)[5]等。但是这些等价概念只能划分出等价和非等价,而不能给出一个量化的值。为此,专家、学者从不同的角度提出测算方法,Aalst等在文献[6-7]提出基于
流程日志的观察行为(observed behavior)方法,Wang等提出基于首要变迁序列(principal transition sequence)的有标志Petri网的行为相似性度量方法[8]。Jin等提出一种基于流程结构和语义特征进行模型聚类后再检索的机制[9],其目的是为了提高模型检索效率,避免在查询过程中遍历模型库中的每一个流程模型。这些相似性研究的也为流程模型聚类提供了大量的理论研究。关于流程模型聚类,文献[10]提出了以业务单据为中心的流程模型聚类,以层次聚类算法进行聚类,进行模型预处理。
K-means算法是由Steihaus、Lloyd、Ball&Hall、J.B.Mac Queen分别于1955年、1957年、1965年、1967年在不同的科学研究领域提出的经典的基于划分的聚类算法,该算法效率较高、容易实施,且易于和其它方法相结合,是成为数据挖掘、机器学习、模式识别和数量统计等领域应用最广的聚类算法之一的主要原因[11]。
布谷鸟(Cuckoo Search,简称CS)算法是由剑桥大学的YANG Xin-she和拉曼工程大学的DEB Suash在文献[12]中提出的一种新的仿生算法,该算法主要基于布谷鸟的巢寄生繁殖机理和莱维飞行(Levy fights)搜索原理两个方面,其主要特点是寻优能力强、随机搜索路径优、参数少、操作简单和易于实现等[13]。目前,布谷鸟算法已成功应用于无线传感器数据优化[14]、高斯分布[15]、工程优化[16]、嵌入
式系统[17]以及结构性软件测试[18]等方面,有效地解决了多种优化问题,由于提出的时间较短,目前还尚未发现将其应用于流程管理领域的文献。
在上述文献中,均是从流程模型的结构部分去考虑流程聚类,但是在实际的应用中,仅仅考虑流程模型的结构或结构性能是远远不够的,还应考虑流程的成本、顾客满意度等等。本文从流程模型的结构性能、成本、效率、顾客满意度以及质量等五个方面,从数据化的角度对这些指标进行量化,同时提出以一种基于布谷鸟算法的K-means聚类算法进行流程模型聚类。通过仿真实验,实验结果验证了算法的可行性。
1 K-means算法
K-means算法是基于划分的聚类算法。算法前提是假定数据库中有n个对象以及聚类数目k。该算法将n个对象划分为k个划分(k?燮n),每个划分代表一个聚类,使得类间对象尽可能不同,类内对象具有较高的相似度。聚类依据是利用相似度函数,通过距离来衡量,对于kn空间中的向量,一般用的是欧式距离d=‖x-c‖。K-means聚类算法的过程如下:
输入:类数目k以及包含n个对象的数据集
X=(x1,x2,x3,…,xn);
输出:k个类Zj。