基于改进Canopy-K-means算法的并行化研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机测量与控制．２０２１．２９（２）　犆狅犿狆
狌狋犲狉犕犲犪狊狌狉犲犿犲狀狋牔犆狅狀狋狉狅犾
　·１７６　·
收稿日期：２０２００６２２；　修回日期：
２０２００７０７。

基金项目：陕西省科技计划重点项目（２０１７ＺＤＣＸＬ－ＧＹ－０５－０３
）。

作者简介：王　林（１９６３）
，男，江苏东台人，博士，教授，主要从事大数据、数据挖掘、计算机视觉方向的研究；引用格式：王　林，贾钧琛．基于改进Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法的并行化研究［Ｊ］．计算机测量与控制，２０２１，２９（２）：１７６１７９，１８６．文章编号：１６７１４５９８（２０２１）０２０１７６０４ＤＯＩ：１０．１６５２６／ｊ
．ｃｎｋｉ．１１－４７６２／ｔｐ．２０２１．０２．０３５中图分类号：ＴＰ３０１．６文献标识码：Ａ
基于改进犆犪狀狅狆狔
－犓犿犲犪狀狊算法的并行化研究王　林，贾钧琛
（西安理工大学自动化与信息工程学院，西安　７１００４８
）摘要：随着互联网数据的快速增长，原始的Ｋｍｅａｎｓ算法已经不足以应对大规模数据的聚类需求；为此，提出一种改进的
Ｃａｎｏｐｙ－Ｋｍｅａｎｓ聚类算法；首先面对Ｃａｎｏｐｙ算法中心点随机选取的不足，引入“最大最小原则”优化Ｃａｎｏｐｙ中心点的选取；
接着借助三角不等式定理对Ｋｍｅａｎｓ算法进行优化，减少冗余的距离计算，加快算法的收敛速度；最后结合ＭａｐＲｅｄｕｃｅ框架并行化实现改进的Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法；基于构建的微博数据集，对优化后的Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法进行测试；试验结果表明：对不同数据规模的微博数据集，优化后算法的准确率较Ｋｍｅａｎｓ算法提高了约１５％，较原始的Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法提高了约７％，算法的执行效率和扩展性也有较大提升。

关键词：Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法；文本聚类；最大最小原则；三角不等式；Ｍａｐ
Ｒｅｄｕｃｅ犚犲狊犲犪狉犮犺狅狀犘犪狉犪犾犾犲犾犻狕犪狋犻狅狀犅犪狊犲犱狅狀犐犿狆
狉狅狏犲犱犆犪狀狅狆狔－犓犿犲犪狀狊犃犾犵
狅狉犻狋犺犿ＷａｎｇＬ
ｉｎ，ＪｉａＪｕｎｃｈｅｎ（ＳｃｈｏｏｌｏｆＡｕｔｏｍａｔｉｏｎａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＸｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ
，Ｘｉａｎ　７１００４８，Ｃｈｉｎａ）犃犫狊狋狉犪犮狋：ＷｉｔｈｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆＩｎｔｅｒｎｅｔｄａｔａ，ｔｈｅｏｒｉｇｉｎａｌＫｍｅａｎｓａｌｇｏｒｉｔｈｍｉｓｎｏｌｏｎｇｅｒｓｕｆｆｉｃｉｅｎｔｔｏｍｅｅｔｔｈｅｃｌｕｓｔｅｒｉｎｇｎｅｅｄｓｏｆｌａｒｇｅ－ｓｃａｌｅｄａｔａ．Ｔｏｔｈｉｓｅｎｄ，ａｎｉｍｐｒｏｖｅｄＣａｎｏｐｙ－Ｋｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｐｒｏｐ
ｏｓｅｄ．ＦａｃｅｄｗｉｔｈｔｈｅｓｈｏｒｔｃｏｍｉｎｇｓｏｆｔｈｅｒａｎｄｏｍｓｅｌｅｃｔｉｏｎｏｆｔｈｅｃｅｎｔｅｒｐｏｉｎｔｏｆｔｈｅＣａｎｏｐｙａｌｇｏｒｉｔｈｍ，ｔｈｅ“ｍａｘｉｍｕｍａｎｄｍｉｎｉｍｕｍｐｒｉｎｃｉｐｌｅ”ｗａｓｉｎｔｒｏｄｕｃｅｄｔｏｏｐｔｉｍｉｚｅｔｈｅｓｅｌｅｃｔｉｏｎｏｆｔｈｅＣａｎｏｐｙｃ
ｅｎｔｅｒｐｏｉｎｔ；ｔｈｅｎｔｈｅＫｍｅａｎｓａｌｇｏｒｉｔｈｍｗａｓｏｐｔｉｍｉｚｅｄｗｉｔｈｔｈｅｈｅｌｐｏｆｔｈｅｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙｔｈｅｏｒｅｍｔｏｒｅｄｕｃｅｒｅｄｕｎｄａｎｔｄｉｓｔａｎｃｅｃａｌｃｕｌａｔｉｏｎｓａｎｄａｃｃｅｌｅｒａｔｅｔｈｅｃｏｎｖｅｒｇｅｎｃｅｒａｔｅｏｆｔｈｅａｌｇｏｒｉｔｈｍ；ｆｉｎａｌｌｙｃｏｍｂｉｎｅｄｗｉｔｈＭａｐＲｅｄｕｃｅｆｒａｍｅｗｏｒｋｐａｒａｌｌｅｌｉｚａｔｉｏｎｔｏａｃｈｉｅｖｅｉｍｐｒｏｖｅｄＣａｎｏｐｙ－Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍ．ＢａｓｅｄｏｎｔｈｅｃｏｎｓｔｒｕｃｔｅｄＷｅｉｂｏｄａｔａｓｅｔ，ｔｈｅｏｐｔｉｍｉｚｅｄＣａｎｏｐｙ－Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍｉｓｔｅｓｔｅｄ．Ｔｈｅｔｅｓｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｏｐｔｉｍｉｚｅｄａｌｇｏｒｉｔｈｍｉｓａｂｏｕｔ１５％ｈｉｇｈｅｒｔｈａｎｔｈａｔｏｆｔｈｅＫｍｅａｎｓａｌｇｏｒｉｔｈｍａｎｄａｂｏｕｔ７％ｈｉｇｈｅｒｔｈａｎｔｈａｔｏｆｔｈｅｏｒｉｇｉｎａｌＣａｎｏｐｙ－Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍ．Ｔｈｅｅｘｅｃｕｔｉｏｎｅｆｆｉｃｉｅｎｃｙａｎｄｓｃａｌａｂｉｌｉｔｙｏｆｔｈｅａｌｇｏｒｉｔｈｍａｒｅａｌｓｏｉｍｐｒｏｖｅｄ．Ｇｒｅａｔｌｙｉｍｐ
ｒｏｖｅｄ．犓犲狔
狑狅狉犱狊：Ｃａｎｏｐｙ－Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍ；ｔｅｘｔｃｌｕｓｔｅｒｉｎｇ；ｍａｘｉｍｕｍａｎｄｍｉｎｉｍｕｍｐｒｉｎｃｉｐｌｅ；ｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙ；ＭａｐＲｅｄｕｃｅ０　引言
随着互联网普及率的不断提高，网络数据呈几何级增长，面对海量以及快速增长的网络数据，通过聚类分析可以快速准确地从中挖掘出价值信息。

但是，传统的聚类算法无论是在聚类精度，还是在执行时间上都已经不能很好地满足当前需求，利用分布式计算框架对其进行并行化改进，不仅可以缩短聚类时间，还可以增强算法的扩展性，更好地满足当下数据挖掘的需要。

Ｋｍｅａｎｓ算法作为一种具有代表性的聚类算法，具备较快的收敛速度、可靠的理论以及容易实现等诸多优势，因而被人们广泛应用于各行各业，但是算法也存在聚类中心点的选取具有随机性，需要提前确定聚类个数等不足［１］。

对此，许多学者对Ｋｍｅａｎｓ算法进行了改进并取得了一定
的成果。

邓海等人［２］
结合密度法和“最大最小原则”优化Ｋｍｅａｎｓ初始聚类中心点的选择，算法准确率得到提高，但是改进后算法的时间复杂度较高，运行时间较长。

赵庆等人［３］通过Ｃａｎｏｐｙ算法对数据集进行“
粗”聚类，避免了传统Ｋｍｅａｎｓ中心点选取存在的盲目性，极大提升了其准确性，然而在采用Ｃａｎｏｐｙ算法初始阈值需要人为指定，所以
聚类结果不稳定。

刘纪伟等人［４］结合密度思想优化了Ｋｍｅａｎｓ初始中心点的选取，同时引入聚类有效性判别函数
确定值，提高了算法的准确度，但是也增加了算法的运行
时间，执行效率较低。

李晓瑜等人［５］结合ＭａｐＲｅｄｕｃｅ分布式框架并行化实现改进的Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法，并行化实现的算法具有良好的准确率和扩展性，但是Ｃａｎｏｐｙ算法初始阈值人为指定的问题仍然存在。

上述工作均是针对Ｋｍｅａｎｓ算法初始中心点随机选取的不足进行改进，一定程度上提高了算法的聚类准确度，
投稿网址：ｗｗｗ．ｊｓｊｃｌｙ
ｋｚ．ｃｏｍ
第２期王　林，等：基于改进Ｃａｎｏｐｙ－Ｋｍｅａｎｓ
算法的并行化研究·１７７　·
然而仍旧存在不足。

本文首先针对Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法中Ｃａｎｏｐｙ中心点随机选取的不足，引入“最大最小原则”进行优化，此外，定义深度指标计算公式，确定Ｃａｎｏｐｙ中心点的最优个数及区域半径；接着借助三角不等式定理对Ｋｍｅａｎｓ算法进行优化，减少冗余的距离计算，加快收敛速度；最后结合Ｍａｐ
Ｒｅｄｕｃｅ分布式框架将改进后的算法并行化实现。

在构建的微博文本数据集上进行实验，结果表明改进算法的准确率和扩展性都得到提升。

１　犕犪狆
犚犲犱狌犮犲并行框架Ｍａｐ
Ｒｅｄｕｃｅ［６］
是一种用于处理大规模数据的分布式编程模型，可以将大型任务进行拆分处理，从而加快数据的处理效率。

ＭａｐＲｅｄｕｃｅ主要包括Ｍａｐ和Ｒ
ｅｄｕｃｅ两个函数，在数据处理过程中，数据均以键／值对形式保存。

其中，Ｍａｐ函数根据用户输入的键／值对生成中间结果，而Ｒｅｄｕｃｅ函数对中间结果进行归并处理，得到的最终结果同样以键／值对形式输出。

除了Ｍａｐ和Ｒｅｄｕｃｅ两个核心函数外，还提供了Ｃｏｍｂｉｎｅ函数，它在Ｍａｐ后调用，相当于本地的Ｒｅｄｕｃｅ，主要是为了减少从Ｍａｐ到Ｒ
ｅｄｕｃｅ的数据量。

２　犆犪狀狆狅狔
－犓犿犲犪狀狊聚类算法研究与改进２１　犆犪狀狆狅狔
－犓犿犲犪狀狊算法研究Ｋｍｅａｎｓ算法由于算法简单、易于实现等优点而被广泛使用。

其基本思想是：从数据集中随机选取犓个数据对象作为初始聚类中心点；将剩余数据对象和簇中心进行间距计算，并且把它划至间距最短的簇中，持续该过程，直到数据集为空集；然后根据簇中的数据对象计算新的聚类中心点，继续上述过程，直到簇的中心点不再发生变化或者符合停止条件，迭代才会停止，完成聚类划分。

Ｃａｎｐｏｙ－Ｋｍｅａｎｓ算法是一种借助Ｃａｎｐｏｙ算法改进的Ｋｍｅａｎｓ算法。

在Ｃａｎｐｏｙ－Ｋｍ
ｅａｎｓ算法中，通过Ｃａｎｐｏｙ算法对数据集进行“粗”聚类，得到个Ｃａｎｐｏｙ子集，随后再以个Ｃａｎｏｐｙ子集的中心点作为Ｋｍ
ｅａｎｓ算法的初始中心点进行“细”聚类，生成聚类结果。

Ｃａｎｐｏｙ－Ｋｍｅａｎｓ算法执行步骤如下：
１）将待聚类数据集构成犔犻狊狋集合，然后指定两个距离阈值犜１和犜２（犜１＞犜２）；２）随机选取犔犻狊狋合中的一个数据对象犘，构成一个新的Ｃａｎｐｏｙ
，并将对象犘从集合犔犻狊狋中移除；３）对于犔犻狊狋中剩余的数据对象，计算与对象犘之间的距离。

如果间距小于犜１，就把它分配到对象犘所在的Ｃａｎ
ｐｏｙ中；如果与对象犘的间距小于犜２，则将它从犔
犻狊狋中删除；
４）重复步骤２）和３），直到犔犻狊狋为空；５）将形成的Ｃａｎｐｏｙ子集数目作为犓值，Ｃａｎｐｏｙ子集的中心点作为初始的聚类中心点进行Ｋｍｅａｎｓ聚类，得到较为准确的聚类结果。

Ｃａｎｐｏｙ
－Ｋｍｅａｎｓ算法虽然解决了Ｋｍｅａｎｓ算法人为指定值和初始中心点随机选取的不足，然而其也存在不足：Ｃａｎｏｐｙ的初始聚类中心点随机选取和初始阈值人为指定，具有盲目性，初始阈值对聚类所得的最终结果具有显著影响，一定程度上降低了聚类结果的稳定性；另外，由于其具备较高的时间复杂度，串行执行过程时所需时间较长，算法串行执行效率较低。

２２　犆犪狀狆狅狔算法改进
为了改善Ｃａｎｏｐｙ算法初始阈值人为指定以及初始中心点随机选取的不足，本文引入“最大最小原则”对其进行优化，提高算法的准确率以及聚类结果的稳定性。

基于“最大最小原则”的中心点选取方法基本思想如下：在将数据集划分为若干个Ｃａｎｏｐｙ的过程中，任意两个Ｃａｎｏｐｙ中心点之间的距离应尽可能远，即假设目前已生成个Ｃａｎｏｐｙ中心点，则处于第狀＋１位的Ｃａｎｏｐｙ中心点应为
其它数据点和前狀个中心点间最短间距的最大者［７］
，其公式如下：
犇犻狊狋犔犻狊狋＝ｍｉｎ｛犱１，犱２，犱３，．．．犱狀｝
犇犻狊狋犕犻狀（狀＋１）＝ｍａｘ｛犇犻狊狋犔犻狊狋｛
｝
（１
）式中，犱狀表示第狀个中心点与候选数据点的最小距离；
犇犻狊狋犔犻狊狋表示前狀个中心点与候选数据点最小距离的集合；
犇犻狊狋犕犻狀（狀＋１）则表示集合犇犻狊狋犔犻狊狋中最小距离的最大者，即Ｃａｎｏｐｙ集合狀＋１的第个中心点。

基于“最大最小原则”的Ｃａｎｏｐｙ中心点选择方法，在实际应用中符合下述情况：如果中心点数量和最佳中心点的数量较为接近，此时犇犻狊狋犕犻狀（狀＋１）具备最大的变化幅度。

所以，为了确定最优的Ｃａｎｏｐｙ中心点个数及区域半径犇犲狆
狋犺（犻），根据参考文献［８］提出的边界思想，采用深度指标犜１，描述Ｃａｎｏｐｙ中心点的变化幅度，如公式（２）所示：
犇犲狆
狋犺（犻）＝狘犇犻狊狋犕犻狀（犻）－犇犻狊狋犕犻狀（犻－１）狘＋狘犇犻狊狋犕犻狀（犻＋１）－犇犻狊狋犕犻狀（犻）狘
（２
）当犻接近真实聚类簇数时，犇犲狆
狋犺（犻）取得最大值，此时设置犜１＝犇犻狊狋犕犻狀（犻）使得聚类结果最优。

２３　犓犿
犲犪狀狊算法改进传统Ｋｍｅａｎｓ算法需要迭代计算数据对象与中心点的间距，完成数据对象的划分，然而在该过程中存在许多不必要的距离计算，为了减少Ｋｍｅａｎｓ算法的计算量，加快算法的收敛速度，本文引入三角不等式定理对其进行优化
改进［９］。

定理１：任意一个三角形，两边之和大于第三边，两边之差小于第三边。

由于欧式距离也满足三角不等式的特性，因此将其扩展到多维的欧几里得空间可知：对于欧式空间的任意向量狓、犫、犮，满足：犱（狓，犫）＋犱（犫，犮）≥犱
（狓，犮）和犱（狓，犫）－犱（犫，犮）≤犱（狓，犮
）成立。

对于任意一个向量狓和两个聚类中心犫、犮，根据三角不等式定理可得：犱（狓，犫）＋犱（犫，犮）≥犱（狓，犮），但是为了避免计算距离犱（狓，犫），需要得到犱（狓，犫）≤犱（狓，犮
）这个不等式关系，给出引理及其证明过程如下：　
投稿网址：ｗｗｗ．ｊｓｊｃｌｙ
ｋｚ．ｃｏｍ
计算机测量与控制　第２９
卷
·１７８　·引理１：假设狓狆是数据集中的任意一个向量，犮犻是向量狓狆当前的簇中心，犱（狓狆，犮犻）已知且犮犼是除犮犻外的任意一个簇中心，如果２犱（狓狆，犮犻）≤犱（犮犻，犮犼），则有犱（狓狆，犮犻）≤犱（狓狆，犮犼）。

证明：假设有２犱（狓狆，犮犻）≤犱（犮犻，犮犼）
，两边同时减去，得犱（狓狆，犮犻）≤犱（犮犻，犮犼）－犱（狓狆，犮犻），由定理１可得犱（犮犻，犮犼）－犱（狓狆，犮犻）≤犱（狓狆，犮犼）
：因此可以得到结论犱（狓狆，犮犻）≤犱（狓狆，犮犼），即向量狓狆属于簇中心犮犻。

根据引理的推导过程可知，基于三角不等式的改进方法可以有效减少Ｋｍｅａｎｓ冗余的距离计算，应用如下：已知是数据集中任意一个向量，犮犻是向量的当前簇中心，犱（狓狆，犮犻）已知且犮犼是另外的任一簇中心，根据引理１可知，如果２犱（狓狆，犮犼）≤犱（犮犻，犮犼），则可以确定数据向量狓狆属于簇中心犮犻，此时就不再需要计算犱（狓狆，犮犼）。

２４　改进算法的犕犪狆
犚犲犱狌犮犲并行化实现本文主要从两方面对Ｃａｎｏｐｙ－Ｋ
ｍｅａｎｓ算法进行改
进，首先引入“最大最小原则”优化Ｃａｎｏｐｙ中心点的选取；接着利用三角不等式对Ｋｍｅａｎｓ算法进行优化，减少
冗余的距离计算，加快算法的收敛速度。

改进后的算法主要分为两个阶段，其流程如图１所示。

图１　改进Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法流程图阶段一：基于“最大最小原则”改进的Ｃａｎｏｐｙ算法在Ｍａｐ
Ｒｅｄｕｃｅ框架上的并行化实现，用来选取初始聚类中心点及犓值。

该阶段由Ｍａｐ函数和Ｒｅｄｕｃｅ函数两部分完成。

算法的伪代码如下：
Ｍａｐ函数
输入：节点数据集合犔犻狊狋输出：节点Ｃａｎｏｐｙ中心点集合Ｃｉ１）犆犻＝狀
狌犾犾２）Ｗｈｉｌｅ（犔犻狊狋！＝狀狌犾犾
）３）Ｉｆ（犆犻＝狀狌犾犾）４）在犔犻狊狋中随机选取一个数据点作为Ｃａｎｏｐｙ中心点，保存至Ｃｉ中，
并将该数据点从中删除５）Ｅｌｓｅｉｆ（犆犻！
＝狀狌犾犾）６）遍历计算中的数据点到集合Ｃｉ各个中心点的距离，取距离的最小值犱狀保存到集合中
７）求出集合犇中的最大值犕犪狓（犇）
８）把犕犪狓（犇）对应的数据点作为Ｃａｎｏｐｙ集合的下一个中心点，存入集合Ｃｉ中
９）ＥｎｄＩｆ１０）ＥｎｄＷｈｉｌｅ１１）ｏｕｔｐｕｔ（Ｃｉ）Ｒｅｄｕｃｅ函数：
输入：各个节点在Ｍａｐ阶段产生的局部中心点集合犆｛犆１，犆２，犆３，…，犆狀｝
输出：Ｃａｎｏｐｙ中心点集合犝；
１）计算集合犆中的数据总量犓＝犆狅狌狀狋（犆）且令犼＝０２）ｗｈｉｌｅ（犼＜犓）
３）计算全局Ｃａｎｏｐｙ中心点集合犆中犇犲狆狋犺（犻）的最大值４）令犜１＝犕犪狓（犇犲狆
狋犺（犻）），犼＋＋５
）把集合犆中的前犻个中心点赋值给集合犝６）ＥｎｄＷｈｉｌｅ７）犓＝犆狅狌狀狋（犝）８）ＯｕｔＰｕｔ（犝）
阶段二：将阶段一得到的Ｃａｎｏｐｙ中心点作为初始中心点完成Ｋｍｅａｎｓ聚类。

此外，在此阶段引入三角不等式定
理，减少迭代过程中不必要的距离计算。

该阶段由Ｍａｐ函数、Ｃｏｍｂｉｎｅ函数和Ｒｅｄｕｃｅ函数三部分组成。

算法的伪代码如下：
Ｍａｐ函数
输入：犓值和Ｃａｎｏｐｙ中心点集合犝，数据集犡＝｛狓１，狓２，狓３，…，狓狀｝
输出：聚类中心点集合犠１）Ｗｈｉｌｅ（犠！＝犝）
２）计算集合犝任意两中心点间的距离犱（犮，犮′）３）保存最短距离犛（犮）＝ｍｉｎ（犱（犮，犮′）
）４）计算数据集犡中的数据点到集合犝中第犻个中心点的距离犱犻狊狋［犻
］５）Ｉｆ（２犱犻狊狋［犻］≤犛（犮）），则标记该数据点属于第犻个Ｃａｎｏｐｙ中心点的簇，然后从犡中删除该数据点；对于不符合条件的数据点，保存其到该中心点的距离
６）Ｉｆ（犡！＝狀狌犾犾
）７
）计算不符合条件的数据点与中心点的距离，将其划分给距离最小的簇中心并进行标记
８）计算被标记点的新簇中新犠′９）Ｉｆ（犠＝犠′）１０）Ｂｒｅａｋ
１１）Ｅｌｓｅ返回２）重新计算１２）ＥｎｄＷｈｉｌｅＣｏｍｂｉｎｅ函数：
输入：犡中数据点所属簇下标犽犲狔，犽犲狔值所属的键值对列表输出：犡中数据点所属簇下标犽犲狔，各个簇内被标记数据点的各维累加值以及值犽犲狔所属的键值对列表；
在本地解析各维坐标值，求出各维的累加值，并保存到对应列表中。

Ｒｅｄｕｃｅ函数：
输入：犡中数据点所对应下标犽犲狔，犽犲狔值所属的键值对列表
投稿网址：ｗｗｗ．ｊｓｊｃｌｙ
ｋｚ．ｃｏｍ
第２期王　林，等：基于改进Ｃａｎｏｐｙ－Ｋｍｅａｎｓ
算法的并行化研究·１７９　·
输出：犡中数据点所属簇的下标犽犲狔，最终的簇心犠１）初始化犖狌犿＝０，记录所属簇内数据点的个数２）Ｗｈｉｌｅ（犡．犺犪狊犖犲狓狋
（））３）解析犡．狀犲狓狋（）中的各维下标值，计算样本个数狀狌犿４
）计算各维下标值的累加和并进行存储５）犖狌犿＋狀狌犿６）ＥｎｄＷｈｉｌｅ
７）用各维下标的累加和除以犖狌犿，
计算新的簇中心犠Ｒｅｄｕｃｅ函数结束后，对比新生成的簇心和之前的簇心
是否相同，若簇中心相同，则算法结束，否则继续执行上述过程，直到簇中心不再变化。

３　实验与分析
３１　实验环境及测试数据集
本文的Ｈａｄｏｏｐ集群环境搭建在一台Ｉ７ＣＰＵ，１６Ｇ内存，２ＴＢ硬盘服务器之上。

集群包括１个Ｍａｓｔｅｒ节点和５个Ｓｌａｖｅ节点，每个节点均为２ＧＢ内存，２００Ｇ硬盘，操作系统为ＣｅｎｔＯｓ６．５，ｊｄｋ为ｊｄｋ１．８．０＿１８１，Ｈａｄｏｏｐ版本为２．７．３，程序开发工具为Ｅｃｌｉｐｓｅ，算法全部由Ｊａｖａ语言完成。

实验的数据集是经过中文分词、去停去重和文本特征提取等预处理后的微博数据。

本文共构造了１００Ｍ、５００Ｍ、１Ｇ和２Ｇ这４个数据量依次递增的微博数据集，用于改进Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法的测试。

３２　实验结果与分析３．２．１　算法准确率分析
本文以准确率（ｐ
ｒｅｃｉｓｉｏｎ）、召回率（ｒｅｃａｌｌ）和犉值作为评判指标［１０］。

对比传统Ｋｍｅａｎｓ算法（算法１），Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法（算法２）以及本文改进算法（算法３）在文本聚类上的优劣，分别在１００Ｍ、５００Ｍ、１Ｇ和２Ｇ数据集各聚类１０次，取各项指标的平均值进行比较，结果如表１所示。

表１　文本聚类测试结果１００Ｍ
５００Ｍ１Ｇ２Ｇ算法１
准确率
０．６５８０．６５４０．６６００．６５１召回率
０．６４５０．６４１０．６４８０．６３９犉值０．６５１０．６４７０．６５４０．６４５算法２
准确率
０．７７３０．７６９０．７５８０．７４１召回率
０．７３２０．７０８０．７１２０．７０３犉值０．７５２０．７３７０．７３４０．７２２算法３
准确率
０．８６７０．８５２０．８２７０．８１９召回率
０．８１２０．７９８０．７８２０．７７８犉
值
０．８３９
０．８２４
０．８０４
０．７９８
由表１中的测试结果可知，与常规Ｋｍｅａｎｓ算法相比，Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法的准确率提升了约１０％，而本文改进算法与Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法相比，准确率提升了约７％。

这是由于改进后的Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法，优化了Ｃａｎｏｐｙ的中心点的选取，根据深度指标计算公式，确定了Ｃａｎｏｐｙ中心点的最优个数与最佳区域半径，从而使得聚
类结果更加稳定，算法的准确率得到提高。

３．２．２　算法扩展性分析
加速比是常用来衡量程序并行化执行效率的重要指标。

它的定义如下：犛
狆＝犜狊／犜狆。

此处，为在单机条件之下算法运行的具体时长，而犜狆则是在并行条件之下算法运行的具体时长。

加速比犛狆越大，表示算法的效率越高。

考虑到单机环境处理大规模数据时系统容易崩溃，因此本文以１个数据节点下算法的执行时长作为。

为了对比改进后算法和未改进算法在扩展性上的差异。

使用Ｋｍｅａｎｓ算法、Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法以及改进的Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法分别对１Ｇ的数据集进行５次聚类运算，取其平均运算时长，计算其加速比，测试结果如图２所示。

图２　相同数据集不同算法加速比
根据图２可知，在相同规模节点数目下，本文改进算法的执行效率明显优于其它两种算法，这是由于“最大最小原则”的中心点选取方法优化了Ｃａｎｏｐｙ中心点的选取，减少了算法的迭代次数，并且基于三角不等式定理改进的Ｋｍｅａｎｓ算法，有效减少了迭代过程中存在的冗余距离计
算，算法的执行速度得到提高。

为了验证改进后算法在不同数据集上的并行执行效率，分别使用１００Ｍ、５００Ｍ、１Ｇ和２Ｇ这４个数据集，在节点个数为１、３、５的Ｈａｄｏｏｐ集群上聚类５次，取其平均运算时长，计算加速比。

结果如图３所示。

图３　改进算法在不同数据集下的加速比
根据图３可知，由于１００Ｍ的数据集相对较小，在集群的节点为２时，算法的加速比有所提升，此时，数据处理时长超过节点间的通信时长；当集群节点为３时，算法的
（下转第１８６页）
投稿网址：ｗｗｗ．ｊｓｊｃｌｙ
ｋｚ．ｃｏｍ
计算机测量与控制　第２９
卷
·１８６　·５　结束语
本文设计了一种基于ＵＷＢ模块的无线触发系统，利用ＵＷＢ的测距算法精确实现了对记录装置的提前触发，可有效解决记录系统的记录数据的完整性问题，硬件上直接采用ＵＷＢ模块，极大地降低了设计难度，同时对传统ＴＯＡ算法进行改进，消除了ＵＷＢ的时延问题。

进行程序编写，通过进行实验测距来验证整体系统的可行性。

通过使用Ｍａｔｌａｂ软件进行误差分析，得到误差热度图，可以得到系统的测距误差为２０～４０ｃｍ，在实际的靶场测试环境中得到的触发时距离数据，误差在１０ｍ左右，进一步验证了系统的有效性及可靠性。

测试结果表明，该系统误差小，稳定性高，满足工程需求，具有很强的现实使用价值。

参考文献：
［１
］石潇杰，李恒通，石　峰，等．基于ＵＷＢ与激光测距的地下铲运机井下定位系统［Ｊ］．有色金属（矿山部分），２０２０，７２（２）：８１８３．
［２
］周爱国，杨思静，沈　勇，等．融合ＵＷＢ测距信息的室外高精度定位算法［Ｊ］．导航定位学报，２０２０，８（１）：２６３１．［３］王艳艳，朱轶龙，陈亚奇，等．多源触发装置设计［Ｊ］．计算
机测量与控制，２０１９，２７（１２）：２７３２７６．
［４
］陈　峰，王　航，眭　明．基于时钟相位补偿的同步触发信号产生技术［Ｊ］．计算机测量与控制，２０１９，２７（５）：２２４２２８．［５］马子光．脉冲功率电源超大电流测试技术研究［Ｄ］．太原：中
北大学，２０１９．
［６］莫浩杰，张靖宇，马溢泽，等．ＤＷ１０００在无人机集群中的应
用及系统设计［Ｊ］．电子世界，２０１９（１２）：１３５１３７．［７］张　恒．基于ＵＷＢ的室内高精度定位方法研究与应用［Ｄ］．
阜新：辽宁工程技术大学，２０１５．
［８］阳　熊．基于超宽带的定位技术研究与应用［Ｄ］．成都：电子
科技大学，２０１５．
［９
］朱文刚，常海涛，薄云览，等．基于超宽带技术的轨道交通定位算法研究［Ｊ］．计算机测量与控制，２０１９，２７（７）：２１８２２２．［１０］李伟杰，戴亚文，唐　雨，等．基于ＵＷＢ的地铁隧道定位系
统设计［Ｊ］．计算机测量与控制，２０１９，２７（８）：１９８２０１．［１１］车志平．基于ＴＯＦ测距的无线传感器网络定位技术研究［Ｄ］．
大连：大连理工大学，２０１６．
［１２］ＡｉｅｌｌｏＧＲ，ＲｏｇｅｒｓｏｎＧＤ．Ｕｌｔｒａ－ｗｉｄｅｂａｎｄｗｉｒｅｌｅｓｓｓｙ
ｓｔｅｍｓ［Ｊ］．ＩＥＥＥＭｉｃｒｏｗａｖｅＭａｇａｚｉｎｅ，２００３，４（２）：３６４７．
［１３］李　凡．基于超宽带（ＵＷＢ）技术的测距方法研究［Ｄ］．武
汉：华中师范大学，２００７．
［１４］陶．基于ＵＷＢ的室内ＳＤＳ－ＴＷＲ测距算法优化和定位
算法融合的研究［Ｄ］．武汉：华中师范大学，２０１６．［１５
］陈伟森，裴海龙，夏睿灿．基于超宽带技术的室内定位系统设计［Ｊ］．计算机测量与控制，２０１７，２５（１１）：１７９１８２．［１６］ＹａｎｇＬ，ＧｉａｎｎａｋｉｓＧＢ．Ｌｏｗ－ｃｏｍｐｌｅｘｉｔｙｔｒａｉｎｉｎｇｆｏｒｒａｐｉｄｔｉｍｉｎｇ
ａｃｑ
ｕｉｓｉｔｉｏｎｉｎｕｌｔｒａｗｉｄｅｂａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｓ［Ａ］．ＩＥＥＥＧｌｏｂａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ［Ｃ］．ＩＥＥＥ，２００３．
［１７］李伟杰，戴亚文，唐　雨，等．基于ＵＷＢ的地铁隧道定位系
统设计［Ｊ］．计算机测量与控制，２０１９，２７（８）：檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳檳
１９８２０１．（上接第１７９页）
加速比趋于平稳，说明此时集群资源的利用率最高；然后随着节点数目的不断增加，加速比略有下降，说明此时处理数据的时间要小于节点间的通信时间，集群资源得到浪费。

对于５００Ｍ、１Ｇ、２Ｇ这些数据规模较大数据集来说，随着节点数目的增加，算法的加速比呈现上升状态，并且由数据规模为５００Ｍ的加速比变化曲线可以看出，随着节点数目的不断增加，加速比增长的幅度在逐渐变小。

由此可以看出改进后的Ｃａｎｏｐｙ
－Ｋｍｅａｎｓ算法在并行化执行时能够有效提升聚类效率，并且数据量越大时算法的效率越高。

４　结束语
本文通过引入“最大最小原则”来优化Ｃａｎｏｐｙ中心点的选取，进而定义深度指标计算公式，计算得到最佳的Ｃａｎｏｐｙ个数及区域半径，避免了传统Ｃａｎｏｐｙ算法初始阈值人为指定的问题；接着借助三角不等式定理对Ｋｍｅａｎｓ算法进行优化，减少冗余的距离计算，加快收敛速度；最后结合ＭａｐＲｅｄｕｃｅ分布式框架将改进后的算法并行化实现，在构建的微博文本数据集上进行实验，结果表明改进算法的准确率和扩展性都得到提升。

但是，由于Ｃａｎｏｐｙ中心点的计算花费时间较长，如何在保证聚类准确度的同时，提高Ｃａｎｏｐｙ中心点的生成效率还有待研究。

参考文献：
［１］杨俊闯，赵　超．Ｋｍｅａｎｓ聚类算法研究综述［Ｊ］．计算机工
程与应用，２０１９，５５（２３）：７１４．
［２］邓　海，覃　华，孙　欣．一种优化初始中心的Ｋｍｅａｎｓ聚
类算法［Ｊ］．计算机技术与发展，２０１３（１１）：４８５１．［３］赵　庆．基于Ｈａｄｏｏｐ平台下的Ｃａｎｏｐｙ－Ｋｍ
ｅａｎｓ高效算法［Ｊ］．电子科技，２０１４，２７（２）：２９３１．
［４］刘纪伟，赵　杨，李绍晖．一种基于改进Ｋｍｅａｎｓ算法的网
络流量分类方法［Ｊ］．电子技术应用，２０１７，４３（１１）：８６８９，９４．
［５］李晓瑜，俞丽颖，雷　航，等．一种Ｋｍｅａｎｓ改进算法的并行
化实现与应用［Ｊ］．电子科技大学学报，２０１７，４６（１）：６１６８．［６］孙玉强，李媛媛，陆　勇．基于Ｍａｐ
Ｒｅｄｕｃｅ的Ｋｍｅａｎｓ聚类算法的优化［Ｊ］．计算机测量与控制，２０１６，２４（７）：２７２２７５．
［７］吴德超，刘晓红，曲志坚．基于Ｈａｄｏｏｐ的分布式聚类算法研
究［Ｊ］．山东理工大学学报（自然科学版），２０１８，３２（４）：２５２９．
［８］张选平，祝兴昌，马　琮．一种基于边界识别的聚类算法［Ｊ］．
西安交通大学学报，２００７（１２）：１３８７１３９０．
［９］李淋淋，倪建成，曹　博．基于Ｓｐ
ａｒｋ框架的并行聚类算法［Ｊ］．计算机技术与发展，２０１７，２７（５）：９７１０１．
［１０］ＹａｎｇＹ．Ａｎｅｖａｌｕａｔｉｏｎｏｆｓｔａｔｉｓｔｉｃａｌａｐｐｒｏａｃｈｅｓｔｏｔｅｘｔｃａｔｅｇ
ｏｒｉｚａｔｉｏｎ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，１９９９，１（１／２）：６９９０．
投稿网址：ｗｗｗ．ｊｓｊｃｌｙ
ｋｚ．ｃｏｍ。