Hadoop下并行化实现文本聚类的优化算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop下并行化实现文本聚类的优化算法
王辉;潘俊辉;Marius.Petrescu;王浩畅;张强
【期刊名称】《计算机与数字工程》
【年(卷),期】2022(50)12
【摘要】目前对文本进行聚类分析是数据挖掘领域的一个重要研究方向,传统的K-means聚类算法在处理海量数据时存在初始聚类中心选取随意而导致运行不稳定的缺点。

针对该缺点以及单机串行编程对海量数据聚类效率低的问题,提出了一种Hadoop平台下并行化实现文本聚类的优化算法。

该算法首先使用向量空间模型对文本进行表示,并对该过程基于MapReduce并行处理,接着采用基于密度和最大最小距离的算法对初始聚类中心的选取进行优化,并将该优化应用到K-means算法,然后基于MapReduce实现对文本的并行聚类。

最后通过实验将Hadoop平台下并行化实现文本聚类的优化算法与其他聚类算法进行对比,实验结果表明优化的文本聚类并行算法在聚类效率和聚类质量上均有较大的提高。

【总页数】6页(P2611-2615)
【作者】王辉;潘俊辉;Marius.Petrescu;王浩畅;张强
【作者单位】东北石油大学计算机与信息技术学院;普罗莱斯蒂石油天然气大学【正文语种】中文
【中图分类】TP311
【相关文献】
1.Hadoop平台上K-means算法的并行化研究与实现
2.基于Hadoop的KDM并行化制作研究与实现
3.基于Hadoop平台的LDA算法的并行化实现
4.Hadoop 平台上K-means算法的并行化研究与实现
5.基于Hadoop平台FP-Growth算法并行化研究与实现
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档