基于文本的聚类算法研究本科毕设论文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要

聚类作为一种知识发现的重要方法，它广泛地与中文信息处理技术相结合，应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用，它根据文本数据的不同特征，按照文本间的相似性，将其分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大，而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导，事先对数据结构未知，是一种典型的无监督分类。

本文首先介绍了文本聚类的相关的技术，包括文本聚类的过程，文本表示模型，相似度计算及常见聚类算法。本文主要研究的聚类主要方法是k-均值和SOM 算法，介绍了两种算法的基本思想和实现步骤，并分析两种算法的聚类效果。同时介绍了两种算法的改进算法。

关键词：文本聚类聚类方法K-MEAN SOM

Abstract

Clustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in network information processing to meet the users to quickly access from the Internet, the information resources they need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification.

This paper studies the effect of influencing factors that text clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative hierarchical clustering algorithm, hierarchical clustering algorithm to split and so on. Also studied the text clustering algorithm analysis and methods of improvement.

Key words：Text clustering clustering method k-mean som

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：日期：

指导教师签名：日期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：日期：

学位论文原创性声明

本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名：日期：年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：日期：年月日

导师签名：日期：年月日

指导教师评阅书

评阅教师评阅书

教研室（或答辩小组）及教学系意见

摘要 ........................................................................................................................... I Abstract ............................................................................................................................. I I 目录 .. (1)

第一章绪论 (1)

1.1 课题研究的背景 (1)

1.2课题研究的意义 (2)

第二章文本聚类效果影响因素 (3)

2.1文本聚类过程 (3)

2.2文本表示模型 (4)

2.2.1布尔模型 (5)

2.2.2向量空间模型 (5)

2.3 文本相似度计算 (6)

2.4文本聚类算法 (8)

2.5本章小结 (11)

第三章 k-均值聚类算法 (12)

3.1 K-均值聚类算法的思想 (12)

3.1.1 K-均值聚类算法的基本思想 (12)

3.1.2 K-均值聚类算法的算法流程 (12)

3.1.3 K-均值算法的优缺点分析 (13)

3.1.4现有的对于K-均值聚类算法的改进 (15)

3.1.5现有基于初始中心点改进的K-均值聚类算法 (16)

3.2 本章小结 (17)

第四章 SOM聚类算法 (18)

4.1 SOM聚类算法的网络特性与基本流程 (18)