【原创】数据挖掘课程论文:基于K-means算法的微博用户特征聚类研究附数据代码
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上海大学2013-2014学年春季学期硕士研究生课程考试
课程名称:数据挖掘与商务智能课程编号:29SBG百度文库016
论文题目:基于K-means算法的微博用户特征聚类研究
研究生姓名(学号):
论文评价:
评价项目
具体评价标准
得分(最高5分)
选题意义
选题有理论或实际意义;选题的难易程度;清楚了解专业背景
1 2 3 4 5
“数据海量,信息缺乏”是当今社会信息技术面临的主要问题之一。人们不禁思考:“如何从这些数以亿计的数据量中提取出有用的信息,及时发现有用的知识,提高信息的利用率?”为了解决这一问题,数据挖掘这样的技术就应时而生。数据挖掘[2]( data mining),又称数据库中的知识发现( knowledge discovery in database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的新领域。其信息的表现形式为规则、概念、规律及模式等,它可以帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘涉及多种领域[3],包括人工智能、统计技术和数据库等相关技术领域。同时,研究数据挖掘的方法也较多,包括决策树分析、分类、聚类、关联规则、预言、估值、可视化等等。
本文就将采用K-means算法对基于用户特征的微博数据进行聚类分析。接下来首先对K-means算法进行文献回顾,对其进行系统的介绍,再是通过一个仿真实验具体来强化了解K-means算法,本文的数据是由所设计地软件在微博平台上获取的数据,最后得到相关结论和启示。
2
2.1
聚类算法的研究有着相当长的历史,早在1975年Hartigan就在其专著Clustering Algorithms[5]中对聚类算法进行了系统的论述。聚类分析算法作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等。
1 2 3 4 5
参考文献
格式排版
文献引用合理充分;参考文献格式正确;严格遵守论文格式及排版要求
1 2 3 4 5
是否达到本课程小论文要求:是()否()
论文成绩:
任课教师:评阅日期:2014年6月
基于
摘要:本文就将采用K-means算法对基于用户特征的微博数据进行聚类分析。首先对聚类分析作系统介绍。其次对K-means算法进行文献回顾,对其概况、基本思想、算法进行详细介绍,再是通过一个仿真实验具体来强化了解K-means算法,本文的数据是由所设计地软件在微博平台上获取的数据,最后得到相关结论和启示。
2.2
给定一个对象集合X = {x1,x2,…,xn},假设每个对象xi,i = 1…n,含有m个特征,在此用向量的方式来表示对象的特征xi= (l1,l2,…,lm),聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则来获得聚类结果。聚类的结果用C = {c1,c2,…,ck}表示,则聚类结果满足以下条件:ci≠空集,i = 1,…k:∪Ci=X:ci∩cj=空集,i≠j,i,j=1,…,k。模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。通常聚类分析算法一般包含四个部分:(1)特征获取与选择;(2)计算相似度;(3)分组;(4)聚类结果展示。
图2.1聚类方法
目前所存在的聚类方法主要是为层次化聚类方法,划分式聚类方法,基于密度的聚类方法,基于网格的聚类方法,基于核的聚类算法,基于谱的聚类方法,基于模型的聚类方法,基于遗传算法的聚类方法,基于SVM的聚类方法,基于神经网络的聚类方法等,这些算法都能取得不错的聚类效果,其中应用最多且算法思想较为简单的是基于划分的K-means算法。下部分将重点介绍聚类基于划分的方法以及K-means算法。
关键词:聚类分析;微博;用户特征;K-means算法
1
随着互联网的飞速发展,微博、博客、论坛等社交网络已成为人们生活工作中的一部分。微博作为新兴的即时通讯工具,具有即时发布、实时传播、多途径参与、简便易用等特点。据中国互联网信息中心(CNNIC)第33次统计,截至2013年12月底,中国网络用户规模突破6亿,达到6.18亿,互联网普及率达到45.8%,较2012年底提升了3.7个百分点,新浪微博注册用户数超过3.5亿,每天的信息量也突破2亿条[1]。当今社会正是逐步转化为一个信息化的社会,它的主要特点就是信息急剧膨胀。
聚类分析[4](Clustering Analysis)应用十分广泛,它是数据挖掘中的一个重要的研究课题,通常用于分析数据并且能够从中发现一些非常有用的信息的一种方法。它广泛地应用于文本搜索、模式识别、人工智能、图像分析等领域。K-means聚类算法是由Steinhaus1955年Lloyd195年Ball&Hall1965年McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后,在不同的学科领域被广泛研究和应用并发展出大量不同的改进算法。它是研究比较多且应用比较广泛的一种基于划分的聚类算法。具有算法简单、易于实现、品于扩展,并且能够处理大数据集的特点。它同时也是一种应用广泛的基于启发式的划分方法但是K-Means方法有一些不可避免的缺点自身存在有一定局限性:K-Means聚类算法中K值,需要事先指定,并且对初值比较敏感,不同的初始聚类中心会导致不同的聚类结果,从而导致聚类结果的不稳定,并且容易陷入局部最优而非全局最优的结果等。鉴于K-Means聚类算法的这些缺点,在具体使用过程中,需要对其进行改进。虽然K-means聚类算法被提出已经超过50年了,但目前仍然是应用最广泛的划分聚类算法之一。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。本文根据微博用户的加V、简介、粉丝数、粉丝关注比等几个基本特征进行聚类,能够有效地对影响微博转发的用户特征因子进行挖掘,从而能够更好地理解由信息源对微博热度的影响。
知识水平
对课程所讲授的理论知识熟练掌握,正确运用;理论掌握的深入程度
1 23 4 5
论文表述
主题突出,观点明确,论据充分,结构合理,层次清楚,语言通顺,文字简练,无错别字
1 2 3 4 5
结论与创新
结论表述清晰,推导合理,意义明确,有理论或应用上的指导性价值;研究方法有创新,或改进了现有成果(建议在论文中直接提及)
聚类方法是无监督模式识别的一种方法,同时也是一种很重要的统计分析方法。聚类分析已经被广泛的研究了很多年,研究领域涵盖数据挖掘、统计学、机器学习和空间数据库等众多领域。聚类是基于数据的相似性将数据集合划分成组,然后给这些划分好的组指定标号。目前文献中存在着大量的聚类算法,大体上,聚类分析算法主要分成如下几种[6],图2-1显示了一些主要的聚类算法的分类。
课程名称:数据挖掘与商务智能课程编号:29SBG百度文库016
论文题目:基于K-means算法的微博用户特征聚类研究
研究生姓名(学号):
论文评价:
评价项目
具体评价标准
得分(最高5分)
选题意义
选题有理论或实际意义;选题的难易程度;清楚了解专业背景
1 2 3 4 5
“数据海量,信息缺乏”是当今社会信息技术面临的主要问题之一。人们不禁思考:“如何从这些数以亿计的数据量中提取出有用的信息,及时发现有用的知识,提高信息的利用率?”为了解决这一问题,数据挖掘这样的技术就应时而生。数据挖掘[2]( data mining),又称数据库中的知识发现( knowledge discovery in database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的新领域。其信息的表现形式为规则、概念、规律及模式等,它可以帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘涉及多种领域[3],包括人工智能、统计技术和数据库等相关技术领域。同时,研究数据挖掘的方法也较多,包括决策树分析、分类、聚类、关联规则、预言、估值、可视化等等。
本文就将采用K-means算法对基于用户特征的微博数据进行聚类分析。接下来首先对K-means算法进行文献回顾,对其进行系统的介绍,再是通过一个仿真实验具体来强化了解K-means算法,本文的数据是由所设计地软件在微博平台上获取的数据,最后得到相关结论和启示。
2
2.1
聚类算法的研究有着相当长的历史,早在1975年Hartigan就在其专著Clustering Algorithms[5]中对聚类算法进行了系统的论述。聚类分析算法作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等。
1 2 3 4 5
参考文献
格式排版
文献引用合理充分;参考文献格式正确;严格遵守论文格式及排版要求
1 2 3 4 5
是否达到本课程小论文要求:是()否()
论文成绩:
任课教师:评阅日期:2014年6月
基于
摘要:本文就将采用K-means算法对基于用户特征的微博数据进行聚类分析。首先对聚类分析作系统介绍。其次对K-means算法进行文献回顾,对其概况、基本思想、算法进行详细介绍,再是通过一个仿真实验具体来强化了解K-means算法,本文的数据是由所设计地软件在微博平台上获取的数据,最后得到相关结论和启示。
2.2
给定一个对象集合X = {x1,x2,…,xn},假设每个对象xi,i = 1…n,含有m个特征,在此用向量的方式来表示对象的特征xi= (l1,l2,…,lm),聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则来获得聚类结果。聚类的结果用C = {c1,c2,…,ck}表示,则聚类结果满足以下条件:ci≠空集,i = 1,…k:∪Ci=X:ci∩cj=空集,i≠j,i,j=1,…,k。模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。通常聚类分析算法一般包含四个部分:(1)特征获取与选择;(2)计算相似度;(3)分组;(4)聚类结果展示。
图2.1聚类方法
目前所存在的聚类方法主要是为层次化聚类方法,划分式聚类方法,基于密度的聚类方法,基于网格的聚类方法,基于核的聚类算法,基于谱的聚类方法,基于模型的聚类方法,基于遗传算法的聚类方法,基于SVM的聚类方法,基于神经网络的聚类方法等,这些算法都能取得不错的聚类效果,其中应用最多且算法思想较为简单的是基于划分的K-means算法。下部分将重点介绍聚类基于划分的方法以及K-means算法。
关键词:聚类分析;微博;用户特征;K-means算法
1
随着互联网的飞速发展,微博、博客、论坛等社交网络已成为人们生活工作中的一部分。微博作为新兴的即时通讯工具,具有即时发布、实时传播、多途径参与、简便易用等特点。据中国互联网信息中心(CNNIC)第33次统计,截至2013年12月底,中国网络用户规模突破6亿,达到6.18亿,互联网普及率达到45.8%,较2012年底提升了3.7个百分点,新浪微博注册用户数超过3.5亿,每天的信息量也突破2亿条[1]。当今社会正是逐步转化为一个信息化的社会,它的主要特点就是信息急剧膨胀。
聚类分析[4](Clustering Analysis)应用十分广泛,它是数据挖掘中的一个重要的研究课题,通常用于分析数据并且能够从中发现一些非常有用的信息的一种方法。它广泛地应用于文本搜索、模式识别、人工智能、图像分析等领域。K-means聚类算法是由Steinhaus1955年Lloyd195年Ball&Hall1965年McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后,在不同的学科领域被广泛研究和应用并发展出大量不同的改进算法。它是研究比较多且应用比较广泛的一种基于划分的聚类算法。具有算法简单、易于实现、品于扩展,并且能够处理大数据集的特点。它同时也是一种应用广泛的基于启发式的划分方法但是K-Means方法有一些不可避免的缺点自身存在有一定局限性:K-Means聚类算法中K值,需要事先指定,并且对初值比较敏感,不同的初始聚类中心会导致不同的聚类结果,从而导致聚类结果的不稳定,并且容易陷入局部最优而非全局最优的结果等。鉴于K-Means聚类算法的这些缺点,在具体使用过程中,需要对其进行改进。虽然K-means聚类算法被提出已经超过50年了,但目前仍然是应用最广泛的划分聚类算法之一。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。本文根据微博用户的加V、简介、粉丝数、粉丝关注比等几个基本特征进行聚类,能够有效地对影响微博转发的用户特征因子进行挖掘,从而能够更好地理解由信息源对微博热度的影响。
知识水平
对课程所讲授的理论知识熟练掌握,正确运用;理论掌握的深入程度
1 23 4 5
论文表述
主题突出,观点明确,论据充分,结构合理,层次清楚,语言通顺,文字简练,无错别字
1 2 3 4 5
结论与创新
结论表述清晰,推导合理,意义明确,有理论或应用上的指导性价值;研究方法有创新,或改进了现有成果(建议在论文中直接提及)
聚类方法是无监督模式识别的一种方法,同时也是一种很重要的统计分析方法。聚类分析已经被广泛的研究了很多年,研究领域涵盖数据挖掘、统计学、机器学习和空间数据库等众多领域。聚类是基于数据的相似性将数据集合划分成组,然后给这些划分好的组指定标号。目前文献中存在着大量的聚类算法,大体上,聚类分析算法主要分成如下几种[6],图2-1显示了一些主要的聚类算法的分类。