社交网络数据挖掘方法研究

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社交网络数据挖掘方法研究

对于现在的我们来说,网络应该是最熟悉的,它影响着我们生活得方方面面,通过网络进行社交活动也是现在网络的一个巨大的作用,各种各样的社交软件层出不穷,研究社交网络数据也变得越来越重要。巨大的数据量和复杂的数据形式导致研究社交网络数据挖掘方法存在许多困难。社交网络数据挖掘的第一步也是基础步骤就是数据分类。下文中研究的数据类型主要是数值型数据,这就大大减小了数据处理的难度,研究的内容是微博用户信息,通过常用的数据挖掘方法决策树算法,研究微博用户分类的有效的规则,得出用户分类信息。

1.1 研究背景

社交网络的发展和壮大使社交网络数据得到越来越多的关注,其价值也是毋庸置疑的,如何能利用这些信息帮助企业发展是目前研究的重点。与传统的网络形式相比,社交网络具有它独特的性质,首先,对于用户来说,他给用户更多的权限和自主性。这也就使得社交网络的数据更加的多样和复杂,内容也越来越丰满,社交网络还呈现出更加明显的群体特征,他会将具有相同特质的用户更紧密的来联系在一起。最最重要的特征是他传播信息的速度,这个速度是及时的,非常迅速,扩散范围特别的广,传统的研究方法与模型应用于社交网络数据时,推广率极低,错误率较高,传播速度低,所以创新数据挖掘方法是研究重点。在研究社交网络数据时,必须分析选择合适的挖掘方法。

目前,国内流行的社交软件有微博、微信、QQ、知乎等新兴APP,只微博就有腾讯、新浪、搜狐等几家公司,其中新浪微博是目前看来中国最具影响力的微博之一。新浪微博已经渗透到年轻人生活的点点滴滴之中,影响舆论,改变人们的思想方式,对人们产生的影响是不容小觑的。在对社交网络数据进行分析时,我们选择了新浪微博软件,因为新浪微博使用群体多,具有典型性,网站的点击量也是最大的,所以,选择微博用户信息进行研究挖掘,分析微博用户的信息数据,能得到更具有代表性和准确性的结论[1]。

1.2研究目的与意义

1.2.1研究目的

当今时代,是互联网的黄金发展时代,网络伴随着我们生活的点点滴滴,我们工作学习娱乐都会应用到网络。互联网技术迅猛发展,拉近了人与人之间的距离,使得我们的生活更加的便利。随着科技的光速发展技术的变革,人们通过互联网进行沟通,互动。越来越多的网络互动也就产生了越来越多的信息。社交网络就是由网络社交形成的。网络社交的最初人们通过电子邮箱,BBS 等进行单一的交流。之后又出现了即时通讯和博客,这在交流速度和信息量的并发方面有了显著性的提高,这些社交工具更能满足人们对沟通方面的社会需求和心理需求,所以社交网络的发展速度之快也是我们可以预见的。截至2016年底,中国网民规模已经达到7.31亿,普及率达到53.2%,社交网络的传播影响之大、覆盖用户之广使其必然也就蕴含了巨大的商业价值。通过对社交网络数据进行挖掘并深入分析,我们可以发现许多潜在的商机,还可以发现对舆论产生危害的信息进行及时的控制和清理。社交网络现在已经不仅仅是满足人们沟通的工具,也可以在社交网络上得到自己想知道的消息,向其他人分享自己的信息,运营商也可以在社交网络上进行宣传和推广。

网络数据的增长速度非常之快,如果能够从网站上获得这些数据,将会对企业监测消费者的关注重点起到很大的作用,除此之外,社交网络数据的挖掘和分析对商家宣传媒体运营也是作用巨大[2]。社交网络几乎集中了所有的精力充沛的充满活力的用户群体。是社交网络问题讨论最集中最广泛的地方,挖掘其中的数据能够得到很多我们想要的信息,为相应的使用者提供分析和决策。

1.2.2 研究意义

目前,数据挖掘对于我们来说还是一个新领域新学科,是有关数据和信息系统的应用的涉及到多种学科多个领域共同发展集合的新学科。通过数据挖掘我们从海量的数据中精确的挖掘数据中隐藏的无法直接获得的有效信息。在数据库和决策信息领域,数据索引与开发是近年来的热点研究方向。数据挖掘蕴含着巨大的商业价值,他可以应用于金融业,零售业,通讯业等各行各业。

对于社交网络来说,它本身的由来和发展使它具有三大优势。第一,用户粘度较高;我们每天上网的时间是非常多的,尤其是现在的年轻人,几乎每天大部分的时间都在上网;第二,维护成本低,随着web2.0时代的到来,网站的运营成

本急剧缩减;第三,信息健全,社交网络的登陆和注册会要求填写真实的详细的用户信息,这对于开发者进行数据分析具有极大的商业价值。

后面的内容将对应用于新浪微博等社交软件数据信息的挖掘方法进行阐述。随着计算机技术的飞速发展,各种社交服务类软件应运而生,国外的社交软件有Facebook, Twitter等,新浪微博使用简单便捷,深受各年龄段和社会阶层喜爱,在社交网络中地位突出。对新浪微博用户数据的挖掘和分析有利于学术的发展,对社会经济也有重要作用。微博与Facebook、贴吧等常规可公开发表言论的交流软件相比,用户数量大、信息扩散效率高[3]。社交网络相比于传统的网络表现出更加复杂多样的综合特征,使得传统的理论与模型很难来准确的描述社交网络中用户的行为特征,因此,如何能高效率的挖掘数据中隐藏信息、研究数据规律,无论是为了扩大个人微博知名度,还是为了树立企业正面形象,首先最重要的事情就是将不同微博用户数据信息进行区分[4]。

1.3研究现状评述

1.3.1国外研究现状

对于社交网络数据的研究,国外学者接触较早,研究方向更加明确,结论更加完整。国外将社交网络数据研究与国际最新研究热点相结合,研究理论知识与实际操作。美国公立机构多个部门开展项目研究,为当前出现的技术难题研究解决办法。早期为社交网络数据挖掘方法研究奠定了坚实的理论的是宏观分析。有外国学者曾对早前出现过的社交软件进行过研究,为当前社交网络研究领域提供了依据。2007 年Jon Kleinberg 提出当前社交网络分析的两大主要问题:一是如何从数据出发推理社会发展进程,二是社交网络分析时的用户隐私安全问题,为社交网络的研究方向开辟出一条新的道路。由于早前其他学者的深入研究,并取得了一定的成果,使得网络发展迅速并吸引具有先进知识的年轻学者加入研究,越来越多的人也对社交网络未来发展前景了解更加清晰[5]。

随着Facebook、Twitter 等新型社交网络软件的出现,越来越多的学者开始关注社交网络中话题发现的研究。国外的研究大多数都是以Twitter 为核心,所以针对Twitter的文本话题的发现也就成了国外学者的热门研究方向。

数据挖掘研究方法已经逐渐形成理论体系,并分门别类、模式众多,并且将这些算法应用到实际,虽然这些算法理论上还是会存在一些不足之处,但是对于研究国内的社交网络数据还是具有很强的借鉴意义。

相关文档
最新文档