基于微博的信息热度评价与预测分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本科生
论文题目基于微博的信息热度评价与预测分析
作者姓名
专业
指导教师
2019年6月
摘要
微博已成为时下非常热门的社交媒体平台,是一个庞大的关于信息分享和话题交流的平台,在人们线上社交活动中发挥着不可替代的作用,由于网络信息鱼龙混杂,所以本文通过了解微博的热度机制进而研究微博热度和预测微博的热门程度,本文研究内容对于监控预测微博舆情有重要的借鉴意义。
本文主要以新浪微博作为研究对象,首先进行爬取工具的选取,随后通过分析信息传播特征,从微博的用户、内容与传播三个方面提炼影响微博热度的主要因素,并提取关键指标建立热度体系评价指标,运用因子分析法建立微博热度评估模型,得到各微博信息维度表达式以及热度计算公式,对数据进行整理分析,最终对其结果进行排序和对比,发觉模型比较符合实际情况,表明本模型具有较高的准确性。
随后又提出了基于PSO优化BP 神经网络的话题热门程度预测模型。
构建出话题热门程度的时间序列模型作为预测模型的输入,依照优化后的预测模型,完成了对话题热门程度值的预测。
试验结果表明基于PSO 优化BP 神经网络的话题热门程度预测模型能够很好的模拟话题热门程度的改变趋势,对现实具有一定的指导意义。
关键词:微博;因子分析;热度评价模型;BP神经网络预测模型
Abstract
Weibo has become a very popular social media platform, today is a big topic about information sharing and exchange platform, in people online play an irreplaceable role in social activities, the good and evil people mixed up because of the network information, so this article through understanding the heat mechanism and further study of weibo microblogging heat and predict microblogging popularity, this article research content for monitoring the microblogging public opinion has important significance.
Based on sina weibo, this article crawl tools selection at first, then through analyzing the characteristic of information dissemination and spread from weibo users, content and three aspects of refining the main factors affecting heat weibo, and extract the key indicators to establish the heat system of evaluation index, heat weibo evaluation model is established by using factor analysis method, get the microblog information dimension expression and heat calculation formula of sorts through the data analysis, sorting, and finally the results, found model more in line with the actual situation, show that the model has higher accuracy.
Then, a pso-based BP neural network optimization model is proposed to predict the degree of hot topics. The time series model of topic popularity is constructed as the input of the prediction model. According to the optimized prediction model, the prediction of topic popularity is completed. The experimental results show that the PSO optimized BP neural network model can well simulate the change trend of the hot topic degree, which has certain guiding significance to the reality.
Keywords:weibo;factor analysis;heat evaluation model;BP neural network;prediction model
目录
摘要 (I)
Abstract (1)
第1章绪论 (2)
1.1 选题背景及意义 (1)
1.1.1 选题背景 (1)
1.1.2 研究意义 (1)
1.2 国内外研究现状 (2)
1.2.1 热度评价研究现状 (2)
1.2.2热门话题预测现状分析 (3)
1.3 研究内容 (4)
1.4 组织结构 (4)
第2章预备知识 (5)
2.1爬取工具的选取 (5)
2.2 热度评价研究 (5)
2.2.1媒体与用户关注度 (5)
2.2.2媒体影响力 (6)
2.2.3 内容的丰富程度 (6)
2.2.4话题的时效性 (7)
2.3 热门预测算法 (7)
2.3.1预测依据 (7)
2.3.2 基于PSO算法的BP神经网络 (8)
2.4 本章小结 (8)
第3章热度评价模型的建立 (10)
3.1微博登录与信息爬取 (10)
3.2建立热度评价模型 (11)
3.3通过热度排序对模型进行检验 (16)
3.4本章小结 (17)
第4章预测模型的建立 (18)
4.1 热门微博推断指标 (18)
4.2 结合PSO算法的BP 神经网络的热门预测模型 (19)
4.2.1 算法原理 (19)
4.2.2 模型的试验环境与数据猎取 (20)
4.2.3 预测模型的参数设置 (20)
4.2.4 预测结果与分析 (22)
4.3 本章小结 (24)
结论 (25)
参考文献 (26)
第1章绪论
1.1 选题背景及意义
1.1.1 选题背景
微博,简称微型博客,2009
年由新浪客户端开始发行使用,它主要是基于关注机制,通过广播式的信息扩散向大众发表实时信息。
2018年12月31日,微博官方公布2018年第四季度财务审计报告,报告说明,在激烈的行业竞争中,微博用户数仍然持续飞涨,用户活跃度进一步提升。
2018年微博客户端线上活跃用户大约增加了7000万左右,12月总用户已经达到4.62亿,平均每日活跃用户突破2亿。
显而易见,微博已成为时下非常热门的社交媒体平台,是一个庞大的关于信息分享和话题交流的平台,用户可以通过注册登录,完善更新个人信息,在这个平台中用户可以参加热门话题的商议,了解时下发生的事件,还可以即时分享自己的所做所想,其中推送次数多,扫瞄次数高,互动次数多的微博会被推送为热门微博,且微博更注重信息的时效性、言论自由性以及传播广泛性,所有用户可以第一时间了解并参加到时事商议中去,所以微博在舆情预警以及政务与社会信息传播方面的影响力日益增大。
在微博平台中,任何用户都可以自由公布内容,还可以对其他用户发送的内容发表自己的评论并转发,另外由于近些年视频信息传播愈发火热,图像处理技术也变得更加成熟,传播信息鱼龙混杂,可靠程度有待考量,于是了解微博的热度机制并对微博热度进行评估与预测,对于监控预测微博舆情,推动传播真实有效信息,营造活跃健康的社交平台具有重要作用。
1.1.2 研究意义
在微博信息热度评估中,曝光度高、阅读数量或者互动数较高的内容信息比较简单成为热门微博,平台中包括“热搜排行榜”和“热门话题”等对每位用户进行推送,还会根据热度大小对热门微博的内容进行排序。
本文在分析了影响热门微博传播的一些因素之后,拟建立热度评价模型与热门微博预测模型,通过计算热门微博的热度与热门程度的改变趋势,来对话题热度的监控与预
测,从而可以更加有效的缩小平台的负面信息与虚假信息的传播范围,使大众扫瞄到更多真实可靠的时政信息。
本文结合微博信息内容和用户行为,主要运用因子分析法建立微博热度评估模型,对微博热度进行量化处理,随后利用 BP
神经网络学习建立了热门微博预测模型,来推断微博内容能否成为热点微博,并推断热门程度的改变趋势。
本文研究在促进真实的时政信息传播,研究平台商品营销推送以及推动政府对舆情监测与预警等方面,提供了可以借鉴的理论与实践依据。
1.2 国内外研究现状
1.2.1 热度评价研究现状
关于网络信息的热度评估研究,Xi
Maoetal利用图形化法模拟新闻来源,寻觅确定了热门话题与新闻内容之间的相应联络,并考虑的新闻的时效性,利用衰退函数进行多次迭代,对于不同的新闻类型,设置不同的速率参数,最终得出内容热度的计算公式[1]。
不少学者曾经基于微博传播主体角度展开热度研究,包括对微博运营策略以及用户之间的联络等方面进行探讨[2]。
关于微博内容热度的研究,Teutle和Golder分别对微博的关注机制以及用户之间的扩散式联络做了分析,发觉微博热度与用户间的互动程度和内容推送对象有关[3-
4]。
郑斐然等人研究得到了一种可以在万千微博主题信息中提炼新闻主题内容的方法,主要原理是通过提取内容中与新闻有关的关键字,结合词组出现的频率,对内容进行聚类分析,从而挖掘指定话题[5-
6]。
张鲁民等人提出了对突发事件实现舆情监控的一种方法,通过建立情感符号模型,通过初始聚类扩散群集算法对事件进行检测与监控[7]。
Phuvipadawat
等人基于微博的内容性质,制造了在推特中的突发事件监测、内容合并及信息跟踪等算法[8]。
We ng等人提出 Twitter
Rank算法,原理是基于博主的粉丝数量与发博率对目标用户进行影响力分析,在此基础上挖取了推特平台上与热门内容有关的若干用户[9]。
Pal
等人在给定数据的基础上,综合考虑了微博的转发数、点赞数、评论数、被提及数等衡量内容的
热度[10]。
衡量微博热度,研究重心应该放在微博内容与用户行为两个方面,其中用户不仅指公布者,还指该用户所面向的粉丝群体。
尽管平台会根据内部的排序机制对所有微博按大小进行排序,包括首页热搜以及指定话题搜索排名等,但缺点是其并不知道其排序时热度的计算原理以及热度差距产生的原因,基于此,本文运用因子分析法建立了微博热度评估模型,得出热度的计算公式,将热度进行量化,并得出了新的排序结果与原排序进行对比。
1.2.2热门话题预测现状分析
对于各类热门话题的预测,学术界一般主要采取以下两种预测方法,第一种是指比较典型的线性预测方法,但仅仅适合对平稳曲线进行预测,不适合预测多种类型的热门话题。
第二种是指基于非线性理论建立预测模型,该种分析方法更具系统性与智能性,如支持向量机,可以对数据进行广义线性分类,大致实现非线性拟合,不足之处是会经常陷入局部最优,无法得到全局最优解[11-
12]。
Suh等人选取了话题类型、粉丝人数等属性,基于主成分分析法提炼了影响用户互动行为的主要因素,并建立了精确度较高的因子图模型,对用户行为进行了合理预测[13-
14]。
刘功申等人通过定量计算用户对微博的影响,对已有算法进行优化,可以凭借微博发出者的用户属性预测该微博是否会被大量转发,进而给出舆情预警[15]。
张敬基于话题热度,提出微博热度预测算法,结合多维度数据建立回来预测模型,实现对话题热度的预测[17]。
F.D.Sahneh,C.Sco glio根据传染模型的多层网络传播原理建立预测模型,预测话题的未来走向,并详细地阐述了信息扩散时的传播规律以及信息的相互作用。
因为BP神经网络在面对比较错综复杂的问题上,收敛速度慢,处理时间长,而且很简单收敛到局部最优值,不能达到全局最优[18]。
对于上述问题,许多研究者提出了相关改进方法。
颜文俊等基于遗传算法优化 BP
神经网络的预测模型,利用光伏输出等原理,提高了算法的收敛速度,进而提高了预测的效率与精度,但并未改进结果局部最优这一缺陷[19]。
丁硕与巫庆辉通过对比多种经典的优化算法的渐近函数,分析各改进算法对不同数据规模的分析效果,发觉每种算法都有适用范围,在各自适用范围内迫近效果接近良好。
周爱武等通过利用最优样本集相关原理,改进了原始算法,缩短了算法的运行时间,迭代次数也大大降低,但算
法自身仍然有局限性[20]。
1.3 研究内容
研究基于微博客户端,运用爬虫软件python中的Selenium
爬取工具,采集5个话题热门微博的相关数据,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,并验证模型准确性。
随后利用BP 神经网络研究基于PSO算法的热门微博预测算法,最终通过实例验证热点话题预测结果的可靠性。
1.4 组织结构
本文共包括四章,下面介绍每章的主要内容:
第一章绪论本章简要从微博热度评价与热门程度预测的选题背景、研究意义进行了简要阐述,对话题热度评价与预测的国内外研究现状以及课题研究内容与流程进行了概括。
第二章预备知识本部分阐述了研究开始前需要了解的预备知识,包括爬取工具的选取,热度评价与热门预测等方面的理论知识,奠定了全文的理论基础。
第三章
热度评价模型的建立,本章基于爬取的热门微博数据,运用因子分析法提取重要因素建立热度体系评级指标,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,基于该模型对内容热度进行排序对比,实行热度评估模型的验证。
第四章
本章建立了结合PSO算法,基于BP神经网络的热门微博预测模型,首先分析热门话题的表现形式,运用算法原理,将进行预测的微博信息作为模型的输入,来完成对微博热门程度与趋势的预测,最终进行了实际检验。
第2章预备知识
在进行实际操作之前,首先对涉及到的基础理论知识进行简洁介绍。
2.1爬取工具的选取
微博相较于其他网站,涉及功能比较齐全,所以对微博页面内容进行爬取并非易事,除此之外其反爬虫技术更为先进,一半的爬虫工具无法快速猎取到目标信息,但总的来说其数据格式比较统一,综上我们基于微博网站的运行机制,借助python中的技术与手段,可以快捷地爬取到微博中的指定内容及相关数据。
网络爬虫原理是基于爬虫语句对目标网站的信息进行猎取,而近年来反爬虫技术进展迅速,由此猎取网站信息也变得没那么简单。
在爬取数据时往往会遇到各种各样的拦截,比如常见的“403 Forbidden"错误,它表示服务器已经识别出爬虫并拒绝处理用户的恳求。
而Selenium Python API技术,是以一种非常直观的方式来访问扫瞄器的技术,包括定位元素、自动操作键盘鼠标提
交页面表单、抓取所需信息。
Selenium的爬虫原理是先识别所需爬取内容的HTML源码,通过其
所提供的方法定位到所需信息的结点位置,并猎取其文本内容。
本文利用python中的pip工具来安装selenium和对应的扫瞄器驱动,以便进行后续的数据爬取。
2.2 热度评价研究
分析微博热门话题热度之前,需要了解影响热度的若干因素,如下:
2.2.1媒体与用户关注度
这里的媒体包括新闻媒体、娱乐媒体等,是首发信息的来源媒体,诸如央视新闻、新浪媒体等。
某个话题报道信息的数量是影响媒体关注度的关键因素,公布该话题信息的数目越多,可以反映各大媒体对话题的关注度越高,于是会引起更多媒体的重视,在传播范围变广之后,大众的阅读量也会明显增多,话题成为热门话题的几率就大大增加。
网络时代之前,人们基本通过报纸、期刊杂志、电视或收音机等方式了解当下热门时事,猎取时政信息。
而网络时代的到来,传统媒体为了幸免淘汰,进入了新媒体时代,转型建立了自己的互联网平台,在新媒体时代,热门信
息的报道并非全是首发,很大程度上是参考并转发了其余的媒体时事报道。
所以,某话题的报道频率越高,各媒体的转发频率越高,就越能说明媒体的关注程度,就越可能成为热门。
用户关注度也是衡量话题热度的关键因素。
用户关注度中的用户,是指各类时事报道的阅读者。
一条微博信息包括了用户阅读量,转发数,评论数等数据,可以反映用户对该信息或者该话题的关注程度,还可以间接反映话题在用户中的影响范围与程度。
某位用户在扫瞄某条信息之后,若觉得好玩或者有所想,还可能会被转载到微信和Facebook 等其他社交平台上,该信息又会在其他网络平台上传播。
除此之外,传播时事信息不仅可以通过线上传播,还可以通过生活中的人际关系进行扩散。
例如,用户A在网站W1中阅读了一篇报道,认为非常新奇好玩,分享或讲述给朋友B,而B可能又会将该条信息讲述给她其他朋友。
上述是指话题的二次传播,通过这种非线性的网络式传播,某个话题可以被大众知晓,知晓的人数越多,点击量也会越来越大,话题会有比较大的几率评为热门话题。
用户的评论与转发从侧面可以反映出大众对某话题的兴趣程度,有利于社交平台预测其进行多次传播的几率,进而衡量话题热度。
2.2.2媒体影响力
媒体影响力是决定微博热度的第二个要素,一般来说,自媒体指每个独立且普遍的信息传播者,他们以各种类型的线上方式,向粉丝用户推送时下信息或推广商品的信息。
同一事件相关的微博内容会有很多自媒体平台进行转发评论,但是不同的自媒体其传播范围与影响力都不尽相同。
一般来说,微博信息的传播呈树状传递,一些加v用户的微博发出后通过粉丝的阅读和互动不断扩大影响力,而且粉丝数量越多,传播范围就会越广,阅读量与互动数也会越高,会比较简单成为热点话题。
一般来说,媒体是指通过现代和电子手段向大多数人或特定的个人传递规范性和非规范性信息的私人、公共、普遍和独立的传播者。
同一事件相关的微博内容会在不同的自媒体用户之间复制传播,但不同个体媒体的传播能力和影响程度不同。
2.2.3 内容的丰富程度
在微博平台上,用户公布信息几乎没有限制,很多用户公布的内容比较随意,有的是对日常生活的记录,有的是倾诉悲喜遭遇,有的是对时事的思考评论。
根据互联网上的随机调查报告显示,42.52%的“加V用户”会公布新锐观点、时事评论等,37.47%会在微博上分享日常,13.69%的“
加V用户”会经常公布一些专业领域的知识,而仅仅只是转发不加以任何评论的用户较少,只有7.6 9%,并且越是可以表达自己思想的微博用户,越会引起人们的评论转发与关注。
2.2.4话题的时效性
话题的热度衡量依据是各类媒体报道数量与用户关注程度,若某话题被评为热门话题,该话题下必定有许多关于该话题的内容信息。
一般情况下,热门话题里面所商议的事件都是最近的或者时下发生的事件,用户或者表达自己的立场或者发表自己的见解。
因此最新公布的新信息的热度比之前公布的信息的热度要高,随着描述的事件慢慢过时,人们对事件的商议的热度会逐渐下降。
热点话题是收集大量已发表的信息,热点话题是收集的每一篇新闻报道的热点之和。
一般来说,热门话题下的用户描述当前事件并报告最近的事件
2.3 热门预测算法
2.3.1预测依据
新浪微博近年来已经成为被人们广泛使用的社交媒体平台,话题经过形成与不断传播,最终可成为热门话题。
对于平台上的每一条微博信息都包括以下七个部分:用户ID、发送时间、内容(包括图片与视频)、评论数、转发数和点赞数以及阅读量。
微博,粉丝与公布者的互动行为(包括主观性评论、转发与点赞)都可以反映用户对该话题的兴趣程度。
这些互动行为对预测微博传播趋势有重要意义,它可以衡量某条微博的热门程度。
因此,新浪微博为了提高用户的阅读效率,使用户快速猎取到热门信息,按照一定标准对所有热门微博按规律进行排序,该标准是综合考虑微博的所有内容信息得到的,包括热搜榜与热门话题等,根据其是否在排行榜或热搜话题内,所有微博可以分为非热门微博与热门微博。
显而易见,要推断某条微博是否热门,就要分析微博的所有信息特征,所以可以依据信息增益原理,按照微博所有信息特征衡量其热门程度,预测微博能否成为热门,或者推断热门微博的改变趋势。
2.3.2 基于PSO算法的BP神经网络
上世纪八十年代,
McCelland与Rumelhart提出BP神经网络这一概念,该算法拥有非线性映射能力等优势,只要在输入层输入信号,经过隐含层处理,由输出节点产出输出信号,若输出信号并未达到预期期望,就会通过转入误差,调整权值,将误差分摊给每个隐含单元,准时进行参数修正重新计算结果,直到得到期望的输出结果。
BP神经网络可以求解复杂非线性函数的全局最优值,算法本身采纳局部搜索优化策略,缺点是算法简单陷入局部最优。
而粒子群优化算法(简称PSO)具有良好的局部开采能力,通过改变粒子学习模式,提高迭代速度,快速更新粒子的位置,从而确立可使全局最优的粒子,且操作简洁,收敛速度快,猎取结果效果与精度俱佳。
可以将BP神经网络嵌入到PSO 算法中去,提升局部搜索能力,实现与BP神经算法的优势互补,最终完成BP神经网络预测模型的构建。
2.4 本章小结
本文首先对全文涉及到的基础理论知识进行了简洁介绍。
对于爬取工具的选取,本文选择运用Selenium Python API技术爬取热门微博,还分析了影响话题热门程度的一些因素,对预测方法的依据与实现方法
也做了基本阐述。
第3章热度评价模型的建立
3.1微博登录与信息爬取
通过使用pathon中的Selenium 自动化工具,在 Firefox
扫瞄器通过定位审查元素,通过无头模式找到用户名,密码的HTML源码,调用selenium来定位按钮节点,最终进行登录。
核心代码为:>>> # coding= utf - 8
from selenium import webdriver
……
# elem_sub =driver.find_element_by_xpath("//input[@class='W_btn_a btn_34px']")
elem_sub.click()
print u'登录成功'
登录微博后,访问微博搜索页面,通过下面核心代码来搜索指定热门微博内容,本研究主要搜索包括新闻、体育、娱乐、情感、学习五种热门话题,每个话题爬取2条热门微博的相关信息。
核心代码为:>>>def Searchweibo (topic):
driver. get( “http://s. weibo. com/”)
……
elem_ topic. send_ keys( Keys. RETURN)
……
print u’ 爬取结束\n’
找到热门微博之后要进行信息爬取,数据爬取之前首先要确定所要猎取的信息,包括用户名、内容、公布时间、转发量、评论数和点赞数,都可以用来分析微博的热门情况以及用户画像等。
根据查阅相关文献,只需使用正则表达式和字符串操作就可以猎取到所需字段内容,核心代码如下:
>>>info=driver. find_ elements_by_xpath(‘’//div[@ class =‘WB_cardwrap S_bg2 clearfix’]”)
……
content = value. Text
图3-1 爬取结果
由爬取结果图3-
1,我们可以直接获得新闻类热门话题第一条的公布内容、公布时间,转发量、评论数、点赞数等数据信息。
3.2建立热度评价模型
本文基于抓取的五种类型热门微博的数据,从用户、内容与传播三个角度,提炼了建立热度评价模型的7个参考指标,根据原始数据进行相关性分析,建立基于因子分析法的热度评价模型,得出热度值的计算公式,并对计算结果进行整理分析,对各类热门微博结果按热度值大小进行排序和对比,分析模型的准确性。
表3-1 微博热度评价模型参考指标
微博热度评价体系
热度影响因素考量因素指标含义
内容热度影响力图片充实度微博图片数量
字数充实度微博文字数量与100相比
公布时长从发出到记录数据之间的时间间隔公布者热度影响力粉丝数量记录数据时的粉丝数量
互动数近30天公布的内容产生互动行为数据统
计指标
发博率发博数量和活跃天数的比值
传播热度影响力转发数某条微博的转发数量
评论数某条微博的评论数量
点赞数某条微博的点赞数量
由表3-
1,本文首先围绕内容热度影响力、公布者热度影响力、传播热度影响力三个维度结合爬取微博的原始数据信息,提出了包括阅读量、转发数、点赞数、评论数、博主粉丝数、发博次数、公布时长、文字与图片数量等参考因素。
考虑到转发数、评论数、点赞数这三个原始数据数值较大,不利于数据的处理与分析,本文拟通过互动数与重度传播率来反映微博传播热度,互动数综合考察了点赞数、被转发数、被评论数和博文曝光数等信息,可以直接反映发博带来的网友互动与传播情况,此外重度传播率主要结合转发评论数与阅读量,其数值含义为转发并评论数/阅读量,可以有效地考量传播热度。
由此,我们确立了七个因子指标,针对内容热度,选取的参考指标为文字充实度、图片充实度以及传播时长;针对公布者热度,选取的参考指标为粉丝数与发博率;针对传播热度,选取的参考指标为重度传播率与互动数。
下面进行数据预处理,根据获得相对应的各个微博因子数据,初步建立微博热度评价体系。
从2019年4月21日在新浪微博平台用python分别爬取了关于新闻、体育、学习、情感、娱乐五个热门话题的前五条微博,并将参考指标进行处理加工,由此初步形成了比较完善的微博热度体系的的评级体系,如下3-2为七个因子指标的记录与处理结果:
表3-2 五种话题类型的热门微博指标数据
话题类型热门
微博
粉丝数(
万)
传播时
长(h)
文字充
实度
图片充
实度
发博率重度传
播率
互动数(
万)
新闻 1 8396 2.5 1.12 4 52.5 0.07 53.73 新闻 2 6433 2.1 0.78 9 44.8 0.08 41.06 新闻 3 4554 2.3 0.96 3 38.5 0.07 26.29 新闻 4 5212 1.9 0.72 1 34.8 0.06 12.80 新闻 5 3615 1.9 0.81 2 32.6 0.05 10.05 体育 1 2064 9.6 1.04 9 64.2. 0.04 11.94 体育 2 2025 8.4 0.98 9 54.2 0.03 8.46 体育 3 1036 7.2 1.23 3 44.3 0.04 6.74 体育 4 546 7.8 0.72 2 32.2 0.02 6.19 体育 5 315 5.2 0.89 1 21.7 0.02 5.39 学习 1 1690 20.5 0.38 9 24.1 0.01 13.22。