基于微博信息热度评价与预测分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于微博信息热度评价与预测分析
基于微博的信息热度评价与预测分析摘要微博已成为时下非常热门的社交媒体平台,是一个庞
大的关于信息分享和话题交流的平台,在人们线上社交活动中发挥着不可替代的作用,由于网络信
息鱼龙混杂,所以本文通过了解微博的热度机制进而研究微博热度和预测微博的热门程度,本文研
究内容对于监控预测微博舆情有重要的借鉴意义。
本文主要以新浪微博作为研究对象,首先进行爬取工具的选取,随后通过分析信息传播特征,
从微博的用户、内容与传播三个方面提炼影响微博热度的主要因素,并提取关键指标建立热度体系
评价指标,运用因子分析法建立微博热度评估模型,得到各微博信息维度表达式以及热度计算公式,对数据进行整理分析,最终对其结果进行排序和对比,发现模型比较符合实际情况,表明本模型具
有较高的准确性。
随后又提出了基于PSO优化BP神经网络的话题热门程度预测模型。构建出话题热门程度的时间
序列模型作为预测模型的输入,依照优化后的预测模型,完成了对话题热门程度值的预测。实验结
果表明基于PSO优化BP神经网络的话题热门程度预测模型能够很好的模拟话题热门程度的变化趋势,对现实具有一定的指导意义。
在微博平台中,任何用户都可以自由发布内容,还可以对其他用户发送的内容发表自己的评论
并转发,另外由于近些年视频信息传播愈发火热,图像处理技术也变得更加成熟,传播信息鱼龙混杂,可靠程度有待考量,于是了解微博的热度机制并对微博热度进行评估与预测,对于监控预测微博舆情,推动传播真实有效信息,营造活跃健康的社交平台具有重要作用。
1.1.2研究意义在微博信息热度评估中,曝光度高、阅读数量或者互动数较高的内容信息比较容易成为热门微博,平台中包括“热搜排行榜”和“热门话题”等对每位用户进行推送,还会根据热
度大小对热门微博的内容进行排序。本文在分析了影响热门微博传播的一些因素之后,拟建立热度
评价模型与热门微博预测模型,通过计算热门微博的热度与热门程度的变化趋势,来对话题热度的
监控与预测,从而可以更加有效的缩小平台的负面信息与虚假信息的传播范围,使大众浏览到更多
真实可靠的时政信息。
本文结合微博信息内容和用户行为,主要运用因子分析法建立微博热度评估模型,对微博热度
进行量化处理,随后利用BP神经网络学习建立了热门微博预测模型,来判断微博内容能否成为热点微博,并判断热门程度的变化趋势。本文研究在促进真实的时政信息传播,研究平台商品营销推送
以及推动政府对舆情监测与预警等方面,提供了可以借鉴的理论与实践依据。
衡量微博热度,研究重心应该放在微博内容与用户行为两个方面,其中用户不仅指发布者,还
指该用户所面向的粉丝群体。尽管平台会根据内部的排序机制对所有微博按大小进行排序,包括首
页热搜以及指定话题搜索排名等,但缺点是其并不知道其排序时热度的计算原理以及热度差距产生
的原因,基于此,本文运用因子分析法建立了微博热度评估模型,得出热度的计算公式,将热度进
行量化,并得出了新的排序结果与原排序进行对比。
1.2.2热门话题预测现状分析对于各类热门话题的预测,学术界一般主要采取以下两种预测方法,第一种是指比较典型的线性预测方法,但仅仅适合对平稳曲线进行预测,不适合预测多种类型的热
门话题。第二种是指基于非线性理论建立预测模型,该种分析方法更具系统性与智能性,如支持向
量机,可以对数据进行广义线性分类,大致实现非线性拟合,不足之处是会经常陷入局部最优,无
法得到全局最优解[11-12]。Suh等人选取了话题类型、粉丝人数等属性,基于主成分分析法提炼了
影响用户互动行为的主要因素,并建立了精确度较高的因子图模型,对用户行为进行了合理预测[13-14]。刘功申等人通过定量计算用户对微博的影响,对已有算法进行优化,可以凭借微博发出者的用
户属性预测该微博是否会被大量转发,进而给出舆情预警[15]。张敬基于话题热度,提出微博热度
预测算法,结合多维度数据建立回归预测模型,实现对话题热度的预测[17]。F.D.Sahneh,
C.Scoglio根据传染模型的多层网络传播原理建立预测模型,预测话题的未来走向,并详细地阐述
了信息扩散时的传播规律以及信息的相互作用。因为BP神经网络在面对比较错综复杂的问题上,收敛速度慢,处理时间长,而且很容易收敛到局部最优值,不能达到全局最优[18]。
对于上述问题,许多研究者提出了相关改进方法。颜文俊等基于遗传算法优化BP神经网络的预
测模型,利用光伏输出等原理,提高了算法的收敛速度,进而提高了预测的效率与精度,但并未改
进结果局部最优这一缺陷[19]。
丁硕与巫庆辉通过对比多种经典的优化算法的渐近函数,分析各改进算法对不同数据规模的分析效果,发现每种算法都有适用范围,在各自适用范围内逼近效果接近良好。周爱武等通过利用最优样本集相关原理,改进了原始算法,缩短了算法的运行时间,迭代次数也大大降低,但算法自身仍然有局限性[20]。
1.3研究内容研究基于微博客户端,运用爬虫软件python中的Selenium爬取工具,采集5个话题热门微博的相关数据,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,并验证模型准确性。随后利用BP神经网络研究基于PSO算法的热门微博预测算法,最后通过实例验证热点话题预测结果的可靠性。
1.4组织结构本文共包括四章,下面介绍每章的主要内容:
第一章绪论本章简要从微博热度评价与热门程度预测的选题背景、研究意义进行了简要阐述,对话题热度评价与预测的国内外研究现状以及课题研究内容与流程进行了概括。
第二章预备知识本部分阐述了研究开始前需要了解的预备知识,包括爬取工具的选取,热度评价与热门预测等方面的理论知识,奠定了全文的理论基础。
第三章热度评价模型的建立,本章基于爬取的热门微博数据,运用因子分析法提取重要因素建立热度体系评级指标,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,基于该模型对内容热度进行排序对比,实行热度评估模型的验证。
第四章本章建立了结合PSO算法,基于BP神经网络的热门微博预测模型,首先分析热门话题的表现形式,运用算法原理,将进行预测的微博信息作为模型的输入,来完成对微博热门程度与趋势的预测,最终进行了实际检验。
第2章预备知识在进行实际操作之前,首先对涉及到的基础理论知识进行简单介绍。
2.1爬取工具的选取微博相较于其他网站,涉及功能比较齐全,所以对微博页面内容进行爬取并非易事,除此之外其反爬虫技术更为先进,一半的爬虫工具无法快速获取到目标信息,但总的来说其数据格式比较统一,综上我们基于微博网站的运行机制,借助python中的技术与手段,可以快捷地爬取到微博中的指定内容及相关数据。