社会网络舆情信息分析与可视化

合集下载

数据可视化技术在网络舆情分析中的应用

数据可视化技术在网络舆情分析中的应用

数据可视化技术在网络舆情分析中的应用随着互联网时代的到来,人们的信息获取越来越依赖于网络。

在这个信息爆炸的时代,如何分析和理解网络上的舆情成为了重要的问题。

而数据可视化技术,作为将复杂的数据转化为图形、图像或动画的一种技术手段,能够有效地提高信息的可读性和理解性,因此在网络舆情分析中应用广泛。

数据可视化技术主要包括图表制作、地图制作、3D制作等,它将大量数据变成直观易懂的可视化图像,能够帮助人们快速识别数据中的规律和趋势。

在网络舆情分析中,数据可视化技术的应用可以帮助研究和分析舆情,预测趋势,作出决策。

首先,利用数据可视化技术对舆情进行概览式分析。

通过概览式分析,可以将某个话题的所有相关数据汇总呈现出来,让人们在很短的时间内了解当前的舆情状况,明确关键词和相关事件。

在这个过程中,可以采用柱状图、饼图、折线图等基础图表完成。

这些图表可以帮助人们直观地看到各项指标的变化趋势,帮助决策者迅速了解舆情的发展动态。

其次,通过热力图的形式分析网络舆情。

热力图是通过对数据的密度使用不同颜色来进行表现的,通常浅色表示低密度,深色表示高密度。

这种图表在舆情分析中的应用很广泛,因为热力图能够反映特定事件或话题在不同地区的分布情况,可以清晰地显示各地区的情况和趋势,对跨地域的舆情分析尤为重要。

再次,采用词云图的形式进行对话题的分析。

词云图是将文本中高频率或者关键词汇以不同的尺寸展示的图形。

在舆情分析中,词云图非常常见,因为它可以快速捕捉每个话题的关键词汇、情感倾向等,帮助分析舆情中信息的重要性。

最后,通过网络关系图分析舆情。

网络关系图是用于表示网络数据结构(通常是网页或者社交网络以人与人之间的关系网),它可以清晰地展示网络中个体之间的关系,因此在舆情分析中也有着广泛的应用。

例如,对于一个热门话题,通过网络关系图可以展示不同用户之间的关系,可以清楚地看到不同用户的观点和声音。

综上所述,数据可视化技术在网络舆情分析中的应用是非常广泛的。

什么是舆情分析报告

什么是舆情分析报告

舆情分析报告是对公众舆论的定量、定性分析,以揭示事件对公众舆论的影响力、舆论走势、观点分布以及舆论热点等信息。

它通过对社会网络、媒体平台、微博等社交媒体数据的收集、整理和分析,帮助企业、政府等机构了解公众对其形象、产品或政策的评价,从而为决策提供参考依据。

下面是一份舆情分析报告的步骤:1.定义舆情分析的目标和研究问题舆情分析的目标和研究问题应该明确具体,可以是评估企业形象、产品声誉或政策效果,也可以是了解公众对特定事件的态度和看法。

2.收集相关数据收集的数据可以包括社交媒体上的评论、微博、新闻报道、论坛帖子等,根据研究问题确定数据的来源和范围。

3.数据预处理数据预处理是对收集到的原始数据进行清洗和整理的过程。

包括去除重复数据、过滤噪声数据、标准化文本等。

4.构建舆情分析模型根据研究问题和数据特点,选择适当的分析模型。

可以使用机器学习算法进行情感分析,对文本进行分类或聚类,也可以使用网络分析方法分析社交网络中的关系。

5.分析结果可视化将分析结果以图表或可视化方式呈现,使得数据更直观、易于理解。

可以使用Python的数据可视化库,如Matplotlib或Seaborn,生成有意义的图表。

6.结果解读和报告撰写根据分析结果,对舆情进行解读,提取关键信息和发现,并根据研究目标和问题撰写舆情分析报告。

报告应该包括背景介绍、数据收集方法、分析过程、结果分析和结论等内容。

7.报告审核和修订对报告进行审核和修订,确保分析方法和结果的准确性和可信度。

可以邀请相关领域的专家进行评审,提出意见和建议。

8.报告呈现和沟通根据报告的目标受众,选择合适的方式进行报告呈现和沟通。

可以通过会议、演讲或邮件等形式向相关人员进行汇报,讨论分析结果和建议。

舆情分析报告的步骤可以根据具体情况进行调整和补充。

每一步都需要细致地分析和思考,确保结果准确、可靠,并能为决策提供有价值的信息和洞察。

舆情分析报告的价值不仅在于对过去的分析,更重要的是对未来的预测和决策提供支持。

社交媒体数据分析与可视化技术研究

社交媒体数据分析与可视化技术研究

社交媒体数据分析与可视化技术研究随着社交媒体的普及和快速发展,人们在其中产生的数据量也呈爆发式增长。

这些数据包含丰富的信息,对于研究社交媒体的趋势、用户行为、舆论等方面具有重要价值。

而社交媒体数据分析与可视化技术的研究,则致力于开发有效的方法来处理和分析这样的大规模数据,并通过可视化的方式展现出来。

本文将探讨社交媒体数据分析与可视化技术的研究内容、方法与应用。

一、研究内容1. 数据收集与处理:在研究社交媒体数据之前,首先需要收集数据。

社交媒体平台如Twitter、Facebook、Instagram等提供了API接口来获取相关数据,或者通过网络爬虫等方式进行获取。

然后需要对数据进行处理,包括数据清洗、去重、去噪等操作。

2.数据分析与挖掘:在得到清洗后的数据之后,可以对其进行各种分析与挖掘。

例如,可以使用文本挖掘技术对用户在社交媒体上发布的内容进行情感分析、主题提取等。

还可以应用网络分析方法研究社交网络结构、用户社交行为等。

3.可视化技术:社交媒体数据通常是非结构化和大规模的,直接呈现给用户会过于冗杂和复杂。

因此,可视化技术就显得尤为重要。

通过将数据以图像、图表等形式可视化,可以更加直观地展现数据的特征和趋势,提供更好的用户体验。

二、研究方法在社交媒体数据分析与可视化技术研究中,通常会使用以下几种研究方法。

1.文本挖掘:社交媒体数据中包含大量的文本信息,使用文本挖掘技术可以对这些文本进行情感分析、主题提取等操作。

常用的方法包括词频统计、情感分析算法(如情感词典方法)、主题模型等。

2.网络分析:社交媒体数据中的用户之间存在复杂的关系网络。

网络分析方法可以帮助我们了解社交网络的拓扑结构、用户间的相互影响等。

常见的方法有社交网络分析、图论分析、网络节点中心性分析等。

3.可视化技术:可视化技术用于将分析结果以可视化方式展示出来。

它可以提供直观的数据表达和交互式操作,方便用户更好地理解和分析数据。

例如,使用图表、热力图、网络图等形式进行可视化。

社交网络的舆情分析与监控

社交网络的舆情分析与监控

舆情信息分析与评估
▪ 舆情信息的文本分析与情感计算
1.文本分析的基本方法和应用。 2.情感计算的原理和技术。 3.文本分析与情感计算在舆情信息评估中的作用。
▪ 网络舆情的传播模型与趋势分析
1.网络舆情传播的基本模型。 2.舆情传播趋势的分析方法。 3.传播模型与趋势分析在舆情信息评估中的应用。
舆情信息分析与评估
社交网络的舆情分析与监控
舆情分析方法与技术
舆情分析方法与技术
舆情数据采集与清洗
1.数据来源:社交媒体、新闻网站、论坛等多元化的数据源是 舆情分析的基础。 2.数据清洗:运用自然语言处理和机器学习技术,对采集的数 据进行清洗和标准化,提高数据质量。
文本分析与语义理解
1.文本分析:通过分词、词性标注和句法分析,提取文本中的 关键信息和情感倾向。 2.语义理解:运用深度学习模型,理解文本的语义,更准确地 把握舆情信息。
1.情感分析:通过自然语言处理技术,识别文本中的情感倾向,如积极、消极等。 2.主题模型:利用主题模型,可以识别文本中的主题和话题,分析舆情的热点和趋 势。 3.舆情预测:基于历史数据,可以通过机器学习等技术预测未来的舆情趋势。
▪ 舆情数据可视化
1.数据图表:通过图表如柱状图、折线图等,可以直观地展示舆情数据的趋势和分 布。 2.词云图:词云图可以直观地展示文本中的高频词汇和重要主题。 3.地理信息系统:结合地理信息系统,可以展示舆情数据的地理分布和热点区域。 以上内容仅供参考,具体内容还需要根据实际的研究需求和数据情况进行调整和补 充。
▪ 社交网络舆情的定义与分类
1.社交网络舆情的定义:指在社交网络上产生的、与公众事务 或公共议题相关的意见、情绪和态度的表达。 2.社交网络舆情的分类:根据内容、情感和态度的不同,可分 为正面舆情、负面舆情和中性舆情。

社交网络数据分析与可视化研究

社交网络数据分析与可视化研究

社交网络数据分析与可视化研究随着社交网络的普及和流行,人们在日常生活中越来越多地使用社交媒体平台来进行交流、分享和获取信息。

这些社交网络平台积累了大量的用户数据,包括个人资料、社交关系、发帖内容等。

这些数据对于理解人们的行为、观点和关系网络非常重要。

因此,社交网络数据分析与可视化研究变得越来越重要。

首先,社交网络数据分析可以帮助我们了解人们的行为和偏好。

通过分析用户的发帖、评论和点赞等行为,我们可以了解用户的兴趣爱好、观点倾向和行为模式。

这对于广告商和市场营销人员来说非常有价值,他们可以根据分析结果制定精准的广告策略和推广计划。

同时,对于社交平台本身来说,了解用户行为可以帮助平台优化用户体验、改进产品和服务。

其次,社交网络数据分析可以揭示人们之间的社交关系网络。

社交网络平台允许用户建立朋友关系、关注其他用户,并与他们进行交流和互动。

通过分析用户之间的关注关系、消息互动和社交群体的形成,我们可以了解人们的社交圈子、民意倾向和社交网络的结构。

这对于政府、学术研究机构和企业来说都具有重要意义。

政府可以通过社交网络数据分析了解民意动向、政策影响和社区状况,以便更好地制定决策和政策。

学术研究机构可以利用社交网络数据分析来研究社交网络的特性和影响因素,以推动学术研究的发展。

企业可以利用社交网络数据分析了解消费者的喜好和口碑,以提升产品和服务质量。

另外,社交网络数据分析还可以用于舆情监测和社会事件研究。

社交网络平台是人们表达观点、分享新闻和讨论热点话题的重要渠道。

通过对用户发帖内容和评论的分析,可以了解人们对不同话题的态度、关注度和情感倾向。

这对于舆情监测机构、新闻媒体和社会科学研究者来说非常有价值。

舆情监测机构可以利用社交网络数据分析及时了解公众对某个事件或话题的反应,以便及时回应和处理。

新闻媒体可以通过社交网络数据分析了解公众关注度高的新闻事件和热点话题,以便优化新闻报道和编辑选题。

社会科学研究者可以利用社交网络数据分析研究公众舆论形成的过程和影响因素,以推动社会科学研究的进展。

网络舆情监测的五大技术

网络舆情监测的五大技术

网络舆情监测的五大技术在当前社交媒体与数字化时代的背景下,网络舆情监测已经成为各个组织,特别是政府、企业和非盈利机构不可或缺的重要工具。

通过对公众情绪和意见的分析,决策者能够更好地理解舆情热点、洞察公众心理,从而做出更加合理的决策。

本文将深入探讨网络舆情监测的五大核心技术,包括文本挖掘、情感分析、社交网络分析、数据可视化以及实时数据处理。

文本挖掘文本挖掘是从大量文本数据中提取出有用信息的过程。

在网络舆情监测中,文本挖掘主要用于识别舆论主题、相关关键词和公众意见。

随着大数据技术的快速发展,各种社交平台如微博、微信、论坛等产生了海量的用户生成内容,这些内容为舆情分析提供了丰富的数据来源。

文本挖掘的首要步骤是数据收集,通常需要使用网络爬虫技术抓取社交媒体上的帖子、评论以及新闻报道等。

接下来,利用自然语言处理(NLP)技术对收集到的数据进行清洗和预处理。

这一过程包括去除噪声数据、分词、去停用词以及词性标注等。

经过处理后,研究者可以使用主题建模(如 LDA 模型)来识别文本中的主要话题。

此外,文本分类也是文本挖掘中的关键环节,通过训练机器学习模型,将舆论内容分类为正面、负面或中性,可以帮助决策者快速了解公众对某一事件或话题的态度。

情感分析情感分析是对文本进行情绪倾向性分类的过程,它可以帮助组织了解公众情绪的变化及其影响因素。

在网络舆情监测中,情感分析常用于实时评估公众对事件的反应,例如产品发布、政策出台或危机事件等。

通过应用机器学习或深度学习算法,情感分析能够自动识别出文本中传达的情感信息。

常用的方法包括基于词典的方法和基于模型的方法。

基于词典的方法通常依赖于情感词典,通过计算正面与负面词汇出现的频率来判断文本整体的情绪倾向。

而基于模型的方法则利用标记过的数据训练分类器,可以更好地捕捉到上下文信息,从而提高准确性。

近年来,深度学习在情感分析中的应用日益增多,例如卷积神经网络(CNN)和循环神经网络(RNN)在此方面显示了良好的效果,能够有效提升情感分析的准确率。

舆情数据可视化方法

舆情数据可视化方法

舆情数据可视化方法舆情数据可视化是一种将大量复杂的舆情数据以图表、图形等形式进行展示和呈现的方法。

通过可视化,可以更直观地理解和分析舆情数据,帮助用户从数据中发现有价值的信息和洞察。

本文将介绍几种常见的舆情数据可视化方法,并对其应用和优势进行探讨。

首先,饼图是一种常见的舆情数据可视化方法。

饼图可以将一个整体分成若干个部分,每个部分的大小表示其所占比例。

在舆情数据可视化中,可以使用饼图来展示不同观点或情感在舆情中的分布情况。

通过饼图,可以直观地了解各个观点或情感在整体舆情中的占比情况,从而帮助用户判断舆情的倾向和特点。

其次,柱状图是另一种常见的舆情数据可视化方法。

柱状图可以将不同数据之间的比较关系用条形的高度表示。

在舆情数据可视化中,可以使用柱状图来展示不同时间段或不同事件中的舆情变化情况。

通过柱状图,可以直观地比较不同时间段或不同事件中的舆情情绪、观点等的变化趋势,帮助用户了解舆情的演变和发展。

此外,散点图是一种常用的舆情数据可视化方法。

散点图可以用来展示两个变量之间的相关性和趋势关系。

在舆情数据可视化中,可以使用散点图来展示不同观点或情感在舆情中的分布情况,并观察它们之间的相关性。

通过散点图,可以帮助用户发现舆情中不同观点或情感之间的关联性和变化趋势,为后续的舆情分析提供有价值的线索。

另外,地图是一种常见的舆情数据可视化方法。

地图可以将数据信息与地理位置进行关联,以地理空间的形式展示。

在舆情数据可视化中,可以使用地图来展示不同地区的舆情情况。

通过地图,可以直观地了解不同地区的舆情热点、观点分布等情况,为舆情分析提供空间上的视角。

最后,网络图是一种常用的舆情数据可视化方法。

网络图可以将不同节点和关系通过连线方式呈现出来,帮助用户直观地了解复杂的关联关系。

在舆情数据可视化中,可以使用网络图来展示不同用户、观点、情感等之间的关系网络。

通过网络图,可以帮助用户发现舆情中的关键节点、信息传播路径等,为深入的舆情分析提供参考。

网络舆情分析技术

网络舆情分析技术

网络舆情分析技术随着互联网技术的不断发展,网络舆情逐渐成为一种重要的社会现象。

网络舆情可以指人们在互联网上发布的意见、看法、情绪等信息,在网络空间中的宣传、传播和共享,以及这些信息所带来的社会反响。

网络舆情之所以受到广泛的关注,是因为它涉及到了社会稳定和公共利益等基本问题,对于政府、企业、媒体等各种社会主体都具有重要的影响。

因此,要做好网络舆情管理,必须依靠先进的技术手段进行分析和研究。

网络舆情分析是指通过对互联网上的社交媒体、网站、论坛等进行大规模的数据挖掘和分析,来评估人们的情绪、意见和态度等。

这种分析技术一般包括以下三个方面:一、文本挖掘技术文本挖掘技术是网络舆情分析的核心技术,主要针对网络上的海量文本信息进行处理和分析。

这种技术可以通过自然语言处理(NLP)和机器学习等方法,对文本数据进行分词、词性标注、情感分析、话题聚类等操作,从而提取有用的信息。

文本挖掘技术主要用于研究某一事件或话题的热度、关注度、态度等问题,同时也可以进行舆情预警和监测等工作。

二、数据可视化技术数据可视化技术是指通过图表、地图、时间轴等方式,将分析结果可视化展现出来,使研究人员更加直观地了解网络舆情的情况。

数据可视化的形式多种多样,可以根据实际需要来进行选择,如热点地图、情感分布图、网络结构图等。

三、社交网络分析技术社交网络分析技术是指对网络上的社交关系进行分析,探索不同用户之间的连接与互动关系。

这种技术通常使用图论、网络科学等方法,通过构建社交网络图形,评估不同节点之间的中心性、关联度等指标。

通过社交网络分析可以了解不同人群的兴趣、观点、影响力等,并对舆情传递进行预测和分析。

网络舆情分析技术在政府、企业和媒体等领域都有广泛的应用。

政府可以通过这种技术监测社会意见,节约危机管理成本,及时发现和解决社会矛盾。

企业可以通过分析竞争对手的舆情信息,了解消费者需求和市场变化,制定更加有效的营销策略。

媒体可以通过分析阅读行为和互动反馈等指标,提高新闻报道的准确性和合理性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社会网络的舆情信息分析与可视化摘要:社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。

当前,分析网络用户的行为规律,例如人们在网络上的个体流行程度和活跃程度等已经成为了研究热点。

但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。

本文主要介绍了网络数据的抓取,实现数据的可视化以及舆情信息的分析三个方面。

关键词:社交网络;据抓取;可视化;舆情信息分析中图分类号:tp393.091 前言社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。

同时,社交网络作为复杂网络的一种,研究其网络结构性质同样具有重要的意义。

但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。

目前公安舆情监控主要集中在各大新闻、论坛、贴吧、问答、电子报、视频、博客中等,但是忽视了与社交网络信息传播规律的结合。

社交网络本身比较抽象,对于节点数比较多的网络,在计算机中通常是以各种数据格式进行存储,很难以直观的方式展现,更难以动态的观察网络的发展变化过程。

如果仅用数据表格或文字的形式来表示网络,理解起来非常困难,导致网络所包含的有价值的信息不能直观的体现出来。

2 背景及现状2.1 社会性网络研究社会性网络服务(socialnetworkservice,sns)是web2.0体系下的一个技术应用架构。

sns通过网络聊天、博客、播客和社区共享等途径,实现个体社交圈的逐步扩大,最终形成一个联结“熟人的熟人”的大型网络社交圈,充分反映出人类社会的六度分离特征。

在国外,首屈一指的sns网络———facebook拥有超过千万的用户,成为全世界最大的社交网站。

社交网络作为一个虚拟社会,人在sns 网络上的行为与现实生活的行为具有共性。

分析网络用户的行为规律,例如人在sns网络上的个体流行程度和活跃程度等已经成为了研究热点。

2.2 可视化研究计算机最早多用于科学计算和数据处理,但由于技术的限制,对数据主要只能进行批量处理,而不能进行交互处理或对计算过程进行有效的控制,对相关数据的显示与处理过程的表示存在一定局限性,一些海量数据集或复杂过程就难于直观地表达出来。

随着科学研究领域的不断扩大,在超级计算机、飞行器、气象、医学和勘探等领域产生了大量的数据,一种能处理和解释这些海量数据的技术,科学计算可视化就此产生。

科学计算可视化(visualizationinscientifieeo,nputing,简称visc)是指应用计算机图形学和图像处理技术,将科学计算过程中产生的数据或产生的结果数据,转换为人们容易理解的图形图像形式,并在屏幕上显示出来。

科学计算可视化把科学计算过程中的数据或结果转变成人的视觉可以感受到的计算机图像,这些图像可以将大量的信息有机地组织在一起,形象地显示数据所表示的内容及其相互间的关系,从而可以使许多抽象的、难于理解的方法、原理和规律的表示变得简单直观,许多繁冗枯燥的数据可以一种生动明了的形式呈现出来。

数据可视化技术主要包括五种,分别是:标准2d/3d显示技术、基于几何的技术、基于图标的技术、基于层次的可视化技术和基于层次的可视化技术,其中标准2d/3d显示技术就是将数据画成折线图、条形图、柱状图、饼图、散点图、分位数图、回归曲线图。

基于几何的技术是几何画法或者几何投影的方式表示数据集中的数据用线或曲线来表示数据各维变量的联系。

包括地形图、散点图、映射追踪图和平行坐标等方法。

其中聚类结果的平行坐标如图1所示。

基于图标技术的基本思想是用一个简单图标的各个部分来表示数据各维的属性,基于图标可视化方法包括枝形图、颜色图标和形状编码等等。

该技术适用于维属性值在二维空间内具有良好展开属性的数据集。

基于层次的可视化技术是将高维数据空间划分为若干个子空间,这些子空间仍然以层次结构的方式组织并以图形表示。

基于层次的可视化方法多利用树形结构,可以直接应用于具有层次结构的数据,也可以对数据变量进行层次划分,在不同层次上具有不同属性值。

基于层次的可视化技术主要有维、树图、维嵌套等等。

面向像素的技术是将每个数据项的数值对应一个带颜色的屏幕像素,使用不同的窗口分别表示不同的数据属性。

这种技术主要利用圆周分割模型、递归模型、螺旋模型等方法分布数据,其目的是在屏幕窗口上显示尽量多的数据。

2.3 社会性网络舆情研究舆情的分析可以归为两类,静态发现和动态发现。

静态发现是指比较传统的方法,例如问卷调查,电话调研等,因为时间和空间的限制,这种方式已经逐渐被动态发现所取代,动态发现是指对电子文本数据的自动分析,通过收集报纸,杂志,网络文本等数据,然后对其进行分析发现舆情。

通常,分析的手段主要包括文本的分类和聚类,分类是指将文本分到指定的类中,如将一篇报道西藏问题的文本分到政治这个类别中;聚类是指按相似性将文本以组的形式聚在一起,组内的成员之间的相似度高于组内和组外成员之间的相似度。

但是舆情是变化的,具有动态性、传染性、突发性等特点,某个事件可能诱发另外一个事件的爆发,今天不是舆情的事件到了明天就有可能成为一个舆情,因此单纯的聚类和分类对于舆情的潜在发现还是很不足的。

最近几年,随着数据挖掘的兴起,越来越多的研究机构将数据挖掘的方法引用到了舆情发现,关系数据挖掘成为了一个热点,通过关联分析可以发现事件之间潜在的联系,对于舆情事件传染性的发现还是卓有成效的。

3 研究过程与方法首先对新浪微博的数据进行抓取,然后将采集来的信息进行预处理和加工,归整成具有同一数据格式的数据集,使得便于理解,易于显示。

使用图形显示方法,并通过显示设备可视化数据,最后借用斯坦福大学研制的protovis插件实现社交网络的可视化。

3.1 数据抓取以及存储微博信息采集,利用文献[8]中提出的新浪微博数据挖掘方案即基于api与网页解析方案相结合的方法。

openapi是指一种微博服务商将自己提供的服务封装成一系列api接口,通过调用这些数据接口可以获取微博内容、评论、用户、关系等信息。

其中新浪和腾讯提供的api最为丰富,而且新浪微博是国内最大的在线社会网络,因此本文信息采集的来源定为新浪微博。

为了均衡服务器的负载,微博服务商对不同用户设置了不同的api接口调用频率与查询范围。

新浪微博不仅限制了一次请求最多只能返回5000个结果和普通授权用户每小时接口最多只能使用1000次,而且拒绝短时间内高频率的api接口调用。

因此在采集微博信息中我们采用了基于api 与网页解析方案相结合的方法,如图2所示。

(1)获取器:通过调用api接口返回json格式文件方式收集博主信息;(2)爬虫器:通过分布式爬虫方法抓取微博内容,并利用dom解析html和抽取信息。

其中n个获取器和爬虫器分别运行在n个slaver机器上,调度器运行在master机器上。

本系统利用词频-逆向文本频率tfidf向量表示法来表示微博内容的特征向量。

在不考虑词间次序和文本结构的前提下,这种表示方法针对微博内容中的所有词(在文本切词阶段对去除@微博用户和短链接的微博内容,通过庖丁解牛分词处理取得词语),所以本质上讲它也是一种微博内容的词集表示法。

类似于结构化数据库的一条记录,一条微博内容的tfidf特征向量某种程度上反映了该微博的内容特征。

以一个矩阵来表示所有微博内容集合文本信息,矩阵中的列集为特征集,行集为所有已爬取的微博内容集合。

如图3所示,微博内容写入hbase库,微博索引写入索引库,特征矩阵写入特征库。

3.2 实现可视化在该项目中,我们利用protovis插件在火狐浏览器上把数据库中的数据可视化出来。

3.2.1 平行坐标图下面介绍我们利用可视化技术来处理数据的优势,图3是通过关键字查找数据库,得到相关微博数据的部分截图。

从图中我们可以看出数据都是一条一条罗列出来,很难从中发现数据的规律和隐藏的信息。

在图4是通过平行坐标图对图3的数据展示,可以从纵列上很清楚地观察到数据的规律,例如通过第三列(讨论数)和第四列(转发数),可以发现大部分微博的讨论数分布在0到532之间,转发数分布在0到274之间,仅有个别微博的讨论数和转发数异常高,也就是说这条帖子的讨论数和转发数远远多于其他帖子,那么这些微博肯定是被网友关注度最高的微博,因此这些微博和发帖人应当引起我们的注意。

从第二列(发帖人id)中也可以发现由几个密集度很高的段:1209961141至1264710047、1407057203至1461806109等等,这些id对应的发帖人是讨论这些敏感关键字的比较频繁的人,应引起足够重视。

下面是我们利用斯坦福大学研制的protovis插件代码中的一小部分,这段代码是把点连接成平行线的代码。

//平行线vis.add(pv.panel).data(consensus).visible(function(d)dims.every(function(t)(d[t]>=filter[t].min)&&(d[t]<=filter[t].max))).add(pv.line).data(dims).left(function(t,d)x(t)).bottom(function(t,d)y[t](d[t])).strokestyle(”#ddd”).linewidth(1).antialias(false);3.2.2 力导向图将从微博上采集来的数据利用力导向图的方法进行分析,这一方法主要用于话题追踪、人物追踪、地域追踪、机构追踪、作者追踪和社群分析。

如图5所示。

从图5中可以看到微博中每个状态的评论量,各条状态之间联系的建立关系,转发的状态源自哪里,从而可以找到主要的责任人进行询问。

(大球表示发布的帖子,围绕在大球周围的小球表示参与讨论的人)4 结语社交网络与传统的web网络在信息传播方式上存在着根本的不同:传统的web网络是以信息内容为主体进行传播,社交网络是以人为中心,依靠人与人之间的好友关系进行信息的传播。

如今,人们在获取信息的时候更加在乎信息的来源,这种获取信息的方式将关注的重心放在人们会从谁那里获取信息,又会与谁分享信息。

我们的研究成果可以将社交网络方便、直观地表示出来,从而可以量化地描述社交网络中的传播行为,揭示它的特性,具有重要的理论和应用价值。

通过可视化分析工具,关联出抓取来的数据之间的隐含关系,应用到公安相关机构,可以避免公安机关盲目地去关注那些与案件无关的数据,而是能够更清晰的发现问题集中出现在何处,能够更加集中的进行下一步的调查,为破案提供了便利条件,进一步提升公安队伍的现代信息化水平。

参考文献:[1]马连浩.web文本聚类技术及聚类结果可视化研究[d].大连交通大学,2007.doi:10.7666/d.y1404800.[2]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[j].中文信息学报,2012,26(1):73-83.doi:10.3969/j.issn.1003-0077.2012.01.011.[3]吴江宁,王桂才.文本聚类分析结果可视化方法研究[j].情报学报,2011,30(2):115-120.doi:10.3772/j.issn.1000-0135.2011.02.001.[4]申莹.针对确定话题的离散文本舆情聚类与可视化研究[d].武汉理工大学,2011.[5]larsgeorge.hbase:thedefinitiveguide[m]:o’reillymedia,2011.[6]项斌.网络舆情检测系统设计与实现[d].成都:电子科技大学,2010.[7]陈旭.基于社会网络的web舆情系统的研究与实现[d].成都:电子科技大学,2010.[8]廉捷,周欣,曹伟.新浪微博数据挖掘方案[j].清华大学学报,2011,51(10).作者单位:中国人民公安大学网络安全保卫学院,北京 102623。

相关文档
最新文档