大数据时代如何利用指数分析舆情

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

过人工,在合理时间内达到截取、管理、处理、
并整理成为人类所能解读的信息。
1.1
大数据的概念
传媒专家刘建明教授认为:“大数据”同信息是
不可分离的,是指信息浩大数量的统计与技术运 作。作为人类认知社会方法的一次飞跃,“大数
据”技术将给企业运营、政府管理和媒体传播的
科学化创造有效机制。
1.1
大数据的概念
大数据的概念
1.2
大数据的发展进程
1966年
摩尔定律提出,为大数据 现象的形成奠定物理基础
1989年
数据挖掘技术产生, 大数据有了大价值
2004年
社交媒体出现,全世界每个 人都变成了潜在数据生成器
01 02 03
1.3
大数据的特点
4 个 V: Volume、Velocity、Variety、Value
1.3
大数据的特点
1 2
3
大数据=传统的小数据+现代的大记录 大数据=结构化数据+非结构化数据 大数据=大价值+大容量
1.4
大数据如何产生 托马斯· H· 达文波特:大数据之所以产生,是因为传感
微博
器和微型计算机处理器在人们日常生活中无处不在。
LBS
物联网
云 计算
10:02
1.4
大数据如何产生
BVI
OCI
3.8
清博指数-微信传播指数WCI
3.8
清博指数-微博传播指数BCI
指标体系: 主要通过活跃度和传播度两大维度来进行评价,发博数X1、原创微博数X2、 转发数X3、评论数X4、原创微博转发数X5、原创微博 评论数X6、点赞数X7。
3.8
清博指数-微博传播指数BCI
3.8
清博指数-网红指数OCI
“大数据”不是部分,而是全部数据
是不确定、不准确的信息
着重在了解是“什么”而不是“为什么”
《大数据时代》 维克托·迈尔·舍恩伯格
1.1
大数据的概念
大数据本身不是一种新的产品或新的技术
大数据的出现只是数字化时代数据量不断增加的一种现象
1.1
大数据的概念
B
GB MB
海量数据
TB
PB
ZB
大数据
EB
1.1
1.1
大数据的概念
研究机构 Gartner 将大数据定义为:需要新处 理模式才能具有更强的决策力、洞察发现力和流
程优化能力的海量、高增长率和多样化的信息资
产。
1.1
大数据的概念
维基百科对“大数据”的解读是:“大数据”
(Big data),或称巨量数据、海量数据、大 资料,指的是所涉及的数据量规模巨大到无法通
2.3
网络舆情的特点
广泛性
参与人员类型广泛
01
主观性与非理性
02
社会情绪的原生态表达 网络谣言与负面情绪扩散
涉及地域范围广泛
突发性
基于网络双向传播 社会舆论导火索
03
多元性
04
信息内容多元 传播途径与表达方式多元 意识形态与观点内容多元
2.4
网络舆情的信息来源 网络舆情信息来源指标特点
来源
政府网站 新闻媒体 社交平台 网络媒体 主动报送
4案例分析4.1舆情研究院《大数据中的“春运潮”变迁》
春运迁徙,40天,36亿人次 春运槽点:
“12306”“高价盒饭”
“车站服务”“安检”“堵车”“晚点、滞留”“迁徙”发布春运全国8小时最热线路图
4.1舆情研究院《大数据中的“春运潮”变迁》
案例一:舆情研究院《大数据中的“春运潮”变迁》
决策树:一种预测模型,是直观运用概率分析的一种图解法
人工神经网络:是一种模仿动物神经网络行为特征, 进行分布式并行信息处理的算法数学模型
差别分析:目的是发现数据中的异常情况,从而获得有用信息 概念描述:对某类对象的内涵进行描述,并概括其有关特征
3.4
网络舆情监测指数体系(兰月新)
传播扩散
指数一
1
指数 体系
网络舆情监 测指数体系
发布主体
意见领袖、普通网民 发帖量、回复量 支持、反对、中立
社会热点、政治新闻、个人隐私、宗教政治
内容要素
转发量、评论量、阅读量 敏感词 声像资料量
文本长度、图片连贯性、声像时长
舆情受众
支持、反对、中立 独立访问者、访问量
3.5
舆情大数据指数(刘建明)
传播量 覆盖率 媒体传播力指数 舆情大数据指数 舆情影响力指数 互动性 传播量 覆盖率
舆 情 影 响
启动舆情监测 制定应急预案 制定保障方案 实施信息公开
专家网上答疑 关注意见领袖 网民互动交流 事件初步解决 公开进展信息 引导舆情过渡 事件经验总结 监测衍生舆情
危险
不安全
隐患 正常 良好
萌芽
扩散
爆发
波动消退
经历时期
表2.3:政府应对舆情模型
Байду номын сангаас 3
舆情指数
3.1
网络舆情指数的概念
舆情指数是通过对网络中各种类型媒体所发布的信息进行独立的第三方观察,形成量 化统计和定性分析,并结合算法推导、归纳总结而最终形成的一套网络舆情指数体系。
关注度
刘志明《网络舆情大数据》
综合评价
3.6
网络舆情指数体系(IRI)
“网络舆情指数体系(IRI)”是由中国传媒大学网络舆情(口碑)研究所设计,该指数体 系是国内第一个权威的、可量化的、科学的网络舆情指数体系,重点突出网络舆情指数的实时 动态性以及可理解、可描述、可解释等特点。
网民在某网站中针对某一主题发布的信息 量、回复量和浏览量的综合统计 ——集中参与水平
网红指数OCI侧重于对网红传播力和影响力的量化评估,评估模型包括三大维度、
十余项项量化指标,通过全网数据的采集,建立基于大数据的开放评估模型。
3.8
清博指数-VR指数WII-VR
评估指数包括企业和产品的网络关 注度(微博讨论及官微粉丝数、微 信相关文章及总阅读数等),全网 推广度(网页、新闻、官网、社交 媒体平台等相关信息推广)和网络 热销度(主流电商平台:以淘宝/ 天猫和京东为主)三大维度。
1
网络舆情参与度 2 网络舆情波及度 网络舆情评价度
IRI
3
衡量所有网络媒体中相关信息的指标 ——广泛报道水平
/人物/商品/事件在互联网上是否引起了关注度, 关注量级与趋势如何
传播分析
舆情传播路径,识别传播节点,研判节点调性
情感提炼
摩画网民情感倾向,提炼网民对事物的主要态度、关注面与侧重点
关注度=0.3×新闻指数+0.3×论坛指数+0.2×微博指数+0.2×微信指数 正面舆情比例=0.7×正面舆情指数+0.3×中性舆情指数 舆情压力指数=0.7 ×舆情事件个数+0.3 ×舆情关注度均值-正面舆情事件比例4.1舆情研究院《大数据中的“春运潮”变迁》
关注度=0.3×新闻指数+0.3×论坛指数+0.2×微博指数+0.2×微信指数
权威度
高 高 低 中 中
准确度
高 高 低 中 中
参与度
低 中 高 中 高
针对性
低 中 中 中 高
2.5
网络舆情传播的特点
1
跨时空性:信息突破了空间的限制,实现了信息的跨时空传播
2
3 4
群体极化性:信息的倾向性对受众的思想形成一定的支配性,形成群体极化
强制互动性:信息由单向传播变成双向互动,公众由接受者变为参与者和生产者
舆情研究重点的转向
由舆情监测转向为舆情预警乃至预测,从单向度的危机应对、品牌营销转向各领域的 综合信息服务
5.2
大数据舆情能否代表社会民意
根据中国互联网络信息中心CNNIC《第38次中国互联网络发展状况统计报告》显示, 截至2016年6月,中国网民已达到7.10亿,超过总人口的1/2。农村网民占总网民的26.9%, 达1.91亿,而中国农村人口将近8亿,网民占比较低。即使上网,发表意见的也是少数。 陈力丹在《舆论学》指出: 「在一定范围内有接近1/3的人持某种意见,这种意见由于开始对全部人产生影响,故 它已经从少数人的意见转变为舆论。」「在一定范围内有接近2/3的人持某种意见,这种意 见已经可以统领全局,当然更是舆论,而且成为主导舆论。」 P4 「要注意,不能轻易把网上的意见视为舆论。网民占全国人1/3,网民在网上发表意见 的人数,只占所有网民的2%,经常发表意见的人数更少。」 P8 因此,网民大都属于「沉默的大多数」,通过技术手段抓取关键词呈现出的意见状况会 出现代表性偏差,与符合真实情况可能出现不一致。
及时性:即时编辑、及时发布、即时传播、即时互动、及时反馈
2.6
网络舆情的演变过程
舆 情 影 响
萌芽
扩散
爆发
波动消退
经历时期
表2.1:网络舆情演变模型
2.7
网络舆情的演变过程
舆 情 影 响
危险
不安全
隐患 正常 良好 萌芽 扩散 爆发 波动消退 经历时期
表2.2:网络舆情预警模型
2.7
网络舆情的演变过程
3.2
网络舆情指数体系构建的基本原则
可行性
目标性 稳定性
系统性
明确性 全面性
动态性
科学性
3.3
互联网大数据挖掘技术
数据库理论
机器学习
人工智能
现代统计学
3.3
互联网大数据挖掘技术
统计技术:对给定数据集合假设一个分布或者概率模型 关联规则:目的是找出数据库中隐藏的关联网
连接分析:从一些用户的行为中分析出一些模式, 同时将产生的概念应用于更广的用户群体中
2016
大数据时代 如何运用指数分析舆情
主讲人:韩少卿 组员:王 闯
CONTENTS
目录
网络大数据 网络舆情 舆情指数
案例分析 研究与反思
1
网络大数据
1.1
大数据的概念
感知数据
1
2
3
人类原创数据
运营数据
人类社会数据生产方式
1.1
大数据的概念
世界知名的咨询公司麦肯锡最早提出了“大数据” 的概念,麦肯锡认为大数据是指无法在一定时间 内用传统数据库软件工具对其内容进行采集、存 储、管理和分析的数据集合。
指数四
舆情受众
4
指数二
2
发布主体
内容要素
指数三
3
3.4
网络舆情监测指数体系(兰月新)
名称 一级指数 传播扩散 二级指数
持续时间 地理范围 传播方式 主体身份 影响力 活跃度 意见倾向 主题内容 主题词热度 主题敏感度 视听化程度 内容详略度 态度倾向 关注人数
三级指数
时间跨度 地理跨度 网站、网媒、社交媒体
3.9
PDI(Pandata Index)全景数据评估指数
全景数据评估指数PDI 1.0算法说明:使用文章数量、可见总流量、认同流量、可见峰值流量 四个主要指标,并提出认同潜力值、可见峰值流量比率两个指标。 本算法由上海交通大学大数据传播创新实验室综合多类资源提出,使用运筹学中的层次分析法 (AHP)进行系数的确定,得到k_1=72.35%,k_2=19.32%,K_a=75%,λ_1=87.5%。4.1舆情研究院《大数据中的“春运潮”变迁》
正面舆情比例=0.7×正面舆情指数+0.3×中性舆情指数 舆情压力指数=0.7 ×舆情事件个数+0.3 ×舆情关注度均值-正面舆情事件比例4.1舆情研究院《大数据中的“春运潮”变迁》
正面舆情比例=0.7×正面舆情指数+0.3×中性舆情指数 舆情压力指数=0.7 ×舆情事件个数+0.3 ×舆情关注度均值-正面舆情事件比例
人群分析
舆情受众画像,偏好人群&厌恶人群特点
3.8
清博指数
以大数据为核心技术支撑,全方位整合传统门户、微博、微信、论坛、外媒等舆情 信息矩阵,高效稳定的数据采集平台,深度分析挖掘网络舆情,预测消费者的商业兴趣 与社交行为,为企业品牌评估、战略部署提供有力数据支撑。
WCI
标题 内容
TGI
BCI
WII-VR
广义的舆情,就是指民众的全部生活状况、社会环境和民众的主观
意愿,也就是通常所说的“社情民意”。
2.2
网络舆情的概念
事件 传播互动 影响力 网络 情感互动 网民
网络舆情是社会舆情的一种表现 形式,指在一定的网络空间中, 各种社会群体对自己关心或与自 身利益相关的热点事件或事物所 表现出来的具有一定影响力并带 有倾向性的认知、情绪、态度和 意见的总和。
5
研究与反思
5.1
大数据视域下舆情研究的转向
研究视角的转向
从单向度的内容研究转向“内容+ 关系”的多维度研究
研究方法的转向
由舆情信息采集转向数据加工、可视化等
数据库支持的转向
由简单的、有限的数据库转向非结构化的大数据库
舆情研究主体的转向
由小作坊式的单打独斗、面面俱到舆情监控转向分工明确、高度聚合集约的舆情分析
Volume(数据体量巨大)
大量交互数据被记录和保存,数据 规模从TB到PB数量级
Variety(流动速度快)
数据自身的状态与价值随着 时空变化而不断发生演变
Velocity(数据类型繁多)
结构化数据、半结构化数据 和非结构化数据
Value(价值巨大但密度低)
数据的价值没有随数据量的指数 增长呈现出同比例上升
1.5
网络大数据
2
Facebook
1
Google
网络舆情的大数据时代来临
微信 月活8亿 3
10亿照 1天200G
5
2
网络舆情
2.1
舆情的概念
舆情指在一定的社会空间内, 围绕中介性社会事项的发生、发展和变化,
作为舆情主体的民众对国家管理者产生和持有的社会政治态度。
相关文档
最新文档