基于大数据的社会计算
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
√
√ √
文化
共333位意见领袖
互动频率大于20的微博意见领袖关系图
微博意见领袖互动类型划分
整体 激进左派 温和左派 中性 温和右派 激进右派
对象外扩型
对象内聚型 对象均衡型 对象比平均值 频率外扩型 频率内聚型
138
192 3 1.62 132 200
7
5 0 1.25 7 5
17
20 0 1.84 14 22
10
27 0 0.97 13 24
97
131 2 1.70 92 138
7
9 1 1.75 6 11
频率均衡型
频率比平均值
1
1.77
0
0.87
1
1.03
0
0.85
0
2.15
0
0.90
微博舆论生态
• 内分布类型:指微博内容的报道类型分布情况;
• 媒体系别的内容生产属于集群型分布,内容主要集中在政法、 国际类新闻报道。而绝大多数媒体系别能够从政法类新闻报道 中获取高转评。
各文档格式
清洗 挖掘
文献导入层
文献挖掘层
文献表现层
输 入
百度
搜狗
有道
元搜索引擎
社会网络
输 出
意见领袖各季度博文总量及转评总量 趋势图
各类意见领袖成长分布
意见领袖分析
染香 韩寒 点子正 胡锡进
王克勤、朴抱一
记者刘虎
20 注:部分意见领袖首发微博已被屏蔽
舆论场波澜起伏
选取网络活跃人群中较有代表性的两种价值取向人群,红色价值取向:司马南、孔庆东、染香、点子正、吴法天、司马 平邦、胡锡进、戴旭、郭松民、不沉默的大多数10人;普世价值蓝色取向:李开复、薛蛮子、潘石屹、任志强、作业本、 袁裕来律师、作家-天佑、于建嵘、徐昕、李承鹏10人。
0.4
通过数学方法寻找情绪的拐点,高位拐点确认后对应卖出信号,低位 拐确认后对应买入信号。
•P29
概念板块事件驱动套利模型
“石墨烯”概念板块下的各事件信号
•P30
评价模型
• • • • • • WCI:微信传播指数v12.0 BCI:微博传播指数v9.0 TGI:头条传播指数v1.0 OCI:网红指数v2.0 BVI:品牌价值指数1.0 WII-VR:VR网络影响力评估指数1.0
模型1.0表现
择时策略
Annualized Return Annualized Std Dev Annualized Sharpe (Rf=3%) 累计收益率 最大净值回撤 持仓胜率 空仓胜率 平均持有期 最大持有期 最小持有期
•P28
19%
19% 0.80 86% 10%
57%
86% 作多 作空 作多 作空 作多 作空
移动视频直播
网红和 移动视频直播
世界正在发生什么?
微信搜索和微博搜索、网页搜索的区别在哪里?
网友的顶级游戏之作(1)
http://cunzhishu.ycool.com/post.2140391.html
微 信
微博 新闻 客户端
语义网wenku.baidu.com 泛在网络
社会网络 复杂网络
网 页
元搜索引擎
文档数据库
媒体系别 财经系 央视系 政法均值 62.05 30.3 社会均值 12.95 11.6 国际均值 28.1 57.75 经济均值 24.35 13.85 文娱均值 15.9 11.95
S2 / m
10.81425 12.55318
人民系
南方系 新华系
78.3
124.95 144.9
21.55
34.2 25.35
媒体分布:
舆情统计结果对 应的饼状图表
预警信息:
预警四类媒体的 负面信息
舆情走势:
媒体每日发文总 量趋势图
最新舆情:
实时抓取更新数 据,可以删除单 条舆情
热点词云:
统计高频词
3.5 专题多维度分析
对监测专题内容进行内容分析、传播分析、微信分析、微博分析
性能扩展
1、早期上线版本更倾向于体现能力开发与模块实现。 2、考虑随用户数据量增加,系统各环节的扩容机制预案,支持平行扩展。
56
45.1 115.2
13.2
45.95 26.9
18.176
27.47059 38.85
17.18099
22.72826 35.51913
微博舆论生态
• 媒体系别的种内关系符合逻辑斯蒂方程的增长规律; • 由于话语空间、信息资源、受众关注的有限性,账号增长会制 约媒体转评总量的增长; • 密度制约使得媒体系别的成长经历负竞争、争夺竞争、分摊竞 争的阶段。
宪政、民主 政府现有路线 政治 大政府 党的执政合法性 毛泽东和文革 平等与公平 土地私有制 市场经济 国企私有化 全球化 西方普世价值 儒家传统文化 新闻自由 政治经济制度
激进 温和 中性 温和 激进 左派 左派 右派 右派 √ √ √ √ × √ √ √ √ √ √ √
经济
○
×
○
○ √
√
√
√
√ × √
媒介数据挖掘
一般是指从大量的媒介数据中通过各 种手工或软件方法获取隐藏于其中信 息的过程
跟淘金有类似之处
如何找数据富矿,在有限时间内提升 挖掘效率和产出
Ways to get gold from earth
• Panning • cradle • hydraulic mining – damage to environment
58日 144日 84日 311日 32日 71日
普通投资者情绪指标择时模型2.0
3500 上证综指 1.6 普通投资者情绪指标(绝对) 1.4 3000 1.2
2500
1
0.8 2000 0.6
1500 10年01月 10年07月 11年01月 11年07月 12年01月 12年07月 13年01月 13年07月
数据资源
• • • • • 微信公众号:1400万+ 微博账号数:1.5亿+ 客户端下载:93万+ 资讯App全文:36 重要资讯网站:每天100个GB
性能扩展
1、早期上线版本更倾向于体现能力开发与模块实现。 2、考虑随用户数据量增加,系统各环节的扩容机制预案,支持平行扩展。
新华社、央视(内部评测使用本系统)、人民网、新华网、 腾讯网、新浪网(27个地方站进行微博统计使用本系统)、大众 网、大河报、华商报、长江日报、解放军报、最后一公里等。
开放平台及API接口 http://open.gsdata.cn/
舆情分析
舆情统计:
分时间段统计微 信、微博、网 页、客户端的发 文数量总和
基于大数据的社会计算技术
你去电影院受什么因素影响?
我们在时空中是如何移动的?
媒介数据
媒介的数据属性 媒介内容的数字化,媒介数据的内容化 媒介数据的具体形式 媒介产业、媒介企业、媒介产品、媒介 要素、媒介生态 不能数字化的媒介暂时不具备大规模挖 掘价值 不可公开获取的媒介数据暂时不具备重 复实验的基础
评价模型+
新媒体指数管理中心:
优质用户
1万多优质用户 每日递增500多
部门、企业
中宣部、网信办(年底的先进表彰名单来自本系统,作为备 选之一)、中央政法委宣传中心、教育部(200家高校的新媒体 评估使用本系统)、国资委(央企每月排名使用本系统)、共青 团中央、铁路总公司、万达集团、海尔集团。
媒体
8月以来红色价值取向派占据主流活跃舆论场,人均每日微博量为22条,蓝色价 值取向派为16条。蓝色价值取向派8月底后活跃度明显下降,从日均17条下降到 14条左右,红色价值取向派活跃度激增,从日均18条上升到24条。 一方面大V李开复患病、薛蛮子被捕、李承鹏禁言、于建嵘下乡会影响到大V活 跃度,另一方面打谣行动后多数大V开始谨言慎行,坚守“七条底线”。