知微简介-微博分析工具

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于大数据的服务架构
1 2 3 4 5 6
PART ONE 基于大数据的服务架构
基于大数据的服务架构
数据采集
数据存储数据挖掘与数据分析数据可视化 数据源: •微博 •微信 •网站 •贴吧 •论坛等
分布式数据存储: •MongoDB •Hbase 文本存储:
•Apache SolrCloud
•微博传播可视化; •事件可视化; •人物关系可视化; •地图可视化; •实时情报推送; •热点话题提炼; •公关事件分析; •产品口碑分析;
PART TWO 知微数据可视化案例集锦
知微数据可视化案例集锦—国家脉动
实时性:
宏观展示在新浪微博上的网民声音在地域上的实时分布,
掌控;微博互动的流向;
热门微博:
对短时间内的热门微博Top100进行滚动播放,实时把控
当下的热点。

关键词预警:
根据后台设置的关键词和阈值,对超过阈值的关键词进
行预警;
知微数据可视化案例集锦—事件分析
事件影响力评价
知微数据可视化案例集锦—事件博物馆
@网眼八分斋:【网眼视频:可口不可乐】产业软弱与崇洋媚外瓜葛很深,当唯利是图变成主流,不择手段成为时尚,如可口可乐一类的洋品牌、洋垃圾就可以轻松玩弄汇源,可以试图圈杀王老吉,可以国内外少儿配方双重标准,可以公关消弭所有安全问题……我们总是对自己呲牙咧嘴,而对别人笑口常开:/S6UWCD
PART THREE 知微数据挖掘与数据分析
精准信息挖掘——情报监测及危机公关
发现有价值信息传播评价及预测深度事件分析精准公关面向高端客户的全流程互联网情报服务
2012年起持续
遭受负面舆论多菌灵事件
长春投毒事件攻击传播节点溯源精确定
位竞争对手(国内知
名茶饮料厂商)
通过


有效评判
重合度
较差。

精准定位重合度最大化
•人物轨迹
•行为规律研究•影响力领域
•兴趣领域
•社交网络关系图谱
明星粉丝画像——鹿晗
微信公号用户行为规律研究
事件影响力评价——2013年百大事件
•2013年春运 影响力:825万
•禽流感:H7N9 影响力:1431万 •4·20 雅安地震 影响力:2335万
•2013年两会 影响力:839万

光棍节&电商大战引发的双十一 影响力:825万
•2013年浙江余姚大水 影响力:475万
•薄熙来案
影响力:351万
事件影响力评价——典型案例
水军识别——小米2新浪微博网购首单
哈尔滨工业大学社会网络与数据挖掘联合实验室
94%
知微高级版。

2,593,195 1,433,412
479,832,936 303,218
疑点1:转发地域:
最高的是其他?
31%
疑点2:专业版微博比
例31%,异常值偏高
PART FOUR 知微海量数据存储方案
知微数据存储量
全网活跃用户数据新浪微博全网活跃用户属性数据:包括用户的标签、id、地域、性别全维度信息。

支持按属性反查导出用户数据;
核心内容数据100万活跃用户的所有微博内容;
关键舆情数据营销类草根号、公关类账号、媒体账号及所有有影响力节点的实时数据,并建有自主研发的水军识别模型和水军案例库;
核心微博账号运营数据所有核心微博账号粉丝变化数据、营销案例库和动态行业排名;
用户行为数据关键名人用户的关系变化数据,如:某时间内李开复取消XXX的关注。

知微数据存储架构——MongoDB集群
mongod mongod mongod mongod
mongod
mongod
mongod
mongod
mongod
shared1 shared2 shared3
C1.mongod
C2.mongod
C3.mongod
······
mongod
mongod
mongod
Replica
set
Config Server
·······mongos mongos ······client ······
MongoDB支持自动分片,可摆脱手动分片管理
上的困难;
MongoDB管理工具MongoVue,集群管理
工具Umongo;
知微数据存储架构——SolrCloud Collection
shared shared
Replica Replica Leader
Replica
Replica
Replica
机器1 机器2 机器3
知微分布式计算集群——Hadoop Hadoop Server Roles
Distributed Data Processing Distributed Data
Storage
Job Tracker Name Node
Secondary Name Node
DataNode & Task Tracker DataNode & Task Tracker
······
······
DataNode &
Task Tracker
DataNode &
Task Tracker Clients
MapReduce HDFS
masters
PART FIVE 知微数据采集
知微数据采集——数据源
着眼全局

全网数据的采集,建立事件影响力评价体系、人物影响评价体系、媒体影响力评价体系;
知微数据采集——MapReduce 分布式并行采集 MapReduce
program JobClient JobTracker TaskTracker Child MapTask OR
ReduceTask 1:Run Job Client JVM
Client Node
2:Get new job id
4:Submit job Shared FileSystem JobTracker Node 3:copy job resources
5:Initialize job
7:returns task 9:lanch 10:run Child JVM taskTracker node
MapReduce 通过把对数据集
的大规模操作分发给网络上的
每个节点实现可靠性;每个节
点会周期性的返回它所完成的
工作和最新的状态
知微数据采集——新浪微博数据采集封锁机制探究
新浪微博网页版爬虫
新浪微博移动端数据采集
新浪微博开发平台 建立知微个性化数据采集策略
API
PART SIX 全媒体融合智能信息服务平台关键技术
全媒体融合智能信息服务平台 难度系数90%
难度系数80% 难度系数
85%
建行总部的大数据
系统架构师企业级内容数据仓库国际第一流的大数
据平台
数据采集层数据缓存层数据服务层信息服务层信息应用层微博数据
微信数据网站数据论坛贴吧数




实时数据仓库
数据计算区数据访问区
数据实验区
数据归档区原始数据访问区














数据仓库
历史数据区
User agent 是HTTP 协议的中的一个字段,其作用是描述发出HTTP请求的终端的一些信息。

每个浏览器,每个正规的爬虫都有其固定的user agent 使用程序成功模拟微博的加
密方式登陆新浪微博,获取
用户登陆后的cookie,模拟
用户登陆后进行网页爬虫
如果网站用某段时间内某IP
的访问次数来判定访问是否
为爬虫程序,然后封锁爬虫
IP的话,此时就需要使用代
理IP技术来防封锁
代理IP 池 新IP 随机取一IP ,并锁定该IP Hadoop 并发爬虫 采集完成,释放该IP
代理IP 失效,删除该IP
采集异常报警机制 代理IP 池 新IP 随机取一IP ,并锁定该IP Hadoop 并发爬虫 采集完成,释放该IP 代理IP 失效,删除该IP
采集目标网页结构异常
异常报警模块:邮件/微博等 代理IP 池IP 总量低于阈值 采集程序出现异常:☐☐。

相关文档
最新文档