百度大数据实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智慧城市应用:公共安全中的人群预警
Uber大数据实践
总结
奇点即将临近
技术总结
• 大规模计算和存储技术突破,及云化促使 的易实施 • 无所不在的移动设备 • 无所不在的传输网络
数据总结
• 数据化
– 尽可能的数据化
• 数据流动与整合
– 数据需要流动 – 数据需要整合
• 数据到智能
– 从数据获得信息和知识
搜索发起地目的地热力图
人们在最后时刻才发现目的地更改
不同时间的人群分布
中秋节
国庆节
元旦
不同时间的人群流向分布
中秋节
国庆节
元旦
地点更改后,导致人群流向更加混乱
中秋节
国庆节
元旦
基于百度时空数据的人群流量预警
人群流量数据与地点搜索数据高度相关 背后的因果:人们先搜索地点,进行规划,然后到达
人群流量预测
的支出,能够体现企业运行和经营中的某些特点和状况。因此,消费量景 气指数在相当程度上能够反映企业经营状况及活力;
验证中小企业景气指数
预测统计局宏观经济指数
先行指数 / 一致指数 / PPI / PMI
提前3个月,误差小于2%
预测vs.实际,走势高度一致
金融预测调研
• 人脑的智能
感知 分析 决策
机器学习模型
基于大规模机器学习的时间序列预测模型 —— 状态空间模型 (SSG)
1 数据准备 3 信息收集
x5
重复
3 4
各种因素
4 预测
y5
旅游人数
2 模型参数训练
t ~ N 0, Rt xt At xt 1 t t ~ N 0, Qt
yt Ct xt t
预测公式: 绝对湿度驱动的SIRS+Filter模型
SIRS部 分:
绝对湿度驱动部 分:
疾病关注度预测结果
疾病确诊值预测方法与结果
疾病预测计划
中小企业景气指数预测
百度经济指数预测
经济指数预测:为什么 要/能 做?
50
意义:
万企业客户
企业用户
遍布27行业,31省份
每天
覆盖95%中国网民, 网民对于企业的需求变化,及时反映企业景 每日60亿搜索请求 气状态
疾病预测
疾病预测:为什么 要/能 做?
疾病病预警与监控意义:提前预警疾病病爆发,帮助用户、医疗和疾控部门及时应对。
疾病关注度预测方法:流感为例
预测目标: 以下检索词的搜索量
## [1] 病毒性感冒 病毒性感冒症状 哺乳期感冒吃什么药 ## [4] 吃什么止咳 风寒感冒 风寒感冒吃什么药 ## [7] 感冒 感冒的症状 感冒咳嗽怎么办 ## [10] 感冒头疼怎么办 感冒头晕 干咳 ## [13] 干咳怎么办 喉咙干痒咳嗽 怀孕感冒咳嗽怎么办 ## [16] 怀孕感冒怎么办 甲流 甲流症状 ## [19] 流感 流感疫苗 流感症状 ## [22] 流行性感冒 嗓子干痒咳嗽怎么办 细菌性感冒 ## [25] 预防感冒 孕妇感冒 怎样止咳 ## [28] 怎样治咳嗽 病毒感冒 病毒性感冒吃什么药 ## [31] 病毒性感冒的症状 感冒吃什么药好的快 如何治疗咳嗽 ## [34] 孕妇感冒吃什么 怎样预防感冒 喉咙痛吃什么药好 ## [37] 吃什么治咳嗽 感冒食疗 孕妇感冒嗓子疼怎么办 ## [40] 怎么预防感冒 ## 40 Levels: 吃什么止咳 吃什么治咳嗽 哺乳期感冒吃什么药
指标维度:备选指标从以下几个方面来选择:
反映企业网络搜索营销效果的指标:展现统计量、点击统计量、计 费统计量; 反映企业对搜索营销投入的指标:消费额、余额、预算;
中小企业景气指数编制方法
方法:Stock-Watson型景气指数
美国学者James H.Stock和Mark W.Watson认为包括金融市场、劳动 市场、商品销售市场等在内的总体经济活动,的共同变动背后,存在着一 个共同的因素,这一因素由一个不可观测的基本变量来体现,该基本变量 代表了总的经济状态,其波动才是真正的景气循环,这一不可观测的基本 变量被称为Stock-Watson型景气指数
OLTP@Bigdata
• • • • • 并发量 数据量 schema changing rich types 多机房
SQ L+
M ySQ L D D BS M ySQ L
N oSQ L
K ey Val ue
1. Si m pl e and Sm al lVal ue 2. M ol aD B
百度大数据实践
马如悦
什么是大数据
• 大数据很早就有 • 大数据时代的来临 • 大数据
– 技术 – 数据 – 应用
应用
技术
数据
大数据行业坐标
拥有大数据
合作、渗透、创新
强
传统企业 互联网厂商
银行
BAT
Princeline Qunar
Google Amazon
保险
电信
Microsoft
Salesforce
#1 #2 #3
201 43% 38% 45% 0 201 -3% 6% 4% 1 201 49% 42% 42% 2 201 (14 年截止日期为 10.7) 33% 30% 30% 3 201 10% 14% 14% 4
基于百度数据的外滩踩踏事件分析
跨年灯光秀所在 地
踩踏事件发生地
人群密度过大,但并不一定会出现 踩踏
(X1 ,X2 , ,Xm;Y)
(X1,X2 , ,Xn ;Y)
F
F
从 F 中找到一个满足评价标准 J 的最优特征子 空间F’
团购订单转化特征选择
• 需要不断地去接触和理解业务数据,试图从中 挖掘出和用户转化相关的特征 • 比如使用的主要特征包括:
– 上下文特征:如时间,地理位置(商圈),天气, 温度等。 – item特征:如团购服务的价格,销量,用户评分。 – 用户特征:用户的属性特征,如年龄,性别,婚育 状态,品类偏好,价格偏好等。
单维Stock-Watson型景气指数模型的本质: 反映真正经济波动的变量应该是去掉了趋势变动因素和季节性因素后的平稳部分。
中小企业景气指数产出
中小企业点击量景气指数:指数编制的数据源选择中小企
的点击量数据,该指数在相当程度上能够反映中小企业行业需求趋势;
消费量景气指数:消费量数据反映了企业对百度搜索引擎营销
部署方式
大数据—数据篇
1
2
3
数据
特征
算法
数据集
特征选择 后 的数据集
数据收集
特征选择பைடு நூலகம்
学习算法
The art of machine learning starts with the design of appropriate data representations.
数据收集
特征选择
R eporti ng
A nal ysi s
Mi ni ng
Interacti ve R eal ti me B atch
R eal ti me
•
Stream i ng C om puti ng
• •
~ D Stream
•
Mi ni -batch C om puti ng
• • •
Q ueue W orker M odel Task M anager
• 广告收入1= 展现次数 * CPM • 广告收入2 = 展现次数 * CTR * CPC • 广告收入3 = 展现次数 * CTR * CPA • 红色的都需要依赖大数据来进行提升
旅游预测
为什么 要/能 做游客人流监控与预测?
珙桐:4000人
3W游 客
旅游城市内游客分布 明确热门景点,优化交通停车等
K ey
JSO N Val ue
1. C om pl ex and Sm al lVal ue 2. M ongoD B , B i gTabl e 3. Tabl eD B 1. Si m pl e and B i g Val ue 2. 3. O bj ectD B
K ey
Bi g Val ue
Managing Data: OLTP and OLAP
OLTP
• OnLine Transaction Processing • 例如:订单管理、客户管理、金融事务处 理 • 要求:高可用、高可靠、高并发、ACID事 务保证 • 传统方案
– IBM Z大机+DB2,小型机+Oracle,EMC备份 – 配置:Z10: 256 CPU cores,512GB mem, 几 十TB存储
填补中小企业景气空白 洞悉行业、地域发展状态 支撑投资决策
工信部牵头,百度联合中科院管理学院, 启动经济指数研究项目
行业景气度与龙头个股价格走势相关
中小企业景气指数编制
数据选择
行业维度与样本量:基于百度搜索推广所覆盖的企
业用户,选取“所有行业整体” 、“旅游票务业”、 “教育培训业”、“机械制造业”等27个行业作为典型 代表
• 在股票投资领域中
感知市场情绪 分析走势 买卖决策
• 百度能否“感知”市场情绪?
– 爬虫 :新闻、论坛…… – 搜索query:用户关注、情绪……
百度query vs. 上证指数
百度query vs. 个股行情
基于query数据的期指模拟交易结果
沪深300期指每年收 益率 (3轮模拟交易)
– 查看"中国","钓鱼岛","旅游","苹果"几个词语的相似 词语如下所示
大数据—应用篇
• 百度内的大数据应用
– 搜索、推荐、广告
• 大数据行业应用
– – – – – – 大数据引擎 旅游预测 疾病预测 中小企业景气指数预测 金融预测 公共安全预测
• Uber的大数据实践
搜索
推荐
广告
广告收费模式
跨界创新企业
Splunk
学习
弱
创新升级
SAP IBM Oracle
传统企业软件厂商
具备大数据能力
弱 强
(By BDG, Baidu )
大数据—技术篇
端 (mobile, pc, sensor)
3G,4G
有线光纤宽带
Text in here
云 (Cloud)
端技术
移动传输技术
有线传输技术
Cloud
数据应用
• 创造各类数据应用
– 改善现有业务 – 创造新的业务
谢谢!
• 很多时候特征需要保密
学习算法
Deep Learning
• 特征选择最重要 • 靠人工太费劲 • 深度学习
– 目的:特征学习
Deep Learning的应用
• 语音识别 • 图像识别 • 自然语言处理
– 发现涉黄贴吧 – word2vec的demo
Word2vec应用
• 训练数据集:经过分词后的新闻数据,大小 184MB
景区内游客分布 减少拥挤,利于生态保护
人的经验
The only source of knowledge is experience. —Albert Einstein
影响旅游人数的因素
历史旅游人 数
天气
辅助因素
整体水平
or
A景点
B景 点
趋势性
节假 日
季节性 (周期性)
事 件
… …
… …
相关因素数据化