大数据核心技术对比分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

单次 19005ms 19019ms
并发5个 21005ms
failed
并发10个 27736ms
failed
大数据案例分析-问题分析
• 每天请求数超过 100 亿 • 每天增长超过 5TB 级数据 • 每天对几千亿条记录进行上 1000 种维度的计算 • 客户有流式、实时、离线需求 • 数据源有广告曝光、点击数据,有微博、微信、新闻、论坛数据,还有
移动端消费分析
可口可乐分析:"昵称瓶”
可口可乐分析:"昵称瓶”
谢谢聆听!
CRM、渠道等第三方数据
看起来像这样
理解
• 从关系型数据库的解决来理解, 就是多表多维度 join • 难点在于
– 数据本来不在一起, 需要各种 ETL 来放到一起 – 数据量太大, 原有的存储方式行不通 – 数据质量不好保证, 清洗至关重要 – 大数据算法基本都需要按业务修正 – 上图中蓝色的数据源, 现实中有可能找不到或成本太高, 导致 join 变得不可能
分析报告
API
数据中心
SocialMaster
HBase HDFS
数据处理
分词
算法服务
情感
NLP 服务
分析
机器学习
标签
分类
NLP Lap
ElasticSearch
跨设备识别案例
跨设备识别案例
引自:XGBoost: A Scalable Tree Boosting System
广告反作弊分析
全流量分析案例
大数据系统对比-算法分析
支持向量机(SVM) 自然语言处理
• 判断用户男女性别 • 判断用户年龄分段 • 判断品牌投放是否
安全?
• 判断页面内容的主 题分类
• 判断用户分享内容 的兴趣特征
• 判断用户评论的感 情倾向
聚类分析
• 根据已有人群查找 类似的潜在人群受 众
• 根据人群历史数据 特征推断人群的学 历及收入等属性
"500" and sc in ("0001009","0002036","0016030",”…") or bs>585 and group by age,gender,os,bs • 总共200列:动态列为3列(多值列),普通列为11列
分布式多维实时查询-ES & Pinot
1000亿
ElasticSearch Pinot
数据流分析案例
数据采集服务 WebService
Flume
Βιβλιοθήκη Baidu广告数据
数据收集服务 Kafka
广告数据
外部合作数据
外部合作数据
新闻等爬取数据
新闻等爬取数据
数据清洗服务 Spark Streaming
广告数据 外部合作数据 新闻等爬取数据
Mysql
ADS Jice
点击数据
API
项目
API
核心应用模块
API
回归分析
• 依据广告历史数据 预测新广告投放的 CTR
• 根据历史数据评估 广告的综合投放效 果
GBDT
• 预测设备ID是否属 于同一个人
• 应用于CTR预估
时间序列分析
• 预测用户在特定时 期的兴趣强度
• 预测用户在特定时 期的购买意愿强度
大数据系统对比
NFS & HDFS
Pig & Hive MapReduce & Spark Spark & Flink Storm & Spark Streaming
大数据核心技术对比分析
目录
1
大数据技术挑战
2
大数据生态系统架构
3
大数据系统对比
4
大数据成功案例分析
5
Q&A
大数据技术难点分析
大数据技术难点分析
高可靠性 高可用性 高扩展性 高性能 高安全 高性价比
易监控维护
• 数据需要多份存储,保证数据不丢失 • 提供7X24小时服务,保证服务不中断 • 提供透明升级扩容服务,保证服务不受限制 • 对高并发、低延迟有高要求,保证服务访问快速 • 严格IDC管理制度和分布式密钥管理 • 成本价格可控,尽量降低成本 • 监控简单,响应及时
MySQL & HBase MongoDB & HBase HBase & Cassandra
ElasticSearch & Druid(Pinot)
Storage
Computing Database
OLAP
分布式多维实时查询-ES & Pinot
• 测试条件
• 记录条数分为100亿以内和1000亿条 • 服务器数量为70台,配置为:CPU 12核,内存96G,硬盘48T • 测试语句:select count(*) from test where age > 25 and gender > 0 and os >
大数据生态系统架构
应用服务
Pig
Hive
Druid
Flink
在线计算 离线计算 流式计算 实时计算
(HBase) (MapReduce) (Storm) (Spark)
MySql
Zookeeper
Kafka MQ Elastic
Search
YARN
HDFS
OS(操作系统)
大数据生态系统架构
大数据生态系统架构
大数据系统对比-存储分析
离线
HDFS
Ext4 SATA Disk
在线/离线
HBase
HDFS SATA Disk
在线
ElasticSear ch Ext4
SATA Disk
在线
MongoDB
Ext4 SSD
在线
Mysql
Ext4 SATA Disk
实时
Redis
Memory SSD
RabbitMQ
相关文档
最新文档