用户行为大数据分析过程踩过的坑及解决方案最新PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主数据仓库
数据集市
业务数据 业务数据
Informatica
授权 客户
实名 用户
授权 客户
数据服务
业务数据
加密锁
用户
3
2
Kafka集群
HIVE
Spark Spark SQL
IO OLAP
Azkaban
Kafka01 Kafka02
清过 合 输 洗滤 并 出
Spark Streaming HBASE
Kafka03
2016-快速成长
平 台 不 足
Kafka集群和 HDP集群共享,耦合度高 Hbase 集群和 HDP集群共享,耦合度高 ES 集群和HDP集群共享,耦合度高 实时检索日志,受条件限制 平台响应外部需求慢
无法对外提供平台即席查询
平台缺乏权限及配额管理,无法对外开放平台资源
2016- 快速成长 -成长的烦恼
务
YARN
日志数据
日志接 受服务
ETL程序 (python)
CASE-01 行为数据分析算法
背景: 没有建立主数据仓库,导致主数据的处理和行为数据交叉处理,计算 量大,逻辑复杂,难以排错。
处理流程:
? 主数据入 HIVE仓库
主数据处理
行为数据处理
? 行为数据 入HIVE 仓库
? HIVE仓库挂 接主数据
Azkaban
Kafka01 Kafka02
清过 合输 洗滤 并出
Spark Streaming HBASE
Kafka03
TEZ
Compute Engine
IO API
HDP集群
日志数据
日志接受服务HTTP 日志接受服务TCP
Monitor
Apollo RabbitMQ
Presto
2016-快速成长
平台架构缺点:
? 资源利用不充分 ? 计算任务耗时长 ? 无实时处理能力 ? 单点问题 ? 监控问题 ? 平台优化,稳定性问题
2015-初步尝试
工部部 会员中心
ETL程序 (python)
ETL清
数据
洗
仓库
1
2
CDH集群
作
业 调 度
JOIN
清过 合 输 洗滤 并 出
Hbase
数
据
数据
服
HIVE
集市
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
2016-快速成长
业务数据 业务数据 业务数据
Informatica
主数据仓库
授权
实名
客户
用户
加密锁
数据集市 授权 客户 用户
数据服务
Kafka集群
HIVE
Spark Spark SQL
IO OLAP
? 通过网络将数 据导入到新集 群内
?使用快照对 表进行恢复
数据恢复
问题
?移h后ba无se法数查据询迁
CASE-01 HBASE 数据迁移
TEZ
Compute Engine
IO API
HDP集群
日志数据
1日志接受服务HTTP
日志接受服务TCP
Apollo RabbitMQ
实时清洗
Presto
MonitBiblioteka Baidur
CASE-01 HBASE 数据迁移
Hbase数据迁移失败 处理流程:
? h照b方ase式使对用需快要 迁移的表进行
备份
数据备份
数据拷贝
2015-初步尝试
工部部 会员中心
ETL程序 (python)
ETL清
数据
洗
仓库
CDH集群 作
业
调 度
JOIN
清
过
合
输
洗
滤
并
出
HBASE
HIVE YARN
日志数据
日志接 受服务
ETL程序 (python)
业务数据流 行为数据流
数
据
数据
服
集市
务
2015-架构特点
平台架构特点:
? 计算逻辑全 sql化,简单易于维护
? Python 程序读 取据hive外部表数
? Python 调用 api ? 逐批写入 ? 10000条每批
写入HBASE
CASE-02 Hbase 数据载入
面 临 问 题
Python 读取hive结果,需拉取结果至本地 单节点写入,性能差 数据量大,逐批写入耗时长 Hbase压力问题(hbase 无预分区)
? 按业务指标 聚合
行为数据
挂接主数据
? 分析计算
优点
先聚合后关联,数据量大幅减低 减少需要shuffle的数据 行为数据能获取最新的主数据
CASE-02 Hbase 数据载入
背景: 每天增量行为数据入Hbase,前端分析查询
处理流程:
? Hive sql 计算结 果存储Hive外部 表
跑批处理
读取计算结果
2016 CDH -> HDP 数据规范制定 与造价 BG合作 接入造价数据 建立相关数据仓库 接入 CRM 、授权等
2017 集群扩容 规范推广 权限管理 深化数据应用体系 国际化数据接入 施工数据接入 ……
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
用户行为分析大数据平台 演进与经验分享
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
平台发展历程
2015 集群搭建 CDH 集群 与工信部合作 工信部行为分析
外挂主数据
业务指标计算
? 分析计算
CASE-01 行为数据分析算法
面 大数据量join,大量数据跨节点交换 临 计算时间超长 问 主数据和行为数据耦合度太高 题 Hive数据变更困难
CASE-01 行为数据分析算法
优化方案:
? 建立主数据 仓库
? 单独处理
主数据处理
行为数据处理
? 行为数据入 HIVE仓库
平 台 改 进
建立主数据仓库,数据准确性提高 深度应用yarn,提高资源利用率 引入Kafka,spark streaming ,具有实时数据接入与处理能力 引入azkaban任务调度,调度稳定,可视化,日志可查 引入Monitor,实时任务监控 引入presto,内部应用 Hive执行引擎优化, Tez替换原生MR 对外提供轻量 OLAP服务和Data API服务 平台稳定性, HDFS HA,YARN HA, HBASE HA , Spark HA 平台稳定性,优化日志接受服务 平台稳定性, mysql 主从备份,redis 主从备份
CASE-02 Hbase 数据载入
优化方案:
Map01 Map02 Map03
reduce01 reduce02
Hfile
bulkload
Hbase
优点
MR分布式生成 Hfile,并行 ,提高效率
bulkload, 一次性导入 ,Hbase压力小
Bulkload 大批量数据写入 适用场景
一次写入,频繁读取