互联网大数据分析案例分享精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在11:1
假设同时装载 到内存中分析 的量在1/3, 那 总共需要 300G的内存
2021/2/20
6
互联网大数据案例
设计方案
总共配制需要300G的内存 硬件: 5台PC Server, 每台内存:64G, 4 CPU 4 Core 机器角色:一台Naming 、Map, 一台Client、Reduce、Map,其余三台都是Map
– Naming Node – Client Node – Map Node – Reduce Node
• 通讯协议:ZIO • 存储结构:ZFS 及其管理 • 计算框架:ZMR 及其管理 • 支持BI的存储格式 • 支持BI的计算框架
13
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
2021/2/20
WEB数据
APP数据
Hadoop
5 台 PC Server 64G 内存 4 CPU (4 Core)
Data Mart Dashboard/Reporting
4
互联网大数据案例
POC(Proof of Concept)
1.Demo: 5台PC Server 导入10天的数据,如何ETL,如何做简单应用。
2021/2/20
SQL Server
Hadoop
Naming Map
Data Mart
Client Map Reduce
Map
Map
5 台 PC Server 64G 内存 4 CPU (4 Core)
Map
7
互联网大数据案例
ETL过程
历史数据集中导:每天的细节数据和SQL Server关联后,打上标签,再导入集市 增量数据自动导:先删除近3天的数,再导入近3天的数
维度数据被缓存; 细节数据按照日期打上标签,跟缓存的维度数据关联后入集市; 根据日期标签来删除数据;清洗出有意义的字段。
维度数据
细节数据
集市数据
DataCache RefreshJob
2021/2/20
DaJtoainJMoabrt
Cached Data Detail Data From Date To Date Join Type
11
架构分析
永洪BI / 其他可视化BI工具
ETL管理 备份管理 监控工具
JDBC 接口
连接池 多路、复用、异步
数据加载/卸 载
SQL优化
列
数据包 数据包 数据包
内存计算
列
数据包 数据包 数据包
库内计算
分布式计算
列
数据包
列
数据包
存
储
数据包
Windows系列
Linux系列
Unix系列
12
架构分析
• 机器角色
字符串类型,
90天的数据, Web数据7亿, App数据37亿,
一半数值类型, 一行数据估计 2000Byte
总估计在50
亿
每天5000万行, 原始数据每天 100G, 100天 是10T的数据
抽取样本数
据100万行,
导入数据集 市,数据量 在180M
50亿数据的 若全部导入 需要900G的
量, 压缩比
2021/2/20
10
互联网大数据案例
海量数据,实时分析
1.90天数据,近10T的原始数据,大部分的查询都是秒级响应 2.实现了Hbase数据与SQL Server中维度表关联分析的需求 3.预算有限,投入并不大,又能解决Hive不够实时的问题 4.性能卓越的交互式BI呈现,非常适合分析师使用
2021/2/20
2021/2/20
2
目录
• 互联网大数据案例
– 海量数据,实时计算
2021/2/20
3
互联网大数据案例
某著名咨询公司用户行为分析系统
? 面临问题:实时分析的数据量大,基于Hive的分析系统不够实时,但预算有限
解决办法:90天细节数据约50亿条导入Yonghong DM,再定制Dashboard分析
RemoveJob Cycling , Chained Jobs
8
互联网大数据案例
系统配置调优
内部管理内存参数: mem.proc.count=8 mem.serial.mem=5120 mem.result.mem=10240
JVM内存管理参数配置: JAVA_OPTS="-XX:NewRatio=3 -XX:SurvivorRatio=1 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:MaxGCPauseMillis=6000 -XX:GCTimeRatio=19 -XX:ParallelGCThreads=16 -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=1 -XX:CMSInitiatingOccupancyFraction=80 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintHeapAtGC -XX:+PrintGCDetails -Xms61440m -Xmx61440m -Djava.awt.headless=true"
2021/2/20
9
互联网大数据案例
ຫໍສະໝຸດ Baidu前端展现:互联网用户行为分析
浏览器分析:运行时间,有效时间,启动次数, 覆盖人数,等等 主流网络电视:浏览总时长,有效流量时长, PV覆盖占有率, UV占有率,等等 主流电商网站:在线总时长,有效在线总时长, 独立访问量,网站覆盖量, 等等 主流财经网站:在线总时长, 有效总浏览时长,独立访问量,总覆盖量, 等等
©2011-2013 Yonghong Technology Co.,Ltd.
Yonghong大数据BI案例的底层技术分享
2014.1.5
新浪微博@永洪科技BI
大数据的4V
1. 数据量大(Volume) 2. 速度快(Velocity) 3. 类型多(Variety) 4. 价值密度低(Veracity)
2.POC: 导入近3个月的数据 解决步长问题,有效访问次数, 在几个分组内,停留时间大于30分钟 解决HBase数据和SQL Server数据的关联问题 解决分组太多,Span过多的问题 分析师做了些简单的应用报表
2021/2/20
5
互联网大数据案例
数据源及数据特征分析
每个表有20多
个字段,一半