大数据解决方案精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其他 使用
HADOOP优势
-丰富的组件
Ambari/Cloudera Manager
Hue
BigTop
Shark
Flume
Hcatalog
HttpFs
Sqoo p
Map Reduc
e
Storm
Spark
Mesos
Tez
Chukw a
Pig
HBase
Cassandr a
Accumul o
Hive
Impal a
大数据&自助式分析解决方案
议程
• 大数据解决方案 • hadoop的优势 • 实际过往案例 • 自助式分析方案
大数据企业品牌腾飞的“肾上腺素”
Petabyte s
网页点击 流
Wikis/博 客
传感器
/RFID/ 设备
Terabyt
广
es
告
移 动
协协作作 电电子子商商 务务
Gigaby tes
Megab ytes
现在:
我公司提供相关互联网数据的爬取,并对数据初步ETL后,传入到客户。 客户平台构成:Hadoop(15)+oracle(2) 可以30分钟左右监控指定贷款客户的互联网 舆情。 可以对地区与行业进行综合评估与预测 每天发送到客户数据100G,每天分析数据维度40个,综合处理1T数据。
企业数据及商业智能平台的进化
数据已结构化数据为主
现在:
新平台改造:Hadoop(10)+redis(2)+mysql(4)
硬件故障从原来的半小时监控,提升到现在,故障预先告警,发生故障的2分钟告警到用户,分析决策 效率大大提高
支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据2000条
每天处理数据量实时数据200G,历史综合数据1T。
大数据解决方案 -业内通用解决方案(HADOOP/SPARK)
优势:
zookeeper集
技术人才储备多
企业 内部
群
硬件投资成本可以控制
作业调 度
决策分 析
并行扩展比较方便
系统
后期结合业务开发,实现稳定
数据
HB Hiv
并行管
多维查
ase e
理
询
互联 网
E HADOOP
T
数据分 析
图表展 示
L
Stor m
ERP/CRM
付
联系人
款
订单跟
薪
踪
资
销售管
货
道
存
数据复杂度:多元性和速度
社交网 络
音频/视 频 WWeebb 22..00
WWeebb 日日志志 数数字字市市 场场 搜搜索索市市 场场 网网上上推推 荐荐
Big Data
日志文件 空间 & GPS 坐标数 据 数据集市 电子政务 气候 文本/图像
大数据解决方案-大型数据库(ORACLE)
统
产品数据
结wk.baidu.com数据
计
报
企业收入数据
ETL处理
合同数据
计算数据
表
企业支出数据
盈收数据
预测数据
行
业
存储引擎接口
报 表
MYSQL MYSQL
存储引擎
MYSQL MYSQL
MYSQL MYSQL
优势: 技术人才储备可以部分复用。 硬件投资成本可以控制。 并行扩展比较方便。
劣势: 需要更高端的架构师。 海量数据的处理架构需要重新开发。 后期技术实现,维护成本高。
企业采购数据 企业运营数据 企业收入数据 企业支出数据
ETL处理 ETL处理 ETL处理 ETL处理
相关行业数据
ETL处理
材料数据 产品数据 合同数据 盈收数据
汇总数据 结构数据 计算数据 预测数据
ORACLE ORACLE
ORACLE ORACLE
盈
收
优势: 技术人才可以复用。
报 表
决策人员
应
支撑总数据量100TB,且100GB以下数据实时多维度数据的分析。 开发效率比较高。
实际案例一 智慧能源
背景简介
大数据存储 (10)
交换机数据源 监控设备数据源
数据流
数据接入程 序
异常存储(2) redis
mysql(4) 数据仓库
分析
多维度存储
数
据 服
应用
务
其他
存储
服务
使用
实际案例二 互联网舆情
背景:
客户需要对互联网金融服务的服务企业和相关行业做到实时监控,并有效的挖掘互联网上的客户资源。 数据已非结构化数据为主
Ambari (平台管理)
Zookeeper (平台配置与调度)
Hcatalog (元数据管理)
Sqoop (数据集成)
HBase (数据存储)
HDFS (文件存储)
应用数据
数据库
日志
其他数据源
HADOOP优势
-
实际案例一 智慧能源
背景:
客户原来是从事硬件研发,每年营业额在5000万左右,随着企业规模的扩展,领导觉得对硬件设备 的故障告警不够及时。对现有的历史数据没法进行数据整合与挖掘。导致决策迟缓,故障不能够预设 告警。
-互联网舆情
类结构化数据
非结构化数据源 (新闻,博客,
BBS,微博)
数据流(图像、 视频)
大数据存储(15)
Hdfs,Hbase, MapReduce
hive
存储
分析
oracle
数据仓库
数
据 服
应用
务
其他
服务
使用
实际案例三 大型国企
背景:
客户是一个省级运营商,需要对历史的客户话单,LBS,流量信息进行分析。 数据维度非常多,需要综合考虑的数据量比较大。
现在:
客户平台构成:Hadoop(40)+oracle(4)+mpi(6) 每天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。
企业数据及商业智能平台的进化
-某国企统计分析
话单数据源 LBS数据源 网络数据源 其他数据源
大数据存储 (40)
MPI密集分布式 计算(6)
Mahou t
RHadoo p
Phoenix Drill
Girap h
Hama
Search Whirr
YARN:分布式操作系统
Avro
WebHdfs
HDFS:分布式存储
Zookeep er
HADOOP优势
-完善的处理流程
平台管理层
Hive (数据分析)
上层应用
Pig (数据分析)
Map Reduce (编程模型)
Ma hou
t
数据挖 掘
报表统 计
劣势:
......
动态报 表
......
HDFS
需要专业的方向性人才处理 HDFS STORM MAHOUT
朱成 保
企业数据及商业智能平台的进化
-未来
OA
大数据存储
数据仓库
分析
CRM
ERP 视频、语音、图
片......
数据流
存储
数
数据集市
据 服
应用
务
多维度存储 服务
开发成本比较低。
统
产品稳定,后期维护简单。
计 报
用 管理人员
表
服
行
业 报
务 分析人员
表
器
劣势: 技术储备要求高
投
业务人员 高昂的硬件投资
资
并行扩展非常困难。
报
对海量的实时多维度分析,基本不能支持。
表
大数据解决方案-分布式数据库(MYSQL)
盈
企业采购数据
收
报
表
材料数据
汇总数据
企业运营数据
ETL处理