大数据自助式分析解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


加强交通建设管理,确保工程建设质 量。18:49:1618:49:1618:49Friday, Oct ober 16, 2020

安全在于心细,事故出在麻痹。20.10.1620.10.1618:49:1618:49:16Oct ober 16, 2020

踏实肯干,努力奋斗。2020年10月16日下午6时49分 20.10.1620.10.16
其他 使用
HADOOP优势
-丰富的组件
Ambari/Cloudera Manager
Hue
BigTop
Shark
Flume
Hcatalog
HttpFs
Sqoo p
Map Reduc
e
Storm
Spark
Mesos
Tez
Chukw a
Pig
HBase
Cassandr a
Accumul o
Hive
Impal a
大数据&自助式分析解决方案
议程
• 大数据解决方案 • hadoop的优势 • 实际过往案例 • 自助式分析方案
大数据企业品牌腾飞的“肾上腺素”
Petabyte s
网页点击 流
Wikis/博 客
传感器
/RFID/ 设备
Terabyt
广
es

移 动
协协作作 电电子子商商 务务
Gigaby tes
Megab ytes
实际案例一 智慧能源
背景简介
大数据存储 (10)
交换机数据源 监控设备数据源
数据流
数据接入程 序
异常存储(2) redis
mysql(4) 数据仓库
分析
多维度存储

据 服
应用

其他
存储
服务
使用
实际案例二 互联网舆情
背景:
客户需要对互联网金融服务的服务企业和相关行业做到实时监控,并有效的挖掘互联网上的客户资源。 数据已非结构化数据为主
大数据解决方案 -业内通用解决方案(HADOOP/SPARK)
优势:
zookeeper集
技术人才储备多
企业 内部

硬件投资成本可以控制
作业调 度
决策分 析
并行扩展比较方便
系统
后期结合业务开发,实现稳定
数据
HB Hiv
并行管
多维查
ase e


互联 网
E HADOOP
T
数据分 析
图表展 示
L
Stor m

告警数据
超过20
H件adoop组大数据基础组件
单个数据节点,热数据不要超 过1T
MPI
需要40个维度以上,复杂 数据挖掘与分析
匹配数据内存与CPU
节点计算公式
单个节点
内存
8G-16G
CPU 数据提取能力(M/分钟) 数据处理量预计维度10个(M/分钟) 处理步骤复杂度 数据网络与数据交换系数
处理为1G,预计时间(分钟) =(1024/D5)+(1024/D6)*D7*D8
Source Systems
Oracle/Mysql Analysis Server
Business Insights Interactive Reports Performance Scorecards
组件选型标准
重要组件选择标准
节点数量设计标准
Redis组 是否有基础分析实时监控 单个Redis节点数据容量不要
Mahou t
RHadoo p
Phoenix Drill
Girap h
Hama
Search Whirr
YARN:分布式操作系统
Avro
WebHdfs
HDFS:分布式存储
Zookeep er
HADOOP优势
-完善的处理流程
平台管理层
Hive (数据分析)
上层应用
Pig (数据分析)
Map Reduce (编程模型)

好的事情马上就会到来,一切都是最 好的安 排。下 午6时49分16秒 下午6时49分18:49:1620.10.16

一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1618:4918:49:1618:49:16Oct -20

牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五6时49分 16秒Fri day, Oct ober 16, 2020
• 结构化、半结构化、非结构化数据的处理能力

树立质量法制观念、提高全员质量意 识。20.10.1620.10.16Friday, Oct ober 16, 2020

人生得意须尽欢,莫使金樽空对月。18:49:1618:49:1618:4910/16/2020 6:49:16 PM

安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1618:49:1618:49Oct -2016-Oct -20
现在:
客户平台构成:Hadoop(40)+oracle(4)+mpi(6) 每天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。
企业数据及商业智能平台的进化
-某国企统计分析
话单数据源 LBS数据源 网络数据源 其他数据源
大数据存储 (40)
MPI密集分布式 计算(6)
存储
分析



✓角色>云计算,数据模型设计

骨髓
硬件存储和计算能力
✓举例>Hadoop,HPCC和NoSQL等 ✓角色>硬件平台,集群部署
大数据平台总体架构
Big Data Sources (Raw,
Unstructured)
Sensors Devices
Bots
redis
Crawlers
Alerts, Notifications
-互联网舆情
类结构化数据
非结构化数据源 (新闻,博客,
BBS,微博)
数据流(图像、 视频)
大数据存储(15)
Hdfs,Hbase, MapReduce
hive
存储
分析
oracle
数据仓库

据 服
应用

其他
服务
使用
实际案例三 大型国企
背景:
客户是一个省级运营商,需要对历史的客户话单,LBS,流量信息进行分析。 数据维度非常多,需要综合考虑的数据量比较大。
企业采购数据 企业运营数据 企业收入数据 企业支出数据
ETL处理 ETL处理 ETL处理 ETL处理
相关行业数据
ETL处理
材料数据 产品数据 合同数据 盈收数据
汇总数据 结构数据 计算数据 预测数据
ORACLE ORACLE
ORACLE ORACLE


优势: 技术人才可以复用。
报 表
决策人员

支撑总数据量100TB,且100GB以下数据实时多维度数据的分析。 开发效率比较高。

相信相信得力量。20. 10. 162020年10月16日星期五6 时49分1 6秒20. 10. 16
谢谢大家!

追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午6时49分 16秒18:49:1620.10.16

严格把控质量关,让生产更加有保障 。2020年10月 下午6时 49分20.10.1618:49Oct ober 16, 2020

作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五6时49分16秒 18:49:1616 Oct ober 2020
数据已结构化数据为主
现在:
新平台改造:Hadoop(10)+redis(2)+mysql(4)
硬件故障从原来的半小时监控,提升到现在,故障预先告警,发生故障的2分钟告警到用户,分析决策 效率大大提高
支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据2000条
每天处理数据量实时数据200G,历史综合数据1T。
Ambari (平台管理)
Zookeeper (平台配置与调度)
Hcatalog (元数据管理)
Sqoop (数据集成)
HBase (数据存储)
HDFS (文件存储)
应用数据
数据库
日志
其他数据源
HADOOP优势
-
实际案例一 智慧能源
背景:
客户原来是从事硬件研发,每年营业额在5000万左右,随着企业规模的扩展,领导觉得对硬件设备 的故障告警不够及时。对现有的历史数据没法进行数据整合与挖掘。导致决策迟缓,故障不能够预设 告警。
开发成本比较低。

产品稳定,后期维护简单。
计 报
用 管理人员



业 报
务 分析人员


劣势: 技术储备要求高

业务人员 高昂的硬件投资

并行扩展非常困难。

对海量的实时多维度分析,基本不能支持。

大数据解决方案-分布式数据库(MYSQL)

企业采购数据



材料数据
汇总数据
企业运营数据
ETL处理
数据仓库

应用
oracle


其他
服务
使用
大数据解决方案
-大数据的一些疑问
数据构成?
数据运算维度数量?
Hadoop = Big Data?
思想
业务创新和算法能力
✓举例>决策分析,销售分析,为企业的整体发展战略创造价值 ✓角色>数据挖掘,决策分析,销售分析
血液
数据建模和管理能力
“ 大 数

✓举例>成熟的分析、视觉化以及数据管理的全新生态系统
2.5Ghz 480 35 2.4 1.4
100.4373333
1G数据,期望完成时间(分钟) 需要节点数 =D9/D11
10 10.04373333
总结
• 大数据解决方案:
• 业务能力:
• 访问任意数据源(关系型数据库、Hadoop、非结构化数据) 的数据整合平台
• 低成本的数据价值洞察平台
• 技术能力:

产品数据
结构数据


企业收入数据
ETL处理
合同数据
计算数据

企业支出数据
盈收数据
预测数据


存储引擎接口
报 表
MYSQL MYSQL
存储引擎
MYSQL MYSQL
MYSQL MYSQL
优势: 技术人才储备可以部分复用。 硬件投资成本可以控制。 并行扩展比较方便。
劣势: 需要更高端的架构师。 海量数据的处理架构需要重新开发。 后期技术实现,维护成本高。
Ma hou
t
百度文库
数据挖 掘
报表统 计
劣势:
......
动态报 表
......
HDFS
需要专业的方向性人才处理 HDFS STORM MAHOUT
朱成 保
企业数据及商业智能平台的进化
-未来
OA
大数据存储
数据仓库
分析
CRM
ERP 视频、语音、图
片......
数据流
存储

数据集市
据 服
应用

多维度存储 服务
现在:
我公司提供相关互联网数据的爬取,并对数据初步ETL后,传入到客户。 客户平台构成:Hadoop(15)+oracle(2) 可以30分钟左右监控指定贷款客户的互联网 舆情。 可以对地区与行业进行综合评估与预测 每天发送到客户数据100G,每天分析数据维度40个,综合处理1T数据。
企业数据及商业智能平台的进化
Oracle/Mysql StreamInsight
MMPMIPIPI
MapReduce
...
Hadoop Cluster
Oracle/Mysql FTDW Data Marts
Oracle/Mysql Reporting Services
strom
ETL with SSIS, DQS, MDS
ERP CRM LOB APPS
ERP/CRM

联系人

订单跟



销售管



数据复杂度:多元性和速度
社交网 络
音频/视 频 WWeebb 22..00
WWeebb 日日志志 数数字字市市 场场 搜搜索索市市 场场 网网上上推推 荐荐
Big Data
日志文件 空间 & GPS 坐标数 据 数据集市 电子政务 气候 文本/图像
大数据解决方案-大型数据库(ORACLE)
相关文档
最新文档