基于分布式架构的大数据商业建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据文件系统层 HDFS文件系统,消息队列,磁盘文件系统及数据库文件
系统
计算层
提供数据处理、计算的框架和方式 Hadoop, Spark, Storm等 Oracle、Mysql等传统数据库提供了对结构化数据管理 与处理的整套方法
Graphlab 图处理并行
框架
Nimbus, Supervisor,
Worker
Storm实时流 计算框架
Oracle Mysql
等关 系型 数据库
Redis 等非 结构 化数 据库
各种操作 系统函数
调度 与封装
Spark
Graphlab Storm 数据库 操作系统API
HDFS分布式文件系统
消息队列 碰盘文件系统
大数据整体解决方案: 获取 – 存储 – 整合 – 分析 – 可视化
来自百度文库服务化
一切皆服务 (SaaS, PaaS, IaaS, DaaS, MaaS)
实用化
描述性分析 – 预测性分析 – 诊断性分析
云端化
一切服务皆为云 (所有企业数据和分析最
终都会转移到云端)
低成本化
降低“去IOE”运动的 技术及成本门槛
大数据商业建模与应用的挑战
构建消费者 完整兴趣图谱
01
02
打通互联网 和移动互联网
多维度数据 处理与实时计算
03
04
用户隐私 相关法律完善
目录
1 前言 2 大数据战略与应用创新 3 大数据建模技术架构 4 大数据建模应用场景
技术架构概要
大数据时代的到来,数据的量、源都发生了剧烈变化,这种变化引发了变革,开源运动 的进一步发展为这场变革提供了催化剂。
可视化数据操作平台
业务流程全生命周期管理
业务价值挖掘建模
数据访问 资源管控(YARN/MESOS)
分布式存储(磁盘及内存) 数据获取
ACL )
安
全监
(
认 证
控 配
安 装 及
权置云
限及服
报务
警
大数据应用 大数据管理 大数据技术
数据管理层说明
数据层 模型层 需求层
数据管理层
操作系统层
硬件之上第一层,Linux, Unix,Windows 所有建模工具,数据管理与处理系统都依赖于此
Java C、C++ SQL Weka
SAS Processing
计算层提供的Java、C、C++、Python等的API,以及已知的对这些API的封装的开源软件, 如:Rhadoop,Rhive,SparkR、Hadoop Streaming
数 据 管 理 层
计算层
数据文件 系统层
Giraph Zoo Kee Hive
1988
大
决策 支持
数据 仓库
数据 挖掘
数据可 视化
数 据
关系型 数据库
1970
联机 分析
1993
商务 智能
数据 开放
全球的大数据产业和生态系统已经形成并初具规模
全球大数据生态格局
基础
Hadoop: Cloudera HortonWork MapR
NoSQL: Cloudant Couchbase
Pig Mahout
per
Hbase
Map-Reduce计 算框架
Hadoop
Spark Sql
Spark Streamin
g
Mlib Machine Learning
GraphX Graph Processi
ng
Graphlab Procmodel
Graphlab C++API
Spark流计算框架
数据
数据市场: bluekai DataMarket factual Azure Marketplace
数据源: quandl premise xignite plaid
开源其他
Zookeeper, Pentaho Talend
中国大数据生态的六大趋势
应用化
从投入基础设施转向 可执行的分析与应用
整体化
基于分布式架构的大数据商业建模
Big Data Practitioner
目录
1 前言 2 大数据战略与应用创新 3 大数据建模技术架构 4 大数据建模应用场景
大数据的核心 — 预测
预测
• 数据
多样, 多数据源,且高质量
• 模型
统计模型、机器学习为主 广泛的交叉比对
• 预测
分析事件发生的可能性 大量高质量数据 + 模型
大数据 vs 小数据
数据源 数据结构 样本筛选 关联和因果
时效性 应用重点
大数据
多种数据源,打破数据孤岛 非结构化数据为主 用全部数据作为样本 更重视关联关系 实时性要求高 洞察历史,预测未来
小数据
单一数据源 结构化数据为主
随机抽样 更重视因果关系
实时性要求低 当前业务流转
数据应用演进路线
1940
日志: splunk loggly
开源数据库
HBase, MongoDB CouchBase, Neo4J
应用
广告: eXelate DataXu
营销: Lattice Gainsight
金融: Zestfinance Lendup
教育: Panorama Knewton
开源计算
Mahout, Wabbit GraphLab, R
数据管理: Oceansync Datadog
数据安全与存储: Stormpath Nimblestorage
开源框架
Hadoop, Yarn Storm, Spark
分析
平台: databricks dataspora
非结构化: Palantir Quid
可视化: visual.ly actuate
大数据分析引擎(BAE)
大数据采集
业务数据汇集系统 用户行为数据采集系统 互联网公开数据抓取系统
大数据清洗
业务数据清洗系统 用户行为数据清洗系统 互联网公开数据清洗系统
大数据标准化
用户多重ID归一化系统
商品归一化系统
大数据结构化
用户标签管理系统
商品标签管理系统
数据全生命周期管理
百分点大数据底层技术平台
操作系统层
Linux、Unix操作系统
Windows操作系统
大数据产品全景图
微信商城 个性化
系统
电子商城 个性化
系统
移动商城 个性化
系统
媒体网站 个性化
系统
在线营销 支持系统
门店营销 支持系统
会员营销 支持系统
全网市场 监控系统
舆情管家
商情管家
用户洞察 系统
个性化推荐引擎(BRE)
自动化营销引擎(BME)
下面重点探讨商业模型技术架构如何应对这种变化:
大数据解决方案
电商
互联网 媒体
线下 零售
运营商 金融
大数据应用
大数据管理 大数据技术
旅游
广电
家电 制造
汽车
大数据商业建模技术架构图
需
求 业务应用云
层
模型与
可视化层
模 分析工具
型
层
层 接口层
统计模型
最优化模型
营销模型 机器学习与数据挖掘模型
可视化
R Python Scala