大数据技术的创新与实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Context Independent Data Warehouse 上下文无关联数据仓库
2020/5/4
数据源不断增多,访问和数据同步变得复杂;开 始包括非结构化和半结构化数据;上层业务和使 用部门增多,资源管理和安全控制变得困难。
Logical Data Warehouse 逻辑数据仓库
数据量增大、应用不断增加, 运行沉重缓慢,不堪重负 Scalable Traditional Data Warehouse 可伸缩的云计算架构数据仓库
自主学习
• 产品差异化定价 • 信用风险、催收分析、关联风险
准
决策支持
• 流动性风险实时预警 • 反欺诈(在线欺诈、欺诈网络、索赔欺诈…)
实 时
• 业务数据探索 • 模型测试验证
数据探索与业务预测
• 业务趋势预测 • 客户行为预测(流失预测、精准营销)
• 业务统计报表 • 自助报表分析
离
线
• 生产数据实时与T+1复制
ACRM
Cloudera公布继 HBase以后的第一个 Hadoop原生存储替 代方案——Kudu
5
大数据在金融行业的能力进阶
大数据相关技术 给企业带来更强的数据处理和计算能力,使得
较难实现的需求快速突破了原有技术瓶颈。
实
时
• 无监督深度学习
• 事件触发式自动推理引擎
• 自适应进化演算
• 自然语言理解与虚拟机器人
③ 区块链
2020/5/4
3
数据处理能力快速增长带来的技术变革
新技术在四个维度上快速增加处理能力
大数据量 Volume
高速 Velocity
多样 Variety
准确价值 Veracity
可处理的数据量从TB、PB增加到EB
从离线处理进步到实时数据处理
记录、文本、图片、音频、视频等多种数 据类型 从基于历史的统计,发展到数据挖掘和预 测性分析
2008
雅虎贡献Hadoop 源码 Hadoop成为 Apache顶级项目
2011
Hadoop2.0 发布,引入资 源管理YARN
2013
Spark发布
2015
Spark的流行将 逐渐让 MapReduce、 Tez走进博物馆
Cloudera创始人将 Impala作为交互式SQL 引擎,其他Hadoop组件 迁移到Spark上来
Google发表GFS 论文,第二年发表 MapReduce论文
2004
2003
Hadoop第一 个版本发布
2007
Doung加入 雅虎并开始 部署Hadoop
2006-2008
星环科技核心研发 团队同步开始 Hadoop平台研发
HBase发布
2008
Facebook 开源HIVE
2009
星环科技基于Spark的交互
智慧银行
将数据资产 转化为业务价值
智能化、认知技术
① 数字化->信息可视化->智能化 ② 嵌入式BI->敏捷BI ③ 全员探索 ④ 报表->数理统计->自我学习 ⑤ 认知技术
移动互联
① 移动App ② O2O线上线下融合
云平台、云计算、区块链
① Iaas/Pass/Saas,公有云/私有云
② 虚拟化VS容器技术
7
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
8
传统数据仓库技术面临的挑战
数据处理延时长,无法看到实时运营状况 Operational Data Warehouse 实时数据仓库
企业 数据仓库
原先的逻辑数据模型,不能有效支撑数 据快速分析和价值发现;需要新的方法 发掘数据的统计相关性、因果关系、关 联关系等规律。
大数据技术的创新与实践
2020/5/4
1
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
2
未来有哪些可以巧借的创新技术?
大数据
① 关系型->MPP->Hadoop ② 数据湖、信息水库、数据资产 ③ 数权法、数据交易所
物联网、VR虚拟技术
① 2020年25亿设备联网 ② 自动驾驶 ③ 虚拟技术
批
• 作业数据直接存储
处
理
统计分析 数据存储与联机查询
• 客户细分统计分析、客户户画像
• 支持历史数据在线查询 • 支持明细查询、关键字查询及全文索引
2020/5/4
6
大数据技术的人才Biblioteka Baidu备战略
2020/5/4
Data Scientist 数据科学家
统计学、抽象数学、编程、业务流程等方面的专 家。负责沟通与领导。
Data Engineers 数据分析师
数据、统计软件、统计模型等方面的专家,充分 理解计算机处理“陷阱”或误区。
Business Analyst 业务分析师
利用在线分析处理和多维工具,创建新的业务模型, 部分人员熟悉计算机语言和计算机处理技术。
Casual User 普通用户
定期使用门户和预置接口,较少有设计多维分析 的能力。
9
Hadoop大数据平台应具备的能力
实时数据
CRM
现
ERP
有
业 务
HR
系
统 Finance
……
Kafka
实时接收
ETL 调度
T+0 ~ T+1
非/半结构化数据
社交网络 宏观政策/
经济 其他信息
Flume …
实时推荐 精准营销 实时风控
实时运维预警
审计业务 用户画像 数据仓库
小微贷款 产品差异化定价 担保链分析
仓库与数据管理解 决方案魔力象限, 首次将Hadoop厂 商作为远见者进行 评判
2011
2013
项目,所有 Hadoop发行 版厂商宣布支
持Spark
2016
HADOOP timeline
2006
Google发表 BigTable论文 Apache Hadoop 项目正式成立
2020/5/4
Cloudera 作为第 一个Hadoop发行 版公司成立
real-time
大数据技术的高速发展
interactive
batch
RDBMS
数据处理的软件栈在过去十年中从底向上几乎全部被重写 2020/5/4
EB PB TB
集中式计算 -> 分布式计算
4
Hadoop技术发展与现状
Doung Cutting创 立Nutch搜索项目, 并基于Google论 文实现 DFS / MapReduce
星环科技 公司成立
式SQL引擎(Inceptor)能 稳定处理100TB,支持分布 式事务和存储过程,Spark
2013
技术已经领先于国外同行
Gartner发布数据
Hortonworks 成立,MapR 成立
Greenplum发布 Hadoop版本 Pivotal HD
2014
Spark成为 Apache顶级
2020/5/4
数据源不断增多,访问和数据同步变得复杂;开 始包括非结构化和半结构化数据;上层业务和使 用部门增多,资源管理和安全控制变得困难。
Logical Data Warehouse 逻辑数据仓库
数据量增大、应用不断增加, 运行沉重缓慢,不堪重负 Scalable Traditional Data Warehouse 可伸缩的云计算架构数据仓库
自主学习
• 产品差异化定价 • 信用风险、催收分析、关联风险
准
决策支持
• 流动性风险实时预警 • 反欺诈(在线欺诈、欺诈网络、索赔欺诈…)
实 时
• 业务数据探索 • 模型测试验证
数据探索与业务预测
• 业务趋势预测 • 客户行为预测(流失预测、精准营销)
• 业务统计报表 • 自助报表分析
离
线
• 生产数据实时与T+1复制
ACRM
Cloudera公布继 HBase以后的第一个 Hadoop原生存储替 代方案——Kudu
5
大数据在金融行业的能力进阶
大数据相关技术 给企业带来更强的数据处理和计算能力,使得
较难实现的需求快速突破了原有技术瓶颈。
实
时
• 无监督深度学习
• 事件触发式自动推理引擎
• 自适应进化演算
• 自然语言理解与虚拟机器人
③ 区块链
2020/5/4
3
数据处理能力快速增长带来的技术变革
新技术在四个维度上快速增加处理能力
大数据量 Volume
高速 Velocity
多样 Variety
准确价值 Veracity
可处理的数据量从TB、PB增加到EB
从离线处理进步到实时数据处理
记录、文本、图片、音频、视频等多种数 据类型 从基于历史的统计,发展到数据挖掘和预 测性分析
2008
雅虎贡献Hadoop 源码 Hadoop成为 Apache顶级项目
2011
Hadoop2.0 发布,引入资 源管理YARN
2013
Spark发布
2015
Spark的流行将 逐渐让 MapReduce、 Tez走进博物馆
Cloudera创始人将 Impala作为交互式SQL 引擎,其他Hadoop组件 迁移到Spark上来
Google发表GFS 论文,第二年发表 MapReduce论文
2004
2003
Hadoop第一 个版本发布
2007
Doung加入 雅虎并开始 部署Hadoop
2006-2008
星环科技核心研发 团队同步开始 Hadoop平台研发
HBase发布
2008
Facebook 开源HIVE
2009
星环科技基于Spark的交互
智慧银行
将数据资产 转化为业务价值
智能化、认知技术
① 数字化->信息可视化->智能化 ② 嵌入式BI->敏捷BI ③ 全员探索 ④ 报表->数理统计->自我学习 ⑤ 认知技术
移动互联
① 移动App ② O2O线上线下融合
云平台、云计算、区块链
① Iaas/Pass/Saas,公有云/私有云
② 虚拟化VS容器技术
7
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
8
传统数据仓库技术面临的挑战
数据处理延时长,无法看到实时运营状况 Operational Data Warehouse 实时数据仓库
企业 数据仓库
原先的逻辑数据模型,不能有效支撑数 据快速分析和价值发现;需要新的方法 发掘数据的统计相关性、因果关系、关 联关系等规律。
大数据技术的创新与实践
2020/5/4
1
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
2
未来有哪些可以巧借的创新技术?
大数据
① 关系型->MPP->Hadoop ② 数据湖、信息水库、数据资产 ③ 数权法、数据交易所
物联网、VR虚拟技术
① 2020年25亿设备联网 ② 自动驾驶 ③ 虚拟技术
批
• 作业数据直接存储
处
理
统计分析 数据存储与联机查询
• 客户细分统计分析、客户户画像
• 支持历史数据在线查询 • 支持明细查询、关键字查询及全文索引
2020/5/4
6
大数据技术的人才Biblioteka Baidu备战略
2020/5/4
Data Scientist 数据科学家
统计学、抽象数学、编程、业务流程等方面的专 家。负责沟通与领导。
Data Engineers 数据分析师
数据、统计软件、统计模型等方面的专家,充分 理解计算机处理“陷阱”或误区。
Business Analyst 业务分析师
利用在线分析处理和多维工具,创建新的业务模型, 部分人员熟悉计算机语言和计算机处理技术。
Casual User 普通用户
定期使用门户和预置接口,较少有设计多维分析 的能力。
9
Hadoop大数据平台应具备的能力
实时数据
CRM
现
ERP
有
业 务
HR
系
统 Finance
……
Kafka
实时接收
ETL 调度
T+0 ~ T+1
非/半结构化数据
社交网络 宏观政策/
经济 其他信息
Flume …
实时推荐 精准营销 实时风控
实时运维预警
审计业务 用户画像 数据仓库
小微贷款 产品差异化定价 担保链分析
仓库与数据管理解 决方案魔力象限, 首次将Hadoop厂 商作为远见者进行 评判
2011
2013
项目,所有 Hadoop发行 版厂商宣布支
持Spark
2016
HADOOP timeline
2006
Google发表 BigTable论文 Apache Hadoop 项目正式成立
2020/5/4
Cloudera 作为第 一个Hadoop发行 版公司成立
real-time
大数据技术的高速发展
interactive
batch
RDBMS
数据处理的软件栈在过去十年中从底向上几乎全部被重写 2020/5/4
EB PB TB
集中式计算 -> 分布式计算
4
Hadoop技术发展与现状
Doung Cutting创 立Nutch搜索项目, 并基于Google论 文实现 DFS / MapReduce
星环科技 公司成立
式SQL引擎(Inceptor)能 稳定处理100TB,支持分布 式事务和存储过程,Spark
2013
技术已经领先于国外同行
Gartner发布数据
Hortonworks 成立,MapR 成立
Greenplum发布 Hadoop版本 Pivotal HD
2014
Spark成为 Apache顶级