大数据基础培训-PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。 • 实时计算:MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远
远好于MapReduce计算框架。
HDFS分布式文件系统
HDFS设计理念 • 大规模数据集
– 横向线性扩展
YARN架构
Client
Client
Client
Client:提交作业
Node Manager
Container
MR App Mstr
Container
Map Task
提交作业
RM:全局资源管理器
Resource Manager (全局资源管理者)
上报节点状态 请求资源
NM:节点上的资源和任务管理器。 A. 上报本节点信息;B. 处理来自 Ma的Container启动/停止请求。
• Spark特点 • 中间结果内存存储 • 合并任务流
HDFS read
HDFS write
HDFS read
HDFS write
iter. 1
iter. 2
...
iter. 1
iter. 2
...
Input
Input
– 轻量级的调度框架和多线程计算模型,极低的调度和启动开销 – 比Hadoop快10x~100x
大数据基础上的简单算法比小数据基础上的复杂算法更加有效
更好:由关注因果关系,转变为关注相关关系
Before:“亚马逊的声音”20多名专业书评家团队,向用户推荐 新书。
Now:个性化推荐系统,通过历史书籍销售信息,结合用户搜索 记录、购物车甚至鼠标悬停时间,挖掘产品、数据之间的相关 性,即时推荐相关书籍给用户。
2008 成为Apache顶级项目
2003-2004 Google发表GFS和 MapReduce论文
2006 Hadoop作为Lucene的子 项目诞生。同年,Doug Cutting加入Yahoo
2009至今 YARN, HBase, Spark, Storm等各类新服务不 断加入
Hadoop分布式集群系统
——百度百科
Bigger Than Bigger—五个大V
数据规模大
处理速度
• 数据量日益增长(Volume) • DC最新数字宇宙研究报告表明,
到2020年,全球数据使用量预计 暴增44倍,达到40ZB
数据种类多
• 多种数据并存(Variety) • 文本/图片/视频/文档等
• 要求数据实时性强(Velocity) • 海量数据的及时有效分析
3. 集群各节点GNode层对执行计划进行 解析和执行。涉及到数据在不同节点 间的搬运、结果汇总等操作通过 GCluster层进行统一调度,GCWare 层在各节点执行过程中对节点状态进 行监控,各节点将最终执行结果发送 至SQL发起节点进行汇总,再通过统 一接口层返回给上层应用。
MPP数据库—高可用性
MPP Cluster database
一个safegroup
node1 T1p1 T1p2 T1p3
node2 T1p1 T1p2 T1p3
node3
数据共3个副本 Replicator/复制引擎
T1p1 T1p2 T1p3
MPP数据库—动态扩展能力
MPP Cluster database
• 通过Safegroup 动态扩展集群节点 • 可以实际扩展到64x3个节点
为什么需要大数据技术?
11
大数据技术架构
数据价 值变现
数据资 产管理
数据交易 数据标准管理
来自百度文库决策分析 数据质量检测
用户画像 数据操作监控
精准营销 数据资源目录
舆情分析 数据安全管理
其它APP 数据价值评价
数据处 理平台
基础数据
元数据
专题库
MPP分布式数据库集群
关联库
全文库
媒体库
……
Hadoop分布式集群
“我们并不知道用户为什么买这些书,计算机也不知道,但我们相 信如果系统运行良好,亚马逊可以做到只会为用户推荐一本书 ,而这本书就是用户打算买的下一本”
探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协, 可以只需要关注“是什么”,而忽略“为什么?”
大数据的价值
市场价值
• 挖掘消费者需求 • 探寻细分市场
实时计算,可以看做集群操作系统。 • 分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用 • 离线计算: MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。 • 内存计算:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算
• 硬件错误是常态
– 复本冗余机制
• 流式数据访问
– 批量读而非随机读
• Master/Slave主从架构
– namenode – datanode
批处理Map/Reduce
• MapReduce是一种并行计算的 框架 – 提供并行计算能力,随着节 点数增加近似线性递增 – 两个核心操作Map和 Reduce
引言—数据or数字?
文本
计算
社交 数据
Data ≠ Digital
网络
传感器 数据
Information
存储
Technology
“基于大数据思维和技术,可以挖掘蕴含在数据冰山下的巨大价值“
提纲
大数据背景知识 大数据技术基础 H3C大数据解决方案 大数据方案建设及应用场景
什么是大数据?
所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达 到撷取、管理、处理并整理成为帮助 企业经营决策更积极目的的资讯
Storm与Hadoop
Storm:流式处理框架,实时的Hadoop。
Hadoop
Storm
在处理方式上Hadoop的MapReduce程序是一批一批进行处理的,等数据增长到 一定的程度的时候,运行一个MapReduce任务,数据处理完成MapReduce任务 结束。而在Storm中如果你运行了一个Topology程序,则该程序会一直处于运行 状态,随时处理发送过来的数据,除非使用命令手动停止Topology程序。
Shared storage:SAN,NAS
disks
数据
MPP数据库Shared Nothing架构
CPU
CPU
memory
Interconnection Network
CPU
CPU
… MPP架构横向扩展最多192个节点
memory
disks
disks
disks
数据
CPU
CPU
memory
disks
– 分而治之的思想“我们统计 一栋楼的人数,可以先数 每一层的人数”
内存计算Spark
•Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基 于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于 MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法
——维基百科
大数据是任何超过了一台计 算机处理能力的数据量
——亚马逊
大小超出常规的数据库工具获取、存 储、管理和分析能力的数据集
——麦肯锡
指无法在一定时间范围内用常规软件工 具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策 力、洞察发现力和流程优化能力来适应 海量、高增长率和多样化的信息资产
技术的进步使样本=总体成为可能,我们不再通过管中 窥豹,而是通过“上帝视角”洞察藏匿在细节中的价值 和真相
PASS
更杂:由关注精确性,转变为接受混杂
• 注重语法规则,关注翻译 逐字逐句的精确性
• Candide项目失败
• 广开言路,接受混杂 • 通过基于质量参差不齐的数十
亿文档的机器学习,获得了最 高质量的翻译效果
更全:由获取抽样样本,转变为获取全体数据 更杂:由关注精确性,转变为接受混杂 更好:由关注因果关系,转变为关注相关关系
更全:由获取抽样样本,转变为获取全体数据
《纸牌屋》的诞生是Netflix从3000万付费用户的数据 中总结收视习惯,并根据对用户喜好的精准分析进行创 作
《纸牌屋》的数据库包含了3000万用户的收视选择、 400万条评论、300万次主题搜索。最终,拍什么、谁 来拍、谁来演、怎么播,都由数千万观众的客观喜好统 计决定,由用户需求决定生产。
数据分布策略
Hash, Range, Random…
MPP数据库—大规模并行计算
上层应用SQL 查询结果 3
1
Node 1
Node 2
Node 3
分布式 执行计划
Session
2 2
2
GCluster
2
Interconnect Network
GCluster
分布式 执行引擎
分布式 管理引擎
GNode
信息流处理
连续计算
分布式远程程序调用
数据库HBase简介
Hbase是分布式面向列存的数据库。 Zookeeper: 本身是分布式的应用程序协调服务,它可以是外 部单独的,HBase集群依赖该组件,将rs节点注 册于zk上,利用zk的高一致性保存系统表的信息 等。 Hbase Master: HBase集群运行在主机上进行管理调度的主进程 (可配置backup master),如分配region, 监听zk上region上下线失效情况等。 Regionserver: 运行在各个机器节点上,负责region(可以认为 是连接真正数据的数据库)的维护,处理真正的 IO请求。 HDFS: Hadoop HDFS为HBase提供了高可靠性的底层 存储支持。
来源真实
• 大数据来自于对现实世界的测 量、、描述(Veracity)
数据价值
• 沙里淘金 • 价值密度低(Value) • 单条数据并无太多价值,但
庞大的数据量蕴含巨大财富
大数据带来生活、工作和思维的变革
大数据开启了一次重大的时代转型。就像望远镜让我们能够感受浩瀚宇宙,显微镜让我们 得以观测绝妙微观,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服 务的源泉。
T1_1 T2_1
GCWare
GNode
T1_2 T2_2
GCWare
GNode
T1_3 T2_3
GCWare
1. 统一接口层收到上层发送的查询请求, 根据指定的集群节点或经过负载均衡 后选出的集群节点,将SQL发送至指 定节点的GCluster层。
2. 收到请求的节点GCluster层负责对 SQL进行词法、语法检查,进行查询 优化,生成分布式执行计划,将生成 的分布式执行计划发送至集群相关节 点的GNode层进行执行。GCWare层 对各节点当前状态进行监控,保证分 布式查询计划可以正确执行。
产品价值
• 产品定制化、个性化 • 快速迭代,响应需求
管理价值
• 挖掘信息,清晰战略 • 优化流程,减少内耗 • 提升决策水平
分析1过0去000+
预测未来 研发工程师 优化决策
服务价值
• 推送贴身产品 • 提升使用体验 • 提供更多、更佳、更优惠
选择
大数据产业链
H3C
H3C
提纲
大数据背景知识 大数据技术基础 H3C大数据解决方案 大数据方案建设及应用场景
• 每个节点可以处理10-20TB有效数据 • 每个节点同时提供计算和存储能力 • Gcware 负责新节点的数据同步
Hadoop分布式集群
Hadoop的发展历程
2002 Apache Nutch诞生
2004-2006 Doug Cutting基于 Google论文实现了自己 的NDFS和MapReduce
数据库 HBase
离线计算
Hive
Pig
批处理 MapReduce
内存计算
Shark
Streaming
内存计算 Spark
分布式文件系统 HDFS
资源管理 YARN
实时计算
流处理 Storm
消息队列 Kafka
Hadoop基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展 到上千台服务器。 • 资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和
数据源 和采集
数据采集
数据清洗
数据转换
数据归并
数据加载
数据转发
非结构化
ERP
CRM
SCM
物联网
网络
服务器
安全
应用
其他数据
MPP分布式数据库集群
传统数据库Shared Disk架构
CPU
CPU
memory
Interconnection Network
CPU
CPU
…
CPU
CPU
memory
memory
远好于MapReduce计算框架。
HDFS分布式文件系统
HDFS设计理念 • 大规模数据集
– 横向线性扩展
YARN架构
Client
Client
Client
Client:提交作业
Node Manager
Container
MR App Mstr
Container
Map Task
提交作业
RM:全局资源管理器
Resource Manager (全局资源管理者)
上报节点状态 请求资源
NM:节点上的资源和任务管理器。 A. 上报本节点信息;B. 处理来自 Ma的Container启动/停止请求。
• Spark特点 • 中间结果内存存储 • 合并任务流
HDFS read
HDFS write
HDFS read
HDFS write
iter. 1
iter. 2
...
iter. 1
iter. 2
...
Input
Input
– 轻量级的调度框架和多线程计算模型,极低的调度和启动开销 – 比Hadoop快10x~100x
大数据基础上的简单算法比小数据基础上的复杂算法更加有效
更好:由关注因果关系,转变为关注相关关系
Before:“亚马逊的声音”20多名专业书评家团队,向用户推荐 新书。
Now:个性化推荐系统,通过历史书籍销售信息,结合用户搜索 记录、购物车甚至鼠标悬停时间,挖掘产品、数据之间的相关 性,即时推荐相关书籍给用户。
2008 成为Apache顶级项目
2003-2004 Google发表GFS和 MapReduce论文
2006 Hadoop作为Lucene的子 项目诞生。同年,Doug Cutting加入Yahoo
2009至今 YARN, HBase, Spark, Storm等各类新服务不 断加入
Hadoop分布式集群系统
——百度百科
Bigger Than Bigger—五个大V
数据规模大
处理速度
• 数据量日益增长(Volume) • DC最新数字宇宙研究报告表明,
到2020年,全球数据使用量预计 暴增44倍,达到40ZB
数据种类多
• 多种数据并存(Variety) • 文本/图片/视频/文档等
• 要求数据实时性强(Velocity) • 海量数据的及时有效分析
3. 集群各节点GNode层对执行计划进行 解析和执行。涉及到数据在不同节点 间的搬运、结果汇总等操作通过 GCluster层进行统一调度,GCWare 层在各节点执行过程中对节点状态进 行监控,各节点将最终执行结果发送 至SQL发起节点进行汇总,再通过统 一接口层返回给上层应用。
MPP数据库—高可用性
MPP Cluster database
一个safegroup
node1 T1p1 T1p2 T1p3
node2 T1p1 T1p2 T1p3
node3
数据共3个副本 Replicator/复制引擎
T1p1 T1p2 T1p3
MPP数据库—动态扩展能力
MPP Cluster database
• 通过Safegroup 动态扩展集群节点 • 可以实际扩展到64x3个节点
为什么需要大数据技术?
11
大数据技术架构
数据价 值变现
数据资 产管理
数据交易 数据标准管理
来自百度文库决策分析 数据质量检测
用户画像 数据操作监控
精准营销 数据资源目录
舆情分析 数据安全管理
其它APP 数据价值评价
数据处 理平台
基础数据
元数据
专题库
MPP分布式数据库集群
关联库
全文库
媒体库
……
Hadoop分布式集群
“我们并不知道用户为什么买这些书,计算机也不知道,但我们相 信如果系统运行良好,亚马逊可以做到只会为用户推荐一本书 ,而这本书就是用户打算买的下一本”
探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协, 可以只需要关注“是什么”,而忽略“为什么?”
大数据的价值
市场价值
• 挖掘消费者需求 • 探寻细分市场
实时计算,可以看做集群操作系统。 • 分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用 • 离线计算: MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。 • 内存计算:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算
• 硬件错误是常态
– 复本冗余机制
• 流式数据访问
– 批量读而非随机读
• Master/Slave主从架构
– namenode – datanode
批处理Map/Reduce
• MapReduce是一种并行计算的 框架 – 提供并行计算能力,随着节 点数增加近似线性递增 – 两个核心操作Map和 Reduce
引言—数据or数字?
文本
计算
社交 数据
Data ≠ Digital
网络
传感器 数据
Information
存储
Technology
“基于大数据思维和技术,可以挖掘蕴含在数据冰山下的巨大价值“
提纲
大数据背景知识 大数据技术基础 H3C大数据解决方案 大数据方案建设及应用场景
什么是大数据?
所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达 到撷取、管理、处理并整理成为帮助 企业经营决策更积极目的的资讯
Storm与Hadoop
Storm:流式处理框架,实时的Hadoop。
Hadoop
Storm
在处理方式上Hadoop的MapReduce程序是一批一批进行处理的,等数据增长到 一定的程度的时候,运行一个MapReduce任务,数据处理完成MapReduce任务 结束。而在Storm中如果你运行了一个Topology程序,则该程序会一直处于运行 状态,随时处理发送过来的数据,除非使用命令手动停止Topology程序。
Shared storage:SAN,NAS
disks
数据
MPP数据库Shared Nothing架构
CPU
CPU
memory
Interconnection Network
CPU
CPU
… MPP架构横向扩展最多192个节点
memory
disks
disks
disks
数据
CPU
CPU
memory
disks
– 分而治之的思想“我们统计 一栋楼的人数,可以先数 每一层的人数”
内存计算Spark
•Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基 于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于 MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法
——维基百科
大数据是任何超过了一台计 算机处理能力的数据量
——亚马逊
大小超出常规的数据库工具获取、存 储、管理和分析能力的数据集
——麦肯锡
指无法在一定时间范围内用常规软件工 具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策 力、洞察发现力和流程优化能力来适应 海量、高增长率和多样化的信息资产
技术的进步使样本=总体成为可能,我们不再通过管中 窥豹,而是通过“上帝视角”洞察藏匿在细节中的价值 和真相
PASS
更杂:由关注精确性,转变为接受混杂
• 注重语法规则,关注翻译 逐字逐句的精确性
• Candide项目失败
• 广开言路,接受混杂 • 通过基于质量参差不齐的数十
亿文档的机器学习,获得了最 高质量的翻译效果
更全:由获取抽样样本,转变为获取全体数据 更杂:由关注精确性,转变为接受混杂 更好:由关注因果关系,转变为关注相关关系
更全:由获取抽样样本,转变为获取全体数据
《纸牌屋》的诞生是Netflix从3000万付费用户的数据 中总结收视习惯,并根据对用户喜好的精准分析进行创 作
《纸牌屋》的数据库包含了3000万用户的收视选择、 400万条评论、300万次主题搜索。最终,拍什么、谁 来拍、谁来演、怎么播,都由数千万观众的客观喜好统 计决定,由用户需求决定生产。
数据分布策略
Hash, Range, Random…
MPP数据库—大规模并行计算
上层应用SQL 查询结果 3
1
Node 1
Node 2
Node 3
分布式 执行计划
Session
2 2
2
GCluster
2
Interconnect Network
GCluster
分布式 执行引擎
分布式 管理引擎
GNode
信息流处理
连续计算
分布式远程程序调用
数据库HBase简介
Hbase是分布式面向列存的数据库。 Zookeeper: 本身是分布式的应用程序协调服务,它可以是外 部单独的,HBase集群依赖该组件,将rs节点注 册于zk上,利用zk的高一致性保存系统表的信息 等。 Hbase Master: HBase集群运行在主机上进行管理调度的主进程 (可配置backup master),如分配region, 监听zk上region上下线失效情况等。 Regionserver: 运行在各个机器节点上,负责region(可以认为 是连接真正数据的数据库)的维护,处理真正的 IO请求。 HDFS: Hadoop HDFS为HBase提供了高可靠性的底层 存储支持。
来源真实
• 大数据来自于对现实世界的测 量、、描述(Veracity)
数据价值
• 沙里淘金 • 价值密度低(Value) • 单条数据并无太多价值,但
庞大的数据量蕴含巨大财富
大数据带来生活、工作和思维的变革
大数据开启了一次重大的时代转型。就像望远镜让我们能够感受浩瀚宇宙,显微镜让我们 得以观测绝妙微观,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服 务的源泉。
T1_1 T2_1
GCWare
GNode
T1_2 T2_2
GCWare
GNode
T1_3 T2_3
GCWare
1. 统一接口层收到上层发送的查询请求, 根据指定的集群节点或经过负载均衡 后选出的集群节点,将SQL发送至指 定节点的GCluster层。
2. 收到请求的节点GCluster层负责对 SQL进行词法、语法检查,进行查询 优化,生成分布式执行计划,将生成 的分布式执行计划发送至集群相关节 点的GNode层进行执行。GCWare层 对各节点当前状态进行监控,保证分 布式查询计划可以正确执行。
产品价值
• 产品定制化、个性化 • 快速迭代,响应需求
管理价值
• 挖掘信息,清晰战略 • 优化流程,减少内耗 • 提升决策水平
分析1过0去000+
预测未来 研发工程师 优化决策
服务价值
• 推送贴身产品 • 提升使用体验 • 提供更多、更佳、更优惠
选择
大数据产业链
H3C
H3C
提纲
大数据背景知识 大数据技术基础 H3C大数据解决方案 大数据方案建设及应用场景
• 每个节点可以处理10-20TB有效数据 • 每个节点同时提供计算和存储能力 • Gcware 负责新节点的数据同步
Hadoop分布式集群
Hadoop的发展历程
2002 Apache Nutch诞生
2004-2006 Doug Cutting基于 Google论文实现了自己 的NDFS和MapReduce
数据库 HBase
离线计算
Hive
Pig
批处理 MapReduce
内存计算
Shark
Streaming
内存计算 Spark
分布式文件系统 HDFS
资源管理 YARN
实时计算
流处理 Storm
消息队列 Kafka
Hadoop基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展 到上千台服务器。 • 资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和
数据源 和采集
数据采集
数据清洗
数据转换
数据归并
数据加载
数据转发
非结构化
ERP
CRM
SCM
物联网
网络
服务器
安全
应用
其他数据
MPP分布式数据库集群
传统数据库Shared Disk架构
CPU
CPU
memory
Interconnection Network
CPU
CPU
…
CPU
CPU
memory
memory