基于Hadoop与Spark的大数据开发实战
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M.94275.CN
5.2.1 HBase Shell简介
A
5.2.2 HBase Shell的使用
B
5 Hadoop 分布式数据 库
任务3 HBase编程
M.94275.CN
5.3.1 开发HBase 应用程序
A
5.3.2 HBase数据 存储管理API
B
6 Hadoop综合实战——音乐 排行榜
03
11.1.3 Spark SQL简介
11.2.1 Spark SQL编程入口 11.2.3 Data Frame编程实例
11 Spark SQL
任务2 Spark SQL编程基础
11.2.2 Data Frame基础
11.3.1 Spark SQL操作外部 数据源
11.3.3 Spark SQL调优
E
9 Spark基础
任务2 Scala基础
9 Spark基础
9.3.1 下载Spark 源码
A
9.3.2 编译Spark 源码
B
任务3 编译Spark
9 Spark基础
9.4.1 Spark环境 部署
A
9.4.2 sparkshell
B
任务4 Spark初体验
10 Spark Core
10 Spark Core
10 Spark Core
10.2.2 共享 变量
1
2
3
10.2.1 RDD 缓存机制
10.2.3 Spark 架构设计
任务2 RDD高级应用
10 Spark Core
10.3.1 准备工作
A
10.3.2 词频计数实 例
B
10.3.3 年龄统计实 例
C
任务3 基于RDD的Spark应用 程序开发
任务1 Spark RDD
任务2 RDD 高级应用
任务3 基于RDD的 Spark应用程序开
发
本章总结
本章练习
10.1.1 RDD介 绍
A
10.1.2 RDD的 创建
B
10.1.3 RDD的 转换算子
C
10.1.4 RDD的 动作算子
D
10.1.5 RDD的 依赖关系
E
10 Spark Core
任务1 Spark RDD
03
4.1.3 YA R N 架 构
设计
02
4.1.2 YARN 简介
4.2.1 HDFS Name Node 高 可用机制
4.2.3 HDห้องสมุดไป่ตู้S Snapshots
4.2.5 Dist Cp工具
4 Hadoop新特性
任务2 了解HDFS新特性
4.2.2 HDFS Name Node Federation
3 Hadoop分布式计算框架
3 Hadoop分布式计算框架
任务1 认识Map Reduce 编程模型
任务3 Map Reduce高级 应用
本章练习
任务2 Map Reduce应用 开发
本章总结
3.1.1 Map Reduce基础
3.1.3 Map Reduce词频统 计编程实例
3.1.2 Map Reduce编程模 型
6.3.1 程序的结构与实现
6.3.3 Map Reduce全局共 享数据
6.3.2 HBase数据库设计优 化
6 Hadoop综合实战——音乐排行榜
任务3 实现音乐排行榜
7 数据仓库Hive
7 数据仓库Hive
任务1
A
Hive基
础
任务2 掌
B
握Hive
操作
任务3
C
Hive高
级应用
本章
D
总结
本章
E
练习
7.1.1 认识Hive
7.1.3 Hive与Hadoop
7.1.5 Hive数据存储模型
7 数据仓库Hive
任务1 Hive基础
7.1.2 Hive架构设计
7.1.4 Hive与传统关系型数 据库
7.1.6 Hive部署
7 数据仓库Hive
任务2 掌握Hive操作
7.2.1 Hive DDL
1.1.1 大数据基本 概念
A
1.1.2 大数据带来 的挑战
B
任务1 初识大数据
1 Hadoop初体验
1.2.1 Hadoop概述
A
1.2.2 Hadoop生态 圈
B
1.2.3 Hadoop应用 案例
C
任务2 初识Hadoop
1 Hadoop初体验
1.3.1 安装虚拟机
A
1.3.2 安装Linux系 统
C
译Spark
本章
F
练习
9 Spark基础
9.1.2 Spark 优势
1
2
3
9.1.1 Spark 简介
9.1.3 Spark 生态圈
任务1 Spark入门
9.2.1 Scala简介
A
9.2.2 Scala函数 定义
B
9.2.3 Scala面向 对象操作
C
9.2.4 Scala集合 的使用
D
9.2.5 Scala高阶 函数
7.2.2 Hive DML
7.2.3 Hive shell
01
7.3.1 Hive函 数
02
7.3.2 Hive调 优策略
7 数据仓库Hive
任务3 Hive高级应用
8 大数据离线处理辅助系统
8 大数据离线处理辅助系统
任务1 认识并使用数据迁 移框架Sqoop
本章总结
任务2 使用Azkaban实现 工作流调度
4.2.4 HDFS REST API
4 Hadoop新特性
4.3.1 Resource Manager自动重启
A
4.3.2 Resource Manager高可用机制
B
任务3 了解YARN新特性
5 Hadoop分布式数据库
5 Hadoop分布式数据库
任务1 认识 HBase
A
任务2 HBase Shell操作
2020
基于Hadoop与Spark的 大数据开发实战
演讲人 2025-11-11
关于引用作品的版权声明
关于引用作品的版权声 明
1 Hadoop初体验
1 Hadoop初体验
0 1
任务1 初识大
数据
0 2
任务2 初识
Hadoop
0 3
任务3 安装
Hadoop平台
0 4
本章总结
0 5
本章练习
1 Hadoop初体验
附录
附录
感谢聆听
任务3 HBase 编程
BC
本章总结
D
本章练习
E
5 Hadoop 分布式数据 库
任务1 认识HBase
M.94275.CN
5.1.1 HBase简介
5.1.4 HBase 的安装
5.1.2 HBase 体系结构
5.1.3 HBase 数据模型
5 Hadoop 分布式数 据库
任务2 HBase Shell操作
任务3 Map Reduce高级应用
4 Hadoop新特性
4 Hadoop新特性
0 1
任务1 初识
YA R N
0 2
任务2 了解
HDFS新特性
0 3
任务3 了解
YA R N 新 特 性
0 4
本章总结
0 5
本章练习
4 Hadoop新特性
任务1 初识YARN
01
4.1.1 YA R N 产 生
背景
11 Spark SQL
任务3 Spark SQL编程进阶
11.3.2 Spark SQL函数
12 Spark Streaming
12 Spark Streaming
任务1 流处理框架及 Spark Streaming
任务3 Spark Streaming 高级应用
本章练习
任务2 使用Spark Streaming编程
本章总结
12.1.1 流处理框架简介
12.1.2 Spark Streaming简 介
12 Spark Streaming
任务1 流处理框架及Spark Streaming
12 Spark Streaming
任务2 使用Spark Streaming编程
A
12.2.1 Spark Streaming核心
3 Hadoop分布式计算框架
任务1 认识Map Reduce编程模型
3.2.1 Map Reduce输入/输 出类型
3.2.3 Map Reduce输出格 式
3.2.5 Partitioner操作
3.2.2 Map Reduce输入格 式
3.2.4 Combiner操作
3.2.6 自定义Record Reader
M.94275.CN
01
2.1.1 认识 HDFS
03
2.1.3 HDFS 架构
02
2.1.2 HDFS 基础
2 Hadoop 分布式文 件系统
任务2 HDFS基本操作
M.94275.CN
2.2.1 使用HDFS shell访问
A
2.2.2 使用Java API访问
B
2 Hadoop分布式文件系统
3 Hadoop分布式计算框架
任务2 Map Reduce应用开发
3 Hadoop分布式计算框架
1
3.3.1 使用Map Reduce实现 join操作
2
3.3.2 使用Map Reduce实现 排序
3
3.3.3 使用Map Reduce实现 二次排序
4
3.3.4 使用Map Reduce合并 小文件
6 Hadoop综合实战——音乐排行榜
1
任务1 Map Reduce与HBase 的集成
2
任务2 HBase Map Reduce API
3
任务3 实现音乐排行榜
4
本章总结
5
本章练习
6 Hadoop综合实 战——音乐排行榜
任务1 Map Reduce与 HBase的集成
A
6.1.1 Map Reduce与HBase
8 大数据离线处理辅助系统
8.2.1 Azkaba
n概述
8.2.2 Azkaban 环境部署
8.2.3 Azkaban 应用实例
任务2 使用Azkaban实现工作流 调度
9 Spark基础
9 Spark基础
任务1 A Spark入
门
任务4 D Spark初
体验
任务2
B
Scala基
础
本章
E
总结
任务3 编
11 Spark SQL
11 Spark SQL
任务1 认识 Spark SQL
A
任务2 Spark SQL编程基础
任务3 Spark SQL编程进阶
BC
本章总结
D
本章练习
E
01 11.1.1 SQL
11 Spark SQL
任务1 认识Spark SQL
02
11.1.2 SQL on Hadoop 框架
2.3.1 HDFS读 写流程
2.3.3 HDFS负 载均衡
2.3.2 HDFS副 本机制
2.3.4 HDFS机 架感知
任务3 HDFS运行原理
2.4.1 Hadoop序列化机制
2.4.3 Map File
2.4.2 Sequence File
2 Hadoop分布式文件系统
任务4 HDFS高级知识
的集成环境
6.1.2 批量数据导 入(Bulk
Loading)
B
6 Hadoop 综合实 战——音 乐排行榜
任务2 HBase Map Reduce API
M.94275.CN
6.2.1 HBase Map Reduce API 简介
6.2.2 Table Mapper的使用
6.2.3 Table Reducer的使用
12.2.2 Spark Streaming编程实
例
B
12 Spark Streami ng
任务3 Spark Streaming高级应用
M.94275.CN
壹
12.3.1 使用Spark Streaming整合Flume
贰
12.3.2 使用Spark Streaming整合Kafka
叁
12.3.3 Spark Streaming优化策略
本章练习
8.1.1 Sqoop简介
8.1.3 使用Sqoop导出 HDFS数据到My SQL
8.1.5 Sqoop Job
8.1.2 使用Sqoop导入My SQL数据到HDFS
8.1.4 使用Sqoop导入My SQL数据到Hive
8 大数据离线处理辅助系统
任务1 认识并使用数据迁移框架Sqoop
B
1.3.3 安装Hadoop 伪分布式环境
C
任务3 安装Hadoop平台
2 Hadoop分布式文件系统
2 Hadoop分布式文件系统
任务1
A
HDFS入
门
任务4
D
HDFS高
级知识
任务2
B
HDFS基
本操作
本章
E
总结
任务3
C
HDFS运
行原理
本章
F
练习
2 Hadoop 分布式文件 系统
任务1 HDFS入门
5.2.1 HBase Shell简介
A
5.2.2 HBase Shell的使用
B
5 Hadoop 分布式数据 库
任务3 HBase编程
M.94275.CN
5.3.1 开发HBase 应用程序
A
5.3.2 HBase数据 存储管理API
B
6 Hadoop综合实战——音乐 排行榜
03
11.1.3 Spark SQL简介
11.2.1 Spark SQL编程入口 11.2.3 Data Frame编程实例
11 Spark SQL
任务2 Spark SQL编程基础
11.2.2 Data Frame基础
11.3.1 Spark SQL操作外部 数据源
11.3.3 Spark SQL调优
E
9 Spark基础
任务2 Scala基础
9 Spark基础
9.3.1 下载Spark 源码
A
9.3.2 编译Spark 源码
B
任务3 编译Spark
9 Spark基础
9.4.1 Spark环境 部署
A
9.4.2 sparkshell
B
任务4 Spark初体验
10 Spark Core
10 Spark Core
10 Spark Core
10.2.2 共享 变量
1
2
3
10.2.1 RDD 缓存机制
10.2.3 Spark 架构设计
任务2 RDD高级应用
10 Spark Core
10.3.1 准备工作
A
10.3.2 词频计数实 例
B
10.3.3 年龄统计实 例
C
任务3 基于RDD的Spark应用 程序开发
任务1 Spark RDD
任务2 RDD 高级应用
任务3 基于RDD的 Spark应用程序开
发
本章总结
本章练习
10.1.1 RDD介 绍
A
10.1.2 RDD的 创建
B
10.1.3 RDD的 转换算子
C
10.1.4 RDD的 动作算子
D
10.1.5 RDD的 依赖关系
E
10 Spark Core
任务1 Spark RDD
03
4.1.3 YA R N 架 构
设计
02
4.1.2 YARN 简介
4.2.1 HDFS Name Node 高 可用机制
4.2.3 HDห้องสมุดไป่ตู้S Snapshots
4.2.5 Dist Cp工具
4 Hadoop新特性
任务2 了解HDFS新特性
4.2.2 HDFS Name Node Federation
3 Hadoop分布式计算框架
3 Hadoop分布式计算框架
任务1 认识Map Reduce 编程模型
任务3 Map Reduce高级 应用
本章练习
任务2 Map Reduce应用 开发
本章总结
3.1.1 Map Reduce基础
3.1.3 Map Reduce词频统 计编程实例
3.1.2 Map Reduce编程模 型
6.3.1 程序的结构与实现
6.3.3 Map Reduce全局共 享数据
6.3.2 HBase数据库设计优 化
6 Hadoop综合实战——音乐排行榜
任务3 实现音乐排行榜
7 数据仓库Hive
7 数据仓库Hive
任务1
A
Hive基
础
任务2 掌
B
握Hive
操作
任务3
C
Hive高
级应用
本章
D
总结
本章
E
练习
7.1.1 认识Hive
7.1.3 Hive与Hadoop
7.1.5 Hive数据存储模型
7 数据仓库Hive
任务1 Hive基础
7.1.2 Hive架构设计
7.1.4 Hive与传统关系型数 据库
7.1.6 Hive部署
7 数据仓库Hive
任务2 掌握Hive操作
7.2.1 Hive DDL
1.1.1 大数据基本 概念
A
1.1.2 大数据带来 的挑战
B
任务1 初识大数据
1 Hadoop初体验
1.2.1 Hadoop概述
A
1.2.2 Hadoop生态 圈
B
1.2.3 Hadoop应用 案例
C
任务2 初识Hadoop
1 Hadoop初体验
1.3.1 安装虚拟机
A
1.3.2 安装Linux系 统
C
译Spark
本章
F
练习
9 Spark基础
9.1.2 Spark 优势
1
2
3
9.1.1 Spark 简介
9.1.3 Spark 生态圈
任务1 Spark入门
9.2.1 Scala简介
A
9.2.2 Scala函数 定义
B
9.2.3 Scala面向 对象操作
C
9.2.4 Scala集合 的使用
D
9.2.5 Scala高阶 函数
7.2.2 Hive DML
7.2.3 Hive shell
01
7.3.1 Hive函 数
02
7.3.2 Hive调 优策略
7 数据仓库Hive
任务3 Hive高级应用
8 大数据离线处理辅助系统
8 大数据离线处理辅助系统
任务1 认识并使用数据迁 移框架Sqoop
本章总结
任务2 使用Azkaban实现 工作流调度
4.2.4 HDFS REST API
4 Hadoop新特性
4.3.1 Resource Manager自动重启
A
4.3.2 Resource Manager高可用机制
B
任务3 了解YARN新特性
5 Hadoop分布式数据库
5 Hadoop分布式数据库
任务1 认识 HBase
A
任务2 HBase Shell操作
2020
基于Hadoop与Spark的 大数据开发实战
演讲人 2025-11-11
关于引用作品的版权声明
关于引用作品的版权声 明
1 Hadoop初体验
1 Hadoop初体验
0 1
任务1 初识大
数据
0 2
任务2 初识
Hadoop
0 3
任务3 安装
Hadoop平台
0 4
本章总结
0 5
本章练习
1 Hadoop初体验
附录
附录
感谢聆听
任务3 HBase 编程
BC
本章总结
D
本章练习
E
5 Hadoop 分布式数据 库
任务1 认识HBase
M.94275.CN
5.1.1 HBase简介
5.1.4 HBase 的安装
5.1.2 HBase 体系结构
5.1.3 HBase 数据模型
5 Hadoop 分布式数 据库
任务2 HBase Shell操作
任务3 Map Reduce高级应用
4 Hadoop新特性
4 Hadoop新特性
0 1
任务1 初识
YA R N
0 2
任务2 了解
HDFS新特性
0 3
任务3 了解
YA R N 新 特 性
0 4
本章总结
0 5
本章练习
4 Hadoop新特性
任务1 初识YARN
01
4.1.1 YA R N 产 生
背景
11 Spark SQL
任务3 Spark SQL编程进阶
11.3.2 Spark SQL函数
12 Spark Streaming
12 Spark Streaming
任务1 流处理框架及 Spark Streaming
任务3 Spark Streaming 高级应用
本章练习
任务2 使用Spark Streaming编程
本章总结
12.1.1 流处理框架简介
12.1.2 Spark Streaming简 介
12 Spark Streaming
任务1 流处理框架及Spark Streaming
12 Spark Streaming
任务2 使用Spark Streaming编程
A
12.2.1 Spark Streaming核心
3 Hadoop分布式计算框架
任务1 认识Map Reduce编程模型
3.2.1 Map Reduce输入/输 出类型
3.2.3 Map Reduce输出格 式
3.2.5 Partitioner操作
3.2.2 Map Reduce输入格 式
3.2.4 Combiner操作
3.2.6 自定义Record Reader
M.94275.CN
01
2.1.1 认识 HDFS
03
2.1.3 HDFS 架构
02
2.1.2 HDFS 基础
2 Hadoop 分布式文 件系统
任务2 HDFS基本操作
M.94275.CN
2.2.1 使用HDFS shell访问
A
2.2.2 使用Java API访问
B
2 Hadoop分布式文件系统
3 Hadoop分布式计算框架
任务2 Map Reduce应用开发
3 Hadoop分布式计算框架
1
3.3.1 使用Map Reduce实现 join操作
2
3.3.2 使用Map Reduce实现 排序
3
3.3.3 使用Map Reduce实现 二次排序
4
3.3.4 使用Map Reduce合并 小文件
6 Hadoop综合实战——音乐排行榜
1
任务1 Map Reduce与HBase 的集成
2
任务2 HBase Map Reduce API
3
任务3 实现音乐排行榜
4
本章总结
5
本章练习
6 Hadoop综合实 战——音乐排行榜
任务1 Map Reduce与 HBase的集成
A
6.1.1 Map Reduce与HBase
8 大数据离线处理辅助系统
8.2.1 Azkaba
n概述
8.2.2 Azkaban 环境部署
8.2.3 Azkaban 应用实例
任务2 使用Azkaban实现工作流 调度
9 Spark基础
9 Spark基础
任务1 A Spark入
门
任务4 D Spark初
体验
任务2
B
Scala基
础
本章
E
总结
任务3 编
11 Spark SQL
11 Spark SQL
任务1 认识 Spark SQL
A
任务2 Spark SQL编程基础
任务3 Spark SQL编程进阶
BC
本章总结
D
本章练习
E
01 11.1.1 SQL
11 Spark SQL
任务1 认识Spark SQL
02
11.1.2 SQL on Hadoop 框架
2.3.1 HDFS读 写流程
2.3.3 HDFS负 载均衡
2.3.2 HDFS副 本机制
2.3.4 HDFS机 架感知
任务3 HDFS运行原理
2.4.1 Hadoop序列化机制
2.4.3 Map File
2.4.2 Sequence File
2 Hadoop分布式文件系统
任务4 HDFS高级知识
的集成环境
6.1.2 批量数据导 入(Bulk
Loading)
B
6 Hadoop 综合实 战——音 乐排行榜
任务2 HBase Map Reduce API
M.94275.CN
6.2.1 HBase Map Reduce API 简介
6.2.2 Table Mapper的使用
6.2.3 Table Reducer的使用
12.2.2 Spark Streaming编程实
例
B
12 Spark Streami ng
任务3 Spark Streaming高级应用
M.94275.CN
壹
12.3.1 使用Spark Streaming整合Flume
贰
12.3.2 使用Spark Streaming整合Kafka
叁
12.3.3 Spark Streaming优化策略
本章练习
8.1.1 Sqoop简介
8.1.3 使用Sqoop导出 HDFS数据到My SQL
8.1.5 Sqoop Job
8.1.2 使用Sqoop导入My SQL数据到HDFS
8.1.4 使用Sqoop导入My SQL数据到Hive
8 大数据离线处理辅助系统
任务1 认识并使用数据迁移框架Sqoop
B
1.3.3 安装Hadoop 伪分布式环境
C
任务3 安装Hadoop平台
2 Hadoop分布式文件系统
2 Hadoop分布式文件系统
任务1
A
HDFS入
门
任务4
D
HDFS高
级知识
任务2
B
HDFS基
本操作
本章
E
总结
任务3
C
HDFS运
行原理
本章
F
练习
2 Hadoop 分布式文件 系统
任务1 HDFS入门