大数据课程分类

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据课程:

基础阶段:L i n u x、D o c k e r、K V M、M y S Q L基础、O r a c l e基础、M o n g o D B、r e d i s。

h a d o o p m a p r e d u c e h d f s y a r n:h a d o o p:H a d o o p概念、版本、历史,H D F S工作原理,Y A R N介绍及组件介绍。

大数据存储阶段:h b a s e、h i v e、s q o o p。

大数据架构设计阶段:F l u m e分布式、Z o o k e e p e r、K a f k a。

大数据实时计算阶段:M a h o u t、S p a r k、s t o r m。

大数据数据采集阶段:P y t h o n、S c a l a。

大数据商业实战阶段:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。

大数据之L i n u x+大数据开发篇

2

5353

大数据之数据挖掘\分析&机器学习篇

大数据之运维、云计算平台篇

大数据之P B级别性能优化篇

大数据之J a v a企业级核心技术篇课程一、大数据运维之L i n u x基础

本部分是基础课程,帮大家进入大数据领域打好L i n u x基础,以便更好地学习H a d o o p,h b a s e,N o S Q L,S p a r k,S t o r m,d o c k e r,o p e n s t a c k 等众多课程。因为企业中的项目基本上都是使用L i n u x环境下搭建或部署的。

1)L i n u x系统概述

2)系统安装及相关配置3)L i n u x网络基础

4)O p e n S S H实现网络安全连接

5)v i文本编辑器6)用户和用户组管理

7)磁盘管理

8)L i n u x文件和目录管理9)L i n u x终端常用命令10)l i n u x系统监测与维护

课程二、大数据开发核心技术-H a d o o p 2.x从入门到精通本课程是整套大数据课程的基石:其一,分布式文件系统H D F S用于存储海量数据,无论是H i v e、H B a s e或者S p a r k数据存储在其上面;

其二是分布式资源管理框架Y A R N,是H a d o o p云操作系统(也称数据系统),管理集群资源和分布式数据处理框架M a p R e d u c e、S p a r k应用的资源调度与监控;分布式并行计算框架M a p R e d u c e目前是海量数据并行处理的一个最常用的框架。H a d o o p2.x的编译、环境搭建、H D F S S h e l l使用,Y A R N集群资源管理与任务监控,M a p R e d u c e编程,分布式集群的部署管理(包括高可用性H A)必须要掌握的。

2. 2.

1)大数据应用发展、前景2)H a d o o p 2.x概述及生态系统

3)H a d o o p 2.x环境搭建与测试1)H D F S文件系统的架构、功能、设计

2)H D F S J a v a A P I使用

3)Y A R N架构、集群管理、应用监控

4)M a p R e d u c e编程模型、

S h u f f l e过程、编程调优

2.

1)分布式部署H a d o o p 2.x 2)分布式协作服务框架

Z o o k e e p e r

3)H D F S H A架构、配置、测试

4)H D F S 2.x中高级特性5)Y A R N H A架构、配置

6)H a d o o p主要发行版本(C D H、H D P、A p a c h e)1)以【北风网用户浏览日志】数据进行实际的分析2)原数据采集3)数据的预处理(E T L)4)数据的分析处理(M a p R e d u c e)

课程三、大数据开发核心技术-大数据仓库H i v e精讲

h i v e是基于H a d o o p的一个数据仓库工具,可以将结构化的数据文件

映射为一数据库表,并提供简单的s q l查询功能,可以将s q l语句转换为M a p R e d u c e任务进行运行。其优点是学习成本低,可以通类S Q L

语句快速实现简单的M a p R e d u c e统计,不必开发专门的M a p R e d u c e应用,十分适合数据仓库的统计分析。

1)H i v e功能、体系结构、使用场景

2)H i v e环境搭建、初级使用

3)H i v e原数据配置、常见交互方式1)H i v e中的部表、外部表、分区表

2)H i v e数据迁移

3)H i v e常见查询(s e l e c t、w h e r e、d i s t i n c t、j o i n、

g r o u p b y)

4)H i v e置函数和U D F编程

1)H i v e数据的存储和压缩

2)H i v e常见优化(数据倾斜、压缩等)1)依据业务设计表

2)数据清洗、导入(E T L)3)使用H i v e Q L,统计常见的指标

课程四、大数据协作框架-S q o o p/F l u m e/O o z i e精讲S q o o p是一款开源的工具,主要用于在H a d o o p(H i v e)与传统的数据库(m y s q l、p o s t g r e s q l...)间进行数据的传递,可以将一个关系型数据库(例如:M y S Q L,O r a c l e ,P o s t g r e s等)中的数据导进到关系型数据库中。S q o o p项目开始于2009年,最早是作为H a d o o p的一个第

相关文档
最新文档