大数据Spark案例及实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据Spark案例及实践
目录
1 培训老师简介
1
大数据技术框架
2 Hardoop与Spark生态系统
2
Hadoop与Spark生态系统
3 五天培训内容简介
4 3 培训思考课程内容安排
44
培训老师介绍:
董西成
硕士毕业于中国科学院(计算技术研究所); 目前就职于hulu(北美著名在线视频公司); 董西成 2009年开始接触hadoop,在hadoop之上进行了大 量定制和二次开发;
三节点Hadoop集群搭建 1.hadoop安装包上传至虚拟机用户根目录 2.根目录解压缩hadoop安装包 3.配置环境变量 4.修改Hadoop配置文件 5.将master上已经配置完的hadoop文件夹拷 贝到slave01, slave02的用户根目录上 6.将master上的~/.bash_profile文件拷贝到其 它两个虚拟机上 7.分别在master, slave01, slave02上执行:
五天培训内容简介
第2天(Spark SQL)
Spark SQL基础 Spark案例
Spark SQL 与DataFrame 1. 背景介绍 2. Spark SQL 主要组件 3. DataFrame与DataSet 4. Tungsten
Spark SQL程序设计与案例分析 1.Spark SQL程序设计基础 2.Spark SQL数据源 3.常用operation介绍 4.应用案例:篮球运动员评估系统
大 数
批处理
交互式分析
流处理 (4) 计算框架
据
技
资源管理
(3) 资源管理
术
框 架
数据存储(SQL和NoSQL)
(2) 数据存储
数据收集(ETL, 提取,转换,加载)
(1) 数据收集/准备
数据源(互联网、物联网、企业数据等) 改编自:工业和信息化部电信研究院,“2014 大数据白皮书”
3.Hadoop生态系统
Ambari
(安装部署工具)
Oozie
(作业流调度系统)
Hive
Pig
Spark SQL
MLlib
…
Zookeeper
MapReduce
(离线计算)
Spark
(内存计算)
Storm …
(分布式协调务)
YARN
(分布式资源管理系统)
HDFS
(分布式文件系统志收集)
e
五天培训内容简介
第1天(Spark基础)
Spark基础 Spark部署 Spark程序设计
1.Spark概述 2.Spark核心概念 3.Spark运行模式 4.Spark在互联网公司中的应用
1.Spark本地模式 2.Hadoop集群搭建 3.Spark集群模式
1.Scala简介 2.Spark编程基础 3.Spark编程实例
医药生物领域 DNA分析
视频领域 视频存储,视频分析
1.大数据应用领域
金融领域 信用卡欺诈分析,用户分析
矿产勘探领域 矿产石油勘查预测
2.大数据技术框架
用户
数据可视化
(6) 数据展示
数据挖掘(数据仓库,OLAP,商务智能等) (5) 数据分析
技术博客:/
技术书籍:
2
持续学习
3
hadoop123:董西成的微信公众号
专注于Hadoop/spark等大数据相关技术的分享
1.大数据应用领域
互联网领域 搜索引擎,推荐系统,广告系统
电信领域 用户画像,用户行为分析
内存计算引擎,提供Cache机制来支持需要反复迭代计算或 者多次数据共享,减少数据读取的IO开销
DAG引擎,减少多次计算之间中间结果写到HDFS的开销 使用多线程池模型来减少task启动开稍,shuffle过程中避免
不必要的sort操作以及减少磁盘IO操作
易用
提供了丰富的API,支持Java,Scala,Python和R四种语言 代码量比MapReduce少2~5倍
与Hadoop集成
读写HDFS/Hbase
与YARN集成
Spark生态系统
Spark SQL
Spark
Streaming 实时计算框架
Graphx
Graph-parallel 分布式图处理框架
Spark
YARN
资源管理器
HDFS
分布式文件系统
Mllib
机器学习算法
MPI MapReduc
计算类型及应用场景
批处理计算
对时间没有严格要求,吞吐率要高
迭代式与DAG计算
机器学习算法
交互式计算
支持类SQL语言,快速进行数据分析
流式计算
数据像流水一样进入系统,需实时对其处理和分析
Spark特点
高 效(比MapReduce快10~100倍)
五天培训内容简介
第4天(搭集群)
克隆三台虚拟机
hadoop集群搭建 Spark集群搭建
Spark集群搭建 1.上传spark-1.6.1-bin-hadoop2.6.tgz 安装包到Linux上,并解压 2.配置Spark 3.将配置好的Spark拷贝到其他节点上 4.启动Spark集群
1.克隆linux虚拟机网卡无法上网,网络配置 2.同步时间 3.配置各虚拟机的主机名 4.配置集群Hosts,三台虚拟机hosts文件一致 5.免密码登录 6.关闭服务器的防火墙 7.在所有虚拟机上安装JDK,配置环境变量
五天培训内容简介
第3天( Spark程序设计 ——Scala)
Scala基础 编程
Scala核心概念
Scala高级编程
1. Scala简介 2. Scala基础 3. 控制结构与函数 4.数组 5.映射和元组
1.类与对象 2.包和引入 3.继承、多态 4.I/O操作、Scala类层次结构
1.特质 2.正则表达式 3.高阶函数 4.样例类与模式匹配 5.隐式转换与隐式参数
mkdir -p /home/zkpk/hadoopdata 8.格式化namenode 9.启动hardoop集群
五天培训内容简介
第5天(Spark SQL)
Hive数据仓库安装配置 安装Scala集成开发环境
1. 解压并安装Hive 2. 安装配置MySql 3. 配置Hive
目录
1 培训老师简介
1
大数据技术框架
2 Hardoop与Spark生态系统
2
Hadoop与Spark生态系统
3 五天培训内容简介
4 3 培训思考课程内容安排
44
培训老师介绍:
董西成
硕士毕业于中国科学院(计算技术研究所); 目前就职于hulu(北美著名在线视频公司); 董西成 2009年开始接触hadoop,在hadoop之上进行了大 量定制和二次开发;
三节点Hadoop集群搭建 1.hadoop安装包上传至虚拟机用户根目录 2.根目录解压缩hadoop安装包 3.配置环境变量 4.修改Hadoop配置文件 5.将master上已经配置完的hadoop文件夹拷 贝到slave01, slave02的用户根目录上 6.将master上的~/.bash_profile文件拷贝到其 它两个虚拟机上 7.分别在master, slave01, slave02上执行:
五天培训内容简介
第2天(Spark SQL)
Spark SQL基础 Spark案例
Spark SQL 与DataFrame 1. 背景介绍 2. Spark SQL 主要组件 3. DataFrame与DataSet 4. Tungsten
Spark SQL程序设计与案例分析 1.Spark SQL程序设计基础 2.Spark SQL数据源 3.常用operation介绍 4.应用案例:篮球运动员评估系统
大 数
批处理
交互式分析
流处理 (4) 计算框架
据
技
资源管理
(3) 资源管理
术
框 架
数据存储(SQL和NoSQL)
(2) 数据存储
数据收集(ETL, 提取,转换,加载)
(1) 数据收集/准备
数据源(互联网、物联网、企业数据等) 改编自:工业和信息化部电信研究院,“2014 大数据白皮书”
3.Hadoop生态系统
Ambari
(安装部署工具)
Oozie
(作业流调度系统)
Hive
Pig
Spark SQL
MLlib
…
Zookeeper
MapReduce
(离线计算)
Spark
(内存计算)
Storm …
(分布式协调务)
YARN
(分布式资源管理系统)
HDFS
(分布式文件系统志收集)
e
五天培训内容简介
第1天(Spark基础)
Spark基础 Spark部署 Spark程序设计
1.Spark概述 2.Spark核心概念 3.Spark运行模式 4.Spark在互联网公司中的应用
1.Spark本地模式 2.Hadoop集群搭建 3.Spark集群模式
1.Scala简介 2.Spark编程基础 3.Spark编程实例
医药生物领域 DNA分析
视频领域 视频存储,视频分析
1.大数据应用领域
金融领域 信用卡欺诈分析,用户分析
矿产勘探领域 矿产石油勘查预测
2.大数据技术框架
用户
数据可视化
(6) 数据展示
数据挖掘(数据仓库,OLAP,商务智能等) (5) 数据分析
技术博客:/
技术书籍:
2
持续学习
3
hadoop123:董西成的微信公众号
专注于Hadoop/spark等大数据相关技术的分享
1.大数据应用领域
互联网领域 搜索引擎,推荐系统,广告系统
电信领域 用户画像,用户行为分析
内存计算引擎,提供Cache机制来支持需要反复迭代计算或 者多次数据共享,减少数据读取的IO开销
DAG引擎,减少多次计算之间中间结果写到HDFS的开销 使用多线程池模型来减少task启动开稍,shuffle过程中避免
不必要的sort操作以及减少磁盘IO操作
易用
提供了丰富的API,支持Java,Scala,Python和R四种语言 代码量比MapReduce少2~5倍
与Hadoop集成
读写HDFS/Hbase
与YARN集成
Spark生态系统
Spark SQL
Spark
Streaming 实时计算框架
Graphx
Graph-parallel 分布式图处理框架
Spark
YARN
资源管理器
HDFS
分布式文件系统
Mllib
机器学习算法
MPI MapReduc
计算类型及应用场景
批处理计算
对时间没有严格要求,吞吐率要高
迭代式与DAG计算
机器学习算法
交互式计算
支持类SQL语言,快速进行数据分析
流式计算
数据像流水一样进入系统,需实时对其处理和分析
Spark特点
高 效(比MapReduce快10~100倍)
五天培训内容简介
第4天(搭集群)
克隆三台虚拟机
hadoop集群搭建 Spark集群搭建
Spark集群搭建 1.上传spark-1.6.1-bin-hadoop2.6.tgz 安装包到Linux上,并解压 2.配置Spark 3.将配置好的Spark拷贝到其他节点上 4.启动Spark集群
1.克隆linux虚拟机网卡无法上网,网络配置 2.同步时间 3.配置各虚拟机的主机名 4.配置集群Hosts,三台虚拟机hosts文件一致 5.免密码登录 6.关闭服务器的防火墙 7.在所有虚拟机上安装JDK,配置环境变量
五天培训内容简介
第3天( Spark程序设计 ——Scala)
Scala基础 编程
Scala核心概念
Scala高级编程
1. Scala简介 2. Scala基础 3. 控制结构与函数 4.数组 5.映射和元组
1.类与对象 2.包和引入 3.继承、多态 4.I/O操作、Scala类层次结构
1.特质 2.正则表达式 3.高阶函数 4.样例类与模式匹配 5.隐式转换与隐式参数
mkdir -p /home/zkpk/hadoopdata 8.格式化namenode 9.启动hardoop集群
五天培训内容简介
第5天(Spark SQL)
Hive数据仓库安装配置 安装Scala集成开发环境
1. 解压并安装Hive 2. 安装配置MySql 3. 配置Hive