Cloudera大数据平台环境搭建
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Xshell 是一个强大的安全终端模拟软件,支撑Microsoft Windows 平台的TELNET 协议。通过互联网到远程主机 的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中进行工作。 3)虚拟机VMware 15,安装centos7系统构建大数据环境,3台虚拟机以上,VM12以上版本支持linux图形界面。
IP
192.168.137.101 192.168.137.102 192.168.137.103
配置
6G 3G 3G
备注
主、CM 从 从
第8页
Cloudera大数据平台环境搭建-平台规划
集群服务规划如下:
序 服务 子服务 号 名称
说明
CM5-01 CM5-02 CM5-03
1
NameNode
HDFS
6 ZooK ZooKeeper server eeper
7 Kafka Kafka
负责任务的协同和管理 消息接收、发送、消息主题等工作
✓ 选择 ✓ 选择 ✓ 选择 ✓ 选择
✓ 选择 ✓ 选择 ✓ 选择
✓ 选择 ✓ 选择
第9页
Cloudera大数据平台环境搭建-系统环境
1、 虚拟机
2、 修改机器名 称、IP地址 所有机器
安装配置java版本: 具体参考:https://www.cnblogs.com/sxdcgaq8080/p/7492426.html
1)卸载系统自带的OpenJDK以及相关的java文件, 查看命令:rpm -qa | grep java
使用命令删除系统自带的Java文件, rpm -e --nodeps
2
DateNode
3
SecondaryNameNode
主控服务,保存文件元数据信息和操 作路由
数据存储服务,文件数据块的存储和 而后和查询
辅助NameNode服务
✓ 选择 ✓ 选择
✓ 选择
4 Yarn NodeManager
负责具体任务的执行
✓ 选择 ✓ 选择
5
Resourcemanager
主控服务,负责资源的调度和分配 ✓ 选择
3、 设置防火墙
所有机器
系统环境
4、 免密登录SSH
主服务器 所有机器
5、 关闭SELINUX
所有机器
6、 NTP服务 所有机器
虚拟机设置: 安装一台虚拟机后,系统环境修改完毕后,克隆2台机器,同时记着更新MAC地址。
7、 系统参数 所有机器
第10页
Cloudera大数据平台环境搭建-系统环境
修改机器名称: 序号 1 2 3
备注
#停止firewall #禁止firewall开机启动 #查看默认防火墙状态(关闭后显示 notrunning,开启后显示running)
第13页
Cloudera大数据平台环境搭建-系统环境
设置免密钥登录:不录入密码条件下,可由主机自动登录到其它agent机器,便于后续主机进行文件分发。 具体参考:https://www.jb51.net/article/107955.htm 1、所有机器:vi /etc/ssh/sshd_config
第4页
Cloudera大数据平台环境搭建
目录 CONTENTS
1
Hadoop简绍
2
CDH简绍
3
平台搭建流程
4
总结
第5页
Cloudera大数据平台环境搭建
大数据平台的搭建,需要了解linux命令、基本的Hadoop组件知识,同时需要掌握一套清晰的搭建系统 的流程,而这些知识的综合,把大多数人就挡在门槛之外,为了学习和了解大数据底层知识的人员,我们 特提供一套详细搭建过程,便于跨过这个门槛。
第18页
Cloudera大数据平台环境搭建-数据库环境
本节主要统一介绍与数据库相关组件的安装,便于统一规划,因为这些组件在安装、应用过程中都有 关联,这节配置基本与后续的数据库配置页面相关,随后再提,现在有个准备,保留。
数据库环境
1、 JDK
2、Mysql
3、JDBC
4、创建数据库
第19页
Cloudera大数据平台环境搭建-数据库环境
date
2 crontab -e 00 00 * * * /usr/sbin/ntpdate 192.168.137.101
3 reboot
第16页
Cloudera大数据平台环境搭建-系统环境
系统参数 已启用透明大页面压缩,可能会导致重大性能问题。请运行: echo 10 > /proc/sys/vm/swappiness echo 'vm.swappiness=10'>> /etc/sysctl.conf echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.local echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.local
1、vi /etc/security/limits.conf # 添加如下的行 * soft noproc 11000 * hard noproc 11000 * soft nofile 10000 * hard nofile 10000
/2、修改所有 linux 用户的环境变量文件: vi /etc/profile ulimit -u 10000 ulimit -n 10000 ulimit -d unlimited ulimit -m unlimited ulimit -s unlimited ulimit -t unlimited ulimit -v unlimited
第2页
CDH简绍
目前Hadoop比较流行的主要有2个版本,Apache和Cloudera版本。 Apache Hadoop:维护人员比较多,更新频率比较快,但是稳定性比较差。 Cloudera Hadoop(CDH):CDH:Cloudera公司的发行版本,基于ApacheHadoop的二次开发,优 化了组件兼容和交互接口、简化安装配置、增加Cloudera兼容特性。
虚拟机上网设置 1)采用NAT共享主机IP上网地址,同时在linux环境下配置上网IP,并用默认的浏览器进行上网测试。
第12页
Cloudera大数据平台环境搭建-系统环境
防火墙设置:
序 编辑命令 号 1 systemctl stop firewalld.service 2 systemctl disable firewalld.service 3 firewall-cmd --state
编辑命令 vim /etc/hostname vi /etc/hosts vim /etc/sysconfig/network
查询命令 hostname tail /etc/hosts cat /etc/sysconfig/network ifconfig -a
第11页
Cloudera大数据平台环境搭建-系统环境
4、在主服务登录:ssh root@192.168.137.102
第14页
Cloudera大数据平台环境搭建-系统环境
selinux关闭:
所有服务器都要设置。
序 编辑命令 号
1 vi /etc/sysconfig/selinux SELINUX=disabled
查询命令
sestatus –v SELinux status: disabled #表示已经 关闭了
简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件
),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的
提高了集群管理的效率。
wenku.baidu.com
CDH体系架构
批处理 (M/R,Hive,Pig)
数据分析 (Impala)
搜索引擎
流处理
机器学习(Spark、
第7页
Cloudera大数据平台环境搭建-平台规划
平台规划:本次规划为3台服务器组建集群环境; 其中一台主机,另外2台代理,主机作为主控服务器,相应内存大点,另外2台主做存储和 计算。 内存大小分配会影响后续CDH图表页面的显示。
序 服务器名称 号
1 CM5-01 2 CM5-02 3 CM5-03
(Cloudera Search) (Spark) MapReduce、Mahout)
资源管理(YARN)
FileSystem (HDFS)
多种数据类型存储
OnlineNosql (Hbase)
Sqoop
flume
nfs
第3页
CDH简绍 CDH安装完成后,系统主界面,了解大数据,就从搭建大数据平台开始吧,让技术不再难而却步,大数 据底层组件不再陌生,亲手搭建,成功就在眼前。
2)在系统根user目录下,建立java文件, 命令:cd /user
mkdir java 解压安装jdk tar -zxvf jdk-8u144-linux-x64.tar.gz
java-1.7.0-openjdk-headless-1.7.0.752.5.4.2.el7_0.x86_64 python-javapackages-3.4.1-6.el7_0.noarch javapackages-tools-3.4.1-6.el7_0.noarch tzdata-java-2015a-1.el7.noarch java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
Cloudera大数据平台环境搭建
目录 CONTENTS
1
Hadoop简绍
2
CDH简绍
3
平台搭建流程
4
总结
第1页
Hadoop简绍
1)Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)Hadoop通常是指一个更广泛的概念,Hadoop生态圈。
第15页
Cloudera大数据平台环境搭建-系统环境
安装配置ntpd服务: 所有服务器都要设置, 由于本人采用简单方式,没有按照网上查询文档进行安装设置
查询相关文档https://www.bbsmax.com/A/A7zgmwB154/
序 编辑命令 号
查询命令
1 timedatectl set-timezone Asia/Shanghai
第17页
Cloudera大数据平台环境搭建-系统环境
系统参数 出现如下错误,可能内存不足,另外就是文件句柄数进行了 限制,默认是1024个文件,可修改如下几个 文件,可成功启动Host Monitor和Service Monitor服务。 解除 Linux 系统的最大进程数和最大文件打开数限制:查看命令:ulimit -n
RSAAuthentication yes PubkeyAuthentication yes PermitRootLogin yes 2、所有机器都执行命令:ssh-keygen -t rsa,生成 key,一律不输入密码,直接回车,/root 就会生成 .ssh 文件夹。 3、主服务器 cd /root/.ssh cat id_rsa.pub>> authorized_keys ssh root@192.168.137.102 cat ~/.ssh/id_rsa.pub>> authorized_keys ssh root@192.168.137.103 cat ~/.ssh/id_rsa.pub>> authorized_keys scp authorized_keys root@192.168.137.102:/root/.ssh/ scp authorized_keys root@192.168.137.103:/root/.ssh/ scp known_hosts root@192.168.137.102:/root/.ssh/ scp known_hosts root@192.168.137.103:/root/.ssh/
平台搭建步骤图:
基于Cloudera构建大数据
1、 系统准备
2、 平台规划
3、 系统环境
4、 数据库环境
5、 CM安装
6、 CDH安装
7、 CDH配置
第6页
Cloudera大数据平台环境搭建
系统准备:通过win10远程登录到虚拟机环境操作相应业务流程,需在win10环境安装相应的工具。 1)本机环境为win10环境,通过搭建虚拟机-linux系统来搭建大数据环境, 安装WinScp文件传输工具,传输相应的安装文件到linux系统。 WinSCP是一个Windows环境下使用SSH的开源图形 化SFTP客户端。它的主要功能就是在本地与远程计算机间安全的复制文件。链接linux系统等。 2)安装Xshell远程工具,通过远程命令行的方式操作linux系统,不用频繁切换linux系统。
IP
192.168.137.101 192.168.137.102 192.168.137.103
配置
6G 3G 3G
备注
主、CM 从 从
第8页
Cloudera大数据平台环境搭建-平台规划
集群服务规划如下:
序 服务 子服务 号 名称
说明
CM5-01 CM5-02 CM5-03
1
NameNode
HDFS
6 ZooK ZooKeeper server eeper
7 Kafka Kafka
负责任务的协同和管理 消息接收、发送、消息主题等工作
✓ 选择 ✓ 选择 ✓ 选择 ✓ 选择
✓ 选择 ✓ 选择 ✓ 选择
✓ 选择 ✓ 选择
第9页
Cloudera大数据平台环境搭建-系统环境
1、 虚拟机
2、 修改机器名 称、IP地址 所有机器
安装配置java版本: 具体参考:https://www.cnblogs.com/sxdcgaq8080/p/7492426.html
1)卸载系统自带的OpenJDK以及相关的java文件, 查看命令:rpm -qa | grep java
使用命令删除系统自带的Java文件, rpm -e --nodeps
2
DateNode
3
SecondaryNameNode
主控服务,保存文件元数据信息和操 作路由
数据存储服务,文件数据块的存储和 而后和查询
辅助NameNode服务
✓ 选择 ✓ 选择
✓ 选择
4 Yarn NodeManager
负责具体任务的执行
✓ 选择 ✓ 选择
5
Resourcemanager
主控服务,负责资源的调度和分配 ✓ 选择
3、 设置防火墙
所有机器
系统环境
4、 免密登录SSH
主服务器 所有机器
5、 关闭SELINUX
所有机器
6、 NTP服务 所有机器
虚拟机设置: 安装一台虚拟机后,系统环境修改完毕后,克隆2台机器,同时记着更新MAC地址。
7、 系统参数 所有机器
第10页
Cloudera大数据平台环境搭建-系统环境
修改机器名称: 序号 1 2 3
备注
#停止firewall #禁止firewall开机启动 #查看默认防火墙状态(关闭后显示 notrunning,开启后显示running)
第13页
Cloudera大数据平台环境搭建-系统环境
设置免密钥登录:不录入密码条件下,可由主机自动登录到其它agent机器,便于后续主机进行文件分发。 具体参考:https://www.jb51.net/article/107955.htm 1、所有机器:vi /etc/ssh/sshd_config
第4页
Cloudera大数据平台环境搭建
目录 CONTENTS
1
Hadoop简绍
2
CDH简绍
3
平台搭建流程
4
总结
第5页
Cloudera大数据平台环境搭建
大数据平台的搭建,需要了解linux命令、基本的Hadoop组件知识,同时需要掌握一套清晰的搭建系统 的流程,而这些知识的综合,把大多数人就挡在门槛之外,为了学习和了解大数据底层知识的人员,我们 特提供一套详细搭建过程,便于跨过这个门槛。
第18页
Cloudera大数据平台环境搭建-数据库环境
本节主要统一介绍与数据库相关组件的安装,便于统一规划,因为这些组件在安装、应用过程中都有 关联,这节配置基本与后续的数据库配置页面相关,随后再提,现在有个准备,保留。
数据库环境
1、 JDK
2、Mysql
3、JDBC
4、创建数据库
第19页
Cloudera大数据平台环境搭建-数据库环境
date
2 crontab -e 00 00 * * * /usr/sbin/ntpdate 192.168.137.101
3 reboot
第16页
Cloudera大数据平台环境搭建-系统环境
系统参数 已启用透明大页面压缩,可能会导致重大性能问题。请运行: echo 10 > /proc/sys/vm/swappiness echo 'vm.swappiness=10'>> /etc/sysctl.conf echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.local echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.local
1、vi /etc/security/limits.conf # 添加如下的行 * soft noproc 11000 * hard noproc 11000 * soft nofile 10000 * hard nofile 10000
/2、修改所有 linux 用户的环境变量文件: vi /etc/profile ulimit -u 10000 ulimit -n 10000 ulimit -d unlimited ulimit -m unlimited ulimit -s unlimited ulimit -t unlimited ulimit -v unlimited
第2页
CDH简绍
目前Hadoop比较流行的主要有2个版本,Apache和Cloudera版本。 Apache Hadoop:维护人员比较多,更新频率比较快,但是稳定性比较差。 Cloudera Hadoop(CDH):CDH:Cloudera公司的发行版本,基于ApacheHadoop的二次开发,优 化了组件兼容和交互接口、简化安装配置、增加Cloudera兼容特性。
虚拟机上网设置 1)采用NAT共享主机IP上网地址,同时在linux环境下配置上网IP,并用默认的浏览器进行上网测试。
第12页
Cloudera大数据平台环境搭建-系统环境
防火墙设置:
序 编辑命令 号 1 systemctl stop firewalld.service 2 systemctl disable firewalld.service 3 firewall-cmd --state
编辑命令 vim /etc/hostname vi /etc/hosts vim /etc/sysconfig/network
查询命令 hostname tail /etc/hosts cat /etc/sysconfig/network ifconfig -a
第11页
Cloudera大数据平台环境搭建-系统环境
4、在主服务登录:ssh root@192.168.137.102
第14页
Cloudera大数据平台环境搭建-系统环境
selinux关闭:
所有服务器都要设置。
序 编辑命令 号
1 vi /etc/sysconfig/selinux SELINUX=disabled
查询命令
sestatus –v SELinux status: disabled #表示已经 关闭了
简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件
),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的
提高了集群管理的效率。
wenku.baidu.com
CDH体系架构
批处理 (M/R,Hive,Pig)
数据分析 (Impala)
搜索引擎
流处理
机器学习(Spark、
第7页
Cloudera大数据平台环境搭建-平台规划
平台规划:本次规划为3台服务器组建集群环境; 其中一台主机,另外2台代理,主机作为主控服务器,相应内存大点,另外2台主做存储和 计算。 内存大小分配会影响后续CDH图表页面的显示。
序 服务器名称 号
1 CM5-01 2 CM5-02 3 CM5-03
(Cloudera Search) (Spark) MapReduce、Mahout)
资源管理(YARN)
FileSystem (HDFS)
多种数据类型存储
OnlineNosql (Hbase)
Sqoop
flume
nfs
第3页
CDH简绍 CDH安装完成后,系统主界面,了解大数据,就从搭建大数据平台开始吧,让技术不再难而却步,大数 据底层组件不再陌生,亲手搭建,成功就在眼前。
2)在系统根user目录下,建立java文件, 命令:cd /user
mkdir java 解压安装jdk tar -zxvf jdk-8u144-linux-x64.tar.gz
java-1.7.0-openjdk-headless-1.7.0.752.5.4.2.el7_0.x86_64 python-javapackages-3.4.1-6.el7_0.noarch javapackages-tools-3.4.1-6.el7_0.noarch tzdata-java-2015a-1.el7.noarch java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
Cloudera大数据平台环境搭建
目录 CONTENTS
1
Hadoop简绍
2
CDH简绍
3
平台搭建流程
4
总结
第1页
Hadoop简绍
1)Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)Hadoop通常是指一个更广泛的概念,Hadoop生态圈。
第15页
Cloudera大数据平台环境搭建-系统环境
安装配置ntpd服务: 所有服务器都要设置, 由于本人采用简单方式,没有按照网上查询文档进行安装设置
查询相关文档https://www.bbsmax.com/A/A7zgmwB154/
序 编辑命令 号
查询命令
1 timedatectl set-timezone Asia/Shanghai
第17页
Cloudera大数据平台环境搭建-系统环境
系统参数 出现如下错误,可能内存不足,另外就是文件句柄数进行了 限制,默认是1024个文件,可修改如下几个 文件,可成功启动Host Monitor和Service Monitor服务。 解除 Linux 系统的最大进程数和最大文件打开数限制:查看命令:ulimit -n
RSAAuthentication yes PubkeyAuthentication yes PermitRootLogin yes 2、所有机器都执行命令:ssh-keygen -t rsa,生成 key,一律不输入密码,直接回车,/root 就会生成 .ssh 文件夹。 3、主服务器 cd /root/.ssh cat id_rsa.pub>> authorized_keys ssh root@192.168.137.102 cat ~/.ssh/id_rsa.pub>> authorized_keys ssh root@192.168.137.103 cat ~/.ssh/id_rsa.pub>> authorized_keys scp authorized_keys root@192.168.137.102:/root/.ssh/ scp authorized_keys root@192.168.137.103:/root/.ssh/ scp known_hosts root@192.168.137.102:/root/.ssh/ scp known_hosts root@192.168.137.103:/root/.ssh/
平台搭建步骤图:
基于Cloudera构建大数据
1、 系统准备
2、 平台规划
3、 系统环境
4、 数据库环境
5、 CM安装
6、 CDH安装
7、 CDH配置
第6页
Cloudera大数据平台环境搭建
系统准备:通过win10远程登录到虚拟机环境操作相应业务流程,需在win10环境安装相应的工具。 1)本机环境为win10环境,通过搭建虚拟机-linux系统来搭建大数据环境, 安装WinScp文件传输工具,传输相应的安装文件到linux系统。 WinSCP是一个Windows环境下使用SSH的开源图形 化SFTP客户端。它的主要功能就是在本地与远程计算机间安全的复制文件。链接linux系统等。 2)安装Xshell远程工具,通过远程命令行的方式操作linux系统,不用频繁切换linux系统。