hadoop2.2集群配置

合集下载

集群的配置步骤

集群的配置步骤

集群的配置步骤

一、搭建集群环境的准备工作

在开始配置集群之前,我们需要先进行一些准备工作。首先,确保所有服务器都已经正确连接到网络,并且能够相互通信。其次,确保每台服务器上已经安装了操作系统,并且操作系统版本一致。最后,确保每台服务器上已经安装了必要的软件和工具,例如SSH、Java等。

二、创建集群的主节点

1.选择一台服务器作为集群的主节点,将其IP地址记录下来。

2.登录到主节点服务器上,安装并配置集群管理软件,例如Hadoop、Kubernetes等。

3.根据集群管理软件的要求,配置主节点的相关参数,例如集群名称、端口号等。

4.启动集群管理软件,确保主节点能够正常运行。

三、添加集群的工作节点

1.选择一台或多台服务器作为集群的工作节点,将其IP地址记录下来。

2.登录到工作节点服务器上,安装并配置集群管理软件,确保与主节点的版本一致。

3.根据集群管理软件的要求,配置工作节点的相关参数,例如主节点的IP地址、端口号等。

4.启动集群管理软件,确保工作节点能够正常连接到主节点。

四、测试集群的连接和通信

1.在主节点服务器上,使用集群管理软件提供的命令行工具,测试与工作节点的连接和通信。例如,可以使用Hadoop的hdfs命令测试与工作节点的文件系统的连接。

2.确保主节点能够正确访问工作节点的资源,并且能够将任务分配给工作节点进行处理。

五、配置集群的资源管理

1.根据集群管理软件的要求,配置集群的资源管理策略。例如,可以设置工作节点的CPU和内存的分配比例,以及任务的调度算法等。

2.确保集群能够合理分配资源,并且能够根据需要动态调整资源的分配。

Hadoop集群配置详细

Hadoop集群配置详细

然后执行命令
source .bash_profile
master 从当前用户切换root用户的命令如下: 编辑主机名列表的命令 slave
启动Hadoop集群
1格式化文件系统
hadoop namenode -format 2启动Hadoop cd ~/hadoop-1.2.1 bin/start-all.sh 3查看进程
从当前用户切换root用户的命令如下: 编辑主机名列表的命令
Hadoop配置部署
3配置核心组件core-site.xml
注释二:fs.default.name,设置namenode所在主机, 端口号是9000 注释三:core-site.xml 对应有一个core-default.xml, hdfs-site.xml对应有一个hdfs-default.xml,mapredsite.xml对应有一个mapred-default.xml。这三个 defalult文件里面都有一些默认配置,现在我们修改 这三个site文件,目的就覆盖default里面的一些配置
配置信息如下:将HadoopMaster节点的主机名改 为master,即下面代码的第3行所示
NETWORKING=yes
#启动网络
NETWORKING_IPV6=no
HOSTNAME=master #主机名
从当前用户切换root用户的命令如下:

cloudera安装

cloudera安装

使用Cloudera Manager安装Hadoop

l 虚拟机操作系统:CentOs6.7 64bit,单核,2G内存

l JDK:1.6.0_45 64 bit

l Hadoop:2.2.0

集群网络环境集群包含三个节点:1个namenode,1个datanode,节点之间局域网连接,可以相互ping通。节点IP地址和主机名分布如下:

l 192.168.188.141 hadoo1 (namenode))

l 192.168.188.139 hadoo2 (datanode01)

l 192.168.188.140 hadoo3 (datanode03)

所有节点均是CentOS系统,防火墙iptables均禁用

环境搭建

本集群分为三个节点,先安装节点hadoop1(192.168.188.141),完成2.1~2.6步骤后,在步骤2.7中复制虚拟机并命名为hadoop2(192.168.188.139)和hadoop3

(192.168.188.140)。

设置IP1. 点击System-->Preferences-->Network Connections,如下图所示:

2. 删除原来的连接信息,新建一个“”连接,设置该连接为手工方式,设置如下信息:

IP地址:10.88.147.221

子网掩码:255.255.255.0

网关: 10.88.147.1

DNS:10.*.*.* (使用DNS上网需要设置)

3. 在命令行中查看设置的IP地址信息,如果不能够正确可以在执行2.5重启机器后再次确认:

设置Host文件1. 编辑/etc/hosts文件,设置IP地址与机器名的映射,设置信息如下:l 10.88.147.141 hadoop1.localdomain

Hadoop集群部署方案设计

Hadoop集群部署方案设计

Hadoop集群部署⽅案设计Hadoop集群部署⽅案

⽬录

1.⽹络拓扑 (1)

2.软件安装 (1)

2.1.修改主机名 (1)

2.2.修改host⽂件 (1)

2.3.创建Hadoop ⽤户 (2)

2.4.禁⽤防⽕墙 (2)

2.5.设置ssh登录免密码 (2)

2.6.安装hadoop (4)

3.集群配置 (5)

3.1.修改脚本 (5)

3.1.1.hadoop-env.sh (5)

3.1.2.yarn-env.sh (5)

3.2.配置⽂件 (5)

3.2.1.core-site.xml (5)

3.2.2.hdfs-site.xml (7)

3.2.3.mapred-site.xml (10)

3.2.

4.yarn-site.xml (11)

3.2.5.配置datanode (13)

3.3.创建⽬录 (14)

4.启动zk集群 (14)

5.启动hadoop (14)

5.1.启动所有节点journalnode (14)

5.2.格式化h1 namenode (14)

5.3.在h1上格式化ZK (15)

5.4.启动h1的namenode,zkfc (16)

5.5.启动h2上namenode (16)

5.6.同步h1上的格式化数据到h2 (16)

5.7.启动HDFS (17)

5.8.启动YARN (18)

5.9.启动h2 ResourceManager (18)

5.10.h4上启动JobHistoryServer (19)

5.11.查看ResourceManager状态 (19)

6.浏览器访问 (19)

/doc/777845c36d175f0e7cd184254b35eefdc9d31599.html node管理界⾯ (19) 6.1.1.http://192.168.121.167:50070 (19)

hadoop集群安装配置的主要操作步骤-概述说明以及解释

hadoop集群安装配置的主要操作步骤-概述说明以及解释

hadoop集群安装配置的主要操作步骤-概述说明以

及解释

1.引言

1.1 概述

Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。

本文旨在介绍Hadoop集群安装配置的主要操作步骤。在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。

Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。

为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。主要的操作步骤包括以下几个方面:

1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。

2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。

3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。这些配置文件会影响到集群的整体运行方式和资源分配策略。

4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。从节点的配置主要包括核心配置和数据节点配置。

5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。

Hadoop集群配置心得(低配置集群+自动同步配置)

Hadoop集群配置心得(低配置集群+自动同步配置)

Hadoop集群配置⼼得(低配置集群+⾃动同步配置)

本⽂为本⼈原创,⾸发到炼数成⾦。

情况是这样的,我没有⼀个⾮常强劲的电脑来搞出⼀个性能⾮常NB的服务器集群,相信很多⼈也跟我差不多,所以现在把我的低配置集群经验拿出来写⼀下好了。

我的配备:1)五六年前的赛扬单核处理器2G内存笔记本 2)公司给配的ThinkpadT420,i5双核处理器4G内存(可⽤内存只有3.4G,是因为装的是32位系统的缘故吧。。。)

就算是⽤公司配置的电脑,做出来三台1G内存的虚拟机也显然是不现实的。企业笔记本运⾏的软件多啊,什么都不做空余内存也才不到

3G。所以呢,我的想法就是:

⽤我⾃⼰的笔记本(简称PC1)做Master节点,⽤来跑Jobtracker,Namenode 和SecondaryNamenode;⽤公司的笔记本跑两个虚拟机(简称VM1和VM2),⽤来做Slave节点,跑Tasktracker和Datanode。这么做的话,就需要让PC1,VM1和VM2处于同⼀个⽹段⾥,保证他们之间可以互相连通。

⽹络环境:我的两台电脑都是通过⼀个⽆线路由上⽹。

构建跟外部的电脑同⼀⽹段的虚拟机配置过程:

准备⼯作:构建⼀个集群,⾸先前提条件是每台服务器都要有⼀个固定的IP地址,然后才可能进⾏后续的操作。所以呢,先把我的两台笔记本电脑全部设置成固定IP(注意,如果像我⼀样使⽤⽆线路由上⽹,那就要把⽆线⽹卡的IP设置成固定IP)。⽤来做Master节点的

PC1:192.168.33.150,⽤来跑虚拟机的宿主笔记本:192.168.33.157。⽬标:VM1和VM2的IP地址分别设置成192.168.33.151和152。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置
12
wk.baidu.com
完全分布式搭建
4.mapred-site.xml.template
重命名文件
cp mapred-site.xml.template mapred-site.xml
修改配置文件
<property> <name>mapreduce.framework.name</name> <value>yarn</value>
seconds</name>
<value>604800</value>
</property>
13
完全分布式搭建
6. slaves master node1 node2
配置文件修改完成
14
完全分布式搭建
二、分发配置文件到node1、node2: cd /opt/soft/ scp -r hadoop-2.7.6/ node1:`pwd` scp -r hadoop-2.7.6/ node2:`pwd` 三、格式化namenode(第一次启动的时候需要执行) hdfs namenode -format 四、启动Hadoop集群 start-all.sh 五、检查master、node1、node2上的进程
11
完全分布式搭建
一、修改Hadoop配置文件:

Hadoop集群搭建步骤

Hadoop集群搭建步骤

Hadoop集群搭建步骤

1.先建⽴⼀台虚拟机,分配内存2G,硬盘20G,⽹络为nat 模式,设置⼀个静态的ip 地址: 例如设定3台机器的ip 为

192.168.63.167(master) 192.16863.168(slave1) 192.168.63.169 (slave2)

2.修改第⼀台主机的⽤户名

3.复制master⽂件两次,重命名为slave1和slave2,打开虚拟机⽂件,然后按照同样的⽅法设置两个节点的ip和主机名

4.建⽴主机名和ip的映射

5.查看是否能ping通,关闭防⽕墙和selinux 配置

6.配置ssh免密码登录

在root⽤户下输⼊ssh-keygen -t rsa ⼀路回车

秘钥⽣成后在~/.ssh/⽬录下,有两个⽂件id_rsa(私钥)和id_rsa.pub(公钥),将公钥复制到authorized_keys并赋予authorized_keys600权限

同理在slave1和slave2节点上进⾏相同的操作,然后将公钥复制到master节点上的authoized_keys

检查是否免密登录(第⼀次登录会有提⽰)

7..安装JDK(省去)

三个节点安装java并配置java环境变量

8.安装MySQL(master 节点省去)

9.安装SecureCRT或者xshell 客户端⼯具,然后分别链接上 3台服务器

12.搭建集群

12.1 集群结构

三个结点:⼀个主节点master两个从节点内存2GB 磁盘20GB

12.2 新建hadoop⽤户及其⽤户组

⽤adduser新建⽤户并设置密码

hadoop2.2安装

hadoop2.2安装

Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程

历时一周多,终于搭建好最新版本Hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)

另外:欢迎配置过程中遇到问题的朋友留言,相互讨论,并且能够把解决方法共享给大家。下面评论中有几个朋友遇到的问题和解决方法,欢迎参考!

第一部分Hadoop 2.2 下载

Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译(10楼评论中提供了一个解决方法链接)。

下载地址:/hadoop/common/hadoop-2.2.0/

如下图所示,下载红色标记部分即可。如果要自行编译则下载src.tar.gz.

第二部分集群环境搭建

1、这里我们搭建一个由三台机器组成的集群:

192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit

192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit

192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit

1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager)

大数据--Hadoop集群环境搭建

大数据--Hadoop集群环境搭建

⼤数据--Hadoop集群环境搭建

⾸先我们来认识⼀下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式⽂件系统。它其实是将⼀个⼤⽂件分成若⼲块保存在不同服务器的多个节点中。通过联⽹让⽤户感觉像是在本地⼀样查看⽂件,为了降低⽂件丢失造成的错误,它会为每个⼩⽂件复制多个副本(默认为三个),以此来实现多机器上的多⽤户分享⽂件和存储空间。

Hadoop主要包含三个模块:

HDFS模块:HDFS负责⼤数据的存储,通过将⼤⽂件分块后进⾏分布式存储⽅式,突破了服务器硬盘⼤⼩的限制,解决了单台机器⽆法存储⼤⽂件的问题,HDFS是个相对独⽴的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。

YARN模块:YARN是⼀个通⽤的资源协同和任务调度框架,是为了解决Hadoop中MapReduce⾥NameNode负载太⼤和其他问题⽽创建的⼀个框架。YARN是个通⽤框架,不⽌可以运⾏MapReduce,还可以运⾏Spark、Storm等其他计算框架。

MapReduce模块:MapReduce是⼀个计算框架,它给出了⼀种数据处理的⽅式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适⽤于⼤数据的离线处理,对实时性要求很⾼的应⽤不适⽤。多相关信息可以参考博客:。

本节将会介绍Hadoop集群的配置,⽬标主机我们可以选择虚拟机中的多台主机或者多台阿⾥云服务器。

注意:以下所有操作都是在root⽤户下执⾏的,因此基本不会出现权限错误问题。

hadoop集群安装步骤(超详细)

hadoop集群安装步骤(超详细)

Hadoop集群安装图

首先准备虚拟机

电脑太卡,就只准备了两个虚拟机 hadoop1,hadoop2

启动起来

hadoop1

hadoop2

两台机器地址分别是

hadoop1: 172.16.2.199

hadoop2: 172.16.3.226

已经成功连接上

下面我们在hadoop1和hadoop2下新建两个用户,用户名为hadoop

然后在hadoop2下面也新建一个hadoop用户

然后我们配置ssh 免密码登录使 hadoop1能登录到hadoop2

并且hadoop2也能登录到hadoop1

我们首先切换到hadoop用户下,使用的命令是

su h adoop

同时 hadoop2也切换到hadoop用户下

剩下的 我们先只操作hadoop1,hadoop2最后操作

我们切换到了hadoop环境后 我们开始打命令配置免SSH密码登录

首先我们测试

输入:ssh l ocalhost

我们看到是需要输入密码的,说明我们的机器没有安装ssh免密码登录

下面我们敲打这个命令

-­‐> ssh-­‐keygen -­‐t r sa -­‐P '' -­‐f ~/.ssh/id_rsa

敲入了之后,我们继续敲

-­‐> cd ~/.ssh

进去之后

我们看到有3个文件

说明我们生成了ssh公钥

接着我们继续打命令

-­‐> cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后我们进入到./ssh目录下

接着我们把authorized_keys的权限改成600,这样才可以使用ssh免密码登录 [hadoop@hadoop1 .ssh]$ c hmod 600 a uthorized_keys

Hadoop集群配置(最全面总结)

Hadoop集群配置(最全面总结)

Hadoop集群配置(最全⾯总结)

通常,集群⾥的⼀台机器被指定为 NameNode,另⼀台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\

1 先决条件

1. 确保在你集群中的每个节点上都安装了所有软件:sun-JDK ,ssh,Hadoop

2. Java TM1.5.x,必须安装,建议选择Sun公司发⾏的Java版本。

3. ssh 必须安装并且保证 sshd⼀直运⾏,以便⽤Hadoop 脚本管理远端Hadoop守护进程。

2 实验环境搭建

2.1 准备⼯作

操作系统:Ubuntu

部署:Vmvare

在vmvare安装好⼀台Ubuntu虚拟机后,可以导出或者克隆出另外两台虚拟机。

说明:

保证虚拟机的ip和主机的ip在同⼀个ip段,这样⼏个虚拟机和主机之间可以相互通信。

为了保证虚拟机的ip和主机的ip在同⼀个ip段,虚拟机连接设置为桥连。

准备机器:⼀台master,若⼲台slave,配置每台机器的/etc/hosts保证各台机器之间通过机器名可以互访,例如:

10.64.56.76 node1(master)

10.64.56.77 node2 (slave1)

10.64.56.78 node3 (slave2)

主机信息:

机器名 IP地址作⽤

Node110.64.56.76NameNode、JobTracker

Node210.64.56.77DataNode、TaskTracker

Node310.64.56.78DataNode、TaskTracker

Hadoop分布式集群搭建详细教程

Hadoop分布式集群搭建详细教程

hadoop1hadoop2hadoop3

HDFS NameNode

DataNode

DataNode

SecondaryNameNode

DataNode

YARN NodeManager ResourceManager

NodeManager

NodeManager Hadoop分布式集群搭建详细教程

本教程是基于CentOS-7-x86_64的Hadoop完全分布式搭建1、搭建前的准备

1)CentOS-7虚拟机3台(hadoop1、hadoop2、hadoop3)

2)hadoop-3.3.0包

3)jdk-8u144-linux-x64包

2、整体部署

3、基本步骤

1)修改3台虚拟机的名称

2)关闭、禁⽌开机⾃启防⽕墙

3)配置静态ip

4)修改/etc/hosts⽂件(hadoop1、hadoop2、hadoop3)

5)配置免密登录(hadoop1、hadoop2、hadoop3)

6)安装JDK及配置相应环境变量(hadoop1)

7)安装Hadoop及配置相应环境变量(hadoop1)

8)修改配置⽂件(hadoop1)

9)拷贝(hadoop1-->hadoop2,hadoop1-->hadoop3)

10)远程同步/etc/profile⽂件(hadoop1)

11)格式化NameNode

12)启动和关闭Hadoop集群

13)通过浏览器访问Hadoop集群

14)测试集群,上传⽂件

4、详细步骤操作

1)修改3台虚拟机的名称

#hostname #查看主机名称

hostnamectl set-hostname 主机名 #修改主机名称

Hadoop集群+Spark集群搭建(一篇文章就够了)

Hadoop集群+Spark集群搭建(一篇文章就够了)

Hadoop集群+Spark集群搭建(⼀篇⽂章就够了)⼀、准备

1.1 软件版本

Ubuntu 16.04.6 (ubuntu-16.04.6-server-amd64.iso)

JDK 1.8 (jdk-8u201-linux-x64.tar.gz)

Hadoop 2.7.7 (hadoop-2.7.7.tar.gz)

Spark 2.1.0 (spark-2.1.0-bin-hadoop2.7.tgz)

1.2 ⽹络规划

本⽂规划搭建3台机器组成集群模式,IP与计算机名分别为, 如果是单台搭建,只需填写⼀个即可

192.168.241.132 master

192.168.241.133 slave1

192.168.241.134 slave2

1.3 软件包拷贝

可将上述软件包拷贝到3台机器的opt⽬录下

JDK 1.8

Hadoop 2.7.7

Spark 2.1.0

1.4 SSH设置

修改/etc/ssh/sshd_config⽂件,将以下三项开启yes状态

PermitRootLogin yes

PermitEmptyPasswords yes

PasswordAuthentication yes

重启ssh服务

service ssh restart

这样root⽤户可直接登陆,以及为后续ssh⽆密码登录做准备。

1.5 绑定IP和修改计算机名

1.5.1 修改/etc/hosts,添加IP绑定,并注释127.0.1.1(不注释会影响hadoop集群)

root@master:/opt# cat /etc/hosts

hadoop0.20.2集群配置

hadoop0.20.2集群配置

搭建一个hadoop集群包括:

1个namenode

2个datanonde

1、修改主机名及IP地址

192.168.10.184配置

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=master

192.168.10.185配置

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=slaves1

192.168.10.186配置

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=slaves2

vi /etc/hosts

要将文件的前两行注释掉(注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息

把hosts文件copy到其余2台服务器

scp /etc/hosts root@192.168.10.185:/etc/

然后分别执行/bin/hostsname hostsname

例如:master上执行/bin/hostsname master,使之生效。

2、配置主机间无密码ssh各服务器

在各个主机上执行操作:

ssh-keygen -t rsa,然后一直回车

在/root/.ssh/目录下生成了两个文件id_rsa 和id_rsa.pub

cp id_rsa.pub authorized_keys

修改authorized_keys的权限为600

chmod 600 ~/.ssh/authorized_keys

先将所有authorized_keys合并

Hadoop集群搭建详细简明教程

Hadoop集群搭建详细简明教程
cd /bin/ tar -xzvf hadoop-0.20.2.tar.gz cd /bin/hadoop-0.20.2/conf/ 修改 hadoop-env.sh: vi hadoop-env.sh
默认是被注释的,去掉注释,把 JAVA_HOME 改成现有 java 安装目录
修改 core-site.xml: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
Hadoop 集群环境安装、配置
在所有虚拟机上安装 jdk
按照上面步骤安装虚拟机,一定是有已经安装好的 open jdk 运行 java –version
我们要先使用 sun 的 jdk,所以要把这个版本 java 卸载掉,如下图所示: 命令为: rpm -qa|grep jdk rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.41.1.10.4.el6.x86_64
Hadoop 集群搭建验证
格式化 hadoop:hadoop namenode –format 启动 hadoop:./start-all.sh 在 master 节点,输入 jps,查看启动服务进程: Slave 节点,输入 jps:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop集群在linux下配置

第一部分Hadoop 2.2 下载

Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。

下载地址:/hadoop/common/hadoop-2.2.0/

如下图所示,下载红色标记部分即可。

第二部分集群环境搭建

1、这里我们搭建一个由两台机器组成的集群:

10.11.1.67 tan/123456 yang

10.11.1.57 tan/123456 ubuntu

1.1 上面各列分别为IP、user/passwd、hostname

1.2 Hostname可以在/etc/hostname中修改

1.3 这里我们为每台机器新建了一个账户tan.这里需要给每个账户分配sudo的权限。

(切换到root账户,修改/etc/sudoers文件,增加:tan ALL=(ALL) ALL )

2、修改/etc/hosts 文件,增加两台机器的ip和hostname的映射关系

10.11.1.67 yang

10.11.1.57 ubuntu

3、打通yang到ubuntu的SSH无密码登陆

3.1 安装ssh

一般系统是默认安装了ssh命令的。如果没有,或者版本比较老,则可以重新安

装:

sudo apt-get install ssh

3.2设置local无密码登陆

安装完成后会在~目录(当前用户主目录,即这里的/home/tan)下产生一个隐藏文

件夹.ssh(ls -a 可以查看隐藏文件)。如果没有这个文件,自己新建即可

(mkdir .ssh)。

具体步骤如下:

1、进入.ssh文件夹

2、 ssh-keygen -t rsa 之后一路回车(产生秘钥)

3、把id_rsa.pub 追加到授权的key 里面去(cat id_rsa.pub >> authorized_keys)

4、重启SSH 服务命令使其生效:service ssh restart

此时已经可以进行ssh localhost的无密码登陆

【注意】:以上操作在每台机器上面都要进行。

3.3设置远程无密码登陆

这里只有yang是master,如果有多个namenode,或者rm的话则需要打通所有master 都其他剩余节点的免密码登陆。(将yang的authorized_keys追加到ubuntu的authorized_keys)

进入yang的.ssh目录

scp authorized_keys tan@ubuntu:~/.ssh/ authorized_keys_from_yang

进入ubuntu的.ssh目录

cat authorized_keys_from_yang >> authorized_keys

至此,可以在yang上面ssh tan@ubuntu进行无密码登陆了。

4、安装jdk

注意:这里选择下载jdk并自行安装,而不是通过源直接安装(apt-get install)

4.1、下载jdk(/technetwork/java/javase/downloads/index.html)

4.1.1 对于32位的系统可以下载以下两个Linux x86版本(uname -a 查看系统版

本)

4.1.2 64位系统下载Linux x64版本(即x64.rpm和x64.tar.gz)

4.2、安装jdk(这里以.tar.gz版本,32位系统为例)

安装方法参/javase/7/docs/webnotes/install/linux/linux-jdk.html

4.2.1 选择要安装java的位置,如/usr/目录下,新建文件夹java(mkdir java)

4.2.2 将文件jdk-7u40-linux-i586.tar.gz移动到/usr/java

4.2.3 解压:tar -zxvf jdk-7u40-linux-i586.tar.gz

4.2.4 删除jdk-7u40-linux-i586.tar.gz(为了节省空间)

至此,jkd安装完毕,下面配置环境变量

4.3、打开/etc/profile(vim /etc/profile)

在最后面添加如下内容:

JAVA_HOME=/usr/java/jdk1.7.0_40(这里的版本号1.7.40要根据具体下载情况修

改)

CLASSPATH=.:$JAVA_HOME/lib.tools.jar

PATH=$JAVA_HOME/bin:$PATH

export JAVA_HOME CLASSPATH PATH

4.4、source /etc/profile

4.5、验证是否安装成功:java–version

【注意】每台机器执行相同操作,最后将java安装在相同路径下

5、关闭每台机器的防火墙

ufw disable (重启生效)

第三部分Hadoop 2.2安装过程

由于hadoop集群中每个机器上面的配置基本相同,所以我们先在namenode上面进行配置部署,然后再复制到其他节点。所以这里的安装过程相当于在每台机器上面都要执行。

【注意】:master和slaves安装的hadoop路径要完全一样,用户和组也要完全一致

1、解压文件

将第一部分中下载的hadoop-2.2.tar.gz解压到/home/tan路径下。然后为了节省空间,可删除此压缩文件,或将其存放于其他地方进行备份。

2、 hadoop配置过程

配置之前,需要在cloud001本地文件系统创建以下文件夹:

~/dfs/name

~/dfs/data

~/temp

这里要涉及到的配置文件有7个:

~/hadoop-2.2.0/etc/hadoop/hadoop-env.sh

~/hadoop-2.2.0/etc/hadoop/yarn-env.sh

相关文档
最新文档