Hadoop集群安装

合集下载

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。

准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。

可以使用yum install rsync来安装rsync。

一般来说ssh是默认安装到系统中的。

Jdk1.6的安装方法这里就不多介绍了。

确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。

下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。

集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。

Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。

另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

Hadoop2.4、Hbase0.98、Hive集群安装配置手册

Hadoop、Zookeeper、Hbase、Hive集群安装配置手册运行环境机器配置虚机CPU E5504*2 (4核心)、内存 4G、硬盘25G进程说明QuorumPeerMain ZooKeeper ensemble member DFSZKFailoverController Hadoop HA进程，维持NameNode高可用 JournalNode Hadoop HA进程，JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,保证数据高可用 NameNode Hadoop HDFS进程，名字节点DataNode HadoopHDFS进程， serves blocks NodeManager Hadoop YARN进程，负责 Container 状态的维护，并向 RM 保持心跳。

ResourceManager Hadoop YARN进程，资源管理 JobTracker Hadoop MR1进程，管理哪些程序应该跑在哪些机器上，需要管理所有 job 失败、重启等操作。

TaskTracker Hadoop MR1进程，manages the local Childs RunJar Hive进程HMaster HBase主节点HRegionServer HBase RegionServer, serves regions JobHistoryServer 可以通过该服务查看已经运行完的mapreduce作业记录应用服务进程主机/hostname 系统版本mysql mysqld10.12.34.14/ Centos5.810.12.34.15/h15 Centos5.8 HadoopZookeeperHbaseHiveQuorumPeerMainDFSZKFailoverControllerNameNodeNodeManagerRunJarHMasterJournalNodeJobHistoryServerResourceManagerDataNodeHRegionServer10.12.34.16/h16 Centos5.8 HadoopZookeeperHbaseHiveDFSZKFailoverControllerQuorumPeerMainHMasterJournalNodeNameNodeResourceManagerDataNodeHRegionServerNodeManager10.12.34.17/h17 Centos5.8 HadoopZookeeperHbaseHiveNodeManagerDataNodeQuorumPeerMainJournalNodeHRegionServer环境准备1.关闭防火墙15、16、17主机：# service iptables stop2.配置主机名a) 15、16、17主机：# vi /etc/hosts添加如下内容：10.12.34.15 h1510.12.34.16 h1610.12.34.17 h17b) 立即生效15主机：# /bin/hostname h1516主机：# /bin/hostname h1617主机：# /bin/hostname h173. 创建用户15、16、17主机：# useraddhduser密码为hduser# chown -R hduser:hduser /usr/local/4.配置SSH无密码登录a)修改SSH配置文件15、16、17主机：# vi /etc/ssh/sshd_config打开以下注释内容：#RSAAuthentication yes#PubkeyAuthentication yes#AuthorizedKeysFile .ssh/authorized_keysb)重启SSHD服务15、16、17主机：# service sshd restartc)切换用户15、16、17主机：# su hduserd)生成证书公私钥15、16、17主机：$ ssh‐keygen ‐t rsae)拷贝公钥到文件（先把各主机上生成的SSHD公钥拷贝到15上的authorized_keys文件，再把包含所有主机的SSHD公钥文件authorized_keys拷贝到其它主机上）15主机：$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys16主机：$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'17主机：$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'15主机：# cat ~/.ssh/authorized_keys | ssh hduser@h16 'cat >> ~/.ssh/authorized_keys'# cat ~/.ssh/authorized_keys | ssh hduser@h17 'cat >> ~/.ssh/authorized_keys'5.Mysqla) Host10.12.34.14:3306b) username、passwordhduser@hduserZookeeper使用hduser用户# su hduser安装（在15主机上）1.下载/apache/zookeeper/2.解压缩$ tar ‐zxvf /zookeeper‐3.4.6.tar.gz ‐C /usr/local/配置（在15主机上）1.将zoo_sample.cfg重命名为zoo.cfg$ mv /usr/local/zookeeper‐3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper‐3.4.6/conf/zoo.cfg2.编辑配置文件$ vi /usr/local/zookeeper‐3.4.6/conf/zoo.cfga)修改数据目录dataDir=/tmp/zookeeper修改为dataDir=/usr/local/zookeeper‐3.4.6/datab)配置server添加如下内容：server.1=h15:2888:3888server.2=h16:2888:3888server.3=h17:2888:3888server.X=A:B:C说明：X：表示这是第几号serverA：该server hostname/所在IP地址B：该server和集群中的leader交换消息时所使用的端口C：配置选举leader时所使用的端口3.创建数据目录$ mkdir /usr/local/zookeeper‐3.4.6/data4.创建、编辑文件$ vi /usr/local/zookeeper‐3.4.6/data/myid添加内容（与zoo.cfg中server号码对应）：1在16、17主机上安装、配置1.拷贝目录$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.17:/usr/local/2.修改myida)16主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1 修改为2b)17主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1修改为3启动$ cd /usr/local/zookeeper‐3.4.6/$./bin/zkServer.sh start查看状态：$./bin/zkServer.sh statusHadoop使用hduser用户# su hduser安装（在15主机上）一、安装Hadoop1.下载/apache/hadoop/common/2.解压缩$ tar ‐zxvf /hadoop‐2.4.0.tar.gz ‐C /usr/local/二、编译本地库，主机必须可以访问internet。

Hadoop完全分布式详细安装过程

Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware，用于支撑Linux系统。

2、在VMware上安装Ubuntu系统。

3、安装Hadoop前的准备工作：安装JDK和SSH服务。

4、配置Hadoop。

5、为了方便开发过程，需安装eclipse。

6、运行一个简单的Hadoop程序：WordCount.java注：在win7系统上，利用虚拟工具VMware建立若干个Linux系统，每个系统为一个节点，构建Hadoop集群。

先在一个虚拟机上将所有需要配置的东西全部完成，然后再利用VMware 的克隆功能，直接生成其他虚拟机，这样做的目的是简单。

二、所需软件1、VMware：VMware Workstation，直接百度下载（在百度软件中心下载即可）。

2、Ubuntu系统：ubuntu-15.04-desktop-amd64.iso，百度网盘：/s/1qWxfxso注：使用15.04版本的Ubuntu（其他版本也可以），是64位系统。

3、jdk：jdk-8u60-linux-x64.tar.gz，网址：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注：下载64位的Linux版本的jdk。

4、Hadoop：hadoop-1.2.1-bin.tar.gz，网址：/apache/hadoop/common/hadoop-1.2.1/注：选择1.2.1版本的Hadoop。

5、eclipse：eclipse-java-mars-1-linux-gtk-x86_64.tar.gz，网址：/downloads/?osType=linux注：要选择Linux版本的，64位，如下：6、hadoop-eclipse-plugin-1.2.1.jar，这是eclipse的一个插件，用于Hadoop的开发，直接百度下载即可。

三、安装过程1、安装VMware。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

1.Hadoop集群搭建（单机伪分布式）

1.Hadoop集群搭建（单机伪分布式）>>>加磁盘1）⾸先先将虚拟机关机2）选中需要加硬盘的虚拟机：右键-->设置-->选中硬盘，点击添加-->默认选中硬盘，点击下⼀步-->默认硬盘类型SCSI(S)，下⼀步-->默认创建新虚拟磁盘(V)，下⼀步-->根据实际需求，指定磁盘容量(单个或多个⽂件⽆所谓，选哪个都⾏)，下⼀步。

-->指定磁盘⽂件，选择浏览，找到现有虚拟机的位置(第⼀次出现.vmdk⽂件的⽂件夹)，放到⼀起，便于管理。

点击完成。

-->点击确定。

3) 可以看到现在选中的虚拟机有两块硬盘，点击开启虚拟机。

这个加硬盘只是在VMWare中，实际⼯作中直接买了硬盘加上就可以了。

4）对/dev/sdb进⾏分区df -h 查看当前已⽤磁盘分区fdisk -l 查看所有磁盘情况磁盘利⽤情况，依次对磁盘命名的规范为，第⼀块磁盘sda，第⼆块为sdb，第三块为sdc。

可以看到下图的Disk /dev/sda以第⼀块磁盘为例，磁盘分区的命名规范依次为sda1，sda2，sda3。

同理也会有sdb1，sdb2，sdb3。

可以参照下图的/dev/sda1。

下⾯的含义代表sda盘有53.7GB，共分为6527个磁柱，每个磁柱单元Units的⼤⼩为16065*512=8225280 bytes。

sda1分区为1-26号磁柱，sda2分区为26-287号磁柱，sda3为287-6528号磁柱下⾯的图⽚可以看到，还未对sdb磁盘进⾏分区fdisk /dev/sdb 分区命令可以选择m查看帮助，显⽰命令列表p 显⽰磁盘分区，同fdisk -ln 新增分区d 删除分区w 写⼊并退出选w直接将分区表写⼊保存，并退出。

mkfs -t ext4 /dev/sdb1 格式化分区，ext4是⼀种格式mkdir /newdisk 在根⽬录下创建⼀个⽤于挂载的⽂件mount /dev/sdb1 /newdisk 挂载sdb1到/newdisk⽂件(这只是临时挂载的解决⽅案，重启机器就会发现失去挂载)blkid /dev/sdb1 通过blkid命令⽣成UUIDvi /etc/fstab 编辑fstab挂载⽂件，新建⼀⾏挂载记录，将上⾯⽣成的UUID替换muount -a 执⾏后⽴即⽣效，不然的话是重启以后才⽣效。

hadoop学习笔记(一、hadoop集群环境搭建)

Hadoop集群环境搭建1、准备资料虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.62、基础环境设置2.1配置机器时间同步#配置时间自动同步crontab -e#手动同步时间/usr/sbin/ntpdate 1、安装JDK安装cd /home/wzq/dev./jdk-*****.bin设置环境变量Vi /etc/profile/java.sh2.2配置机器网络环境#配置主机名(hostname)vi /etc/sysconfig/network#修第一台hostname 为masterhostname master#检测hostname#使用setup 命令配置系统环境setup#检查ip配置cat /etc/sysconfig/network-scripts/ifcfg-eth0#重新启动网络服务/sbin/service network restart#检查网络ip配置/sbin/ifconfig2.3关闭防火墙2.4配置集群hosts列表vi /etc/hosts#添加一下内容到vi 中2.5创建用户账号和Hadoop部署目录和数据目录#创建hadoop 用户/usr/sbin/groupadd hadoop#分配hadoop 到hadoop 组中/usr/sbin/useradd hadoop -g hadoop#修改hadoop用户密码Passwd hadoop#创建hadoop 代码目录结构mkdir -p /opt/modules/hadoop/#修改目录结构权限拥有者为为hadoopchown -R hadoop:hadoop /opt/modules/hadoop/2.6生成登陆密钥#切换到Hadoop 用户下su hadoopcd /home/hadoop/#在master、node1、node2三台机器上都执行下面命令，生成公钥和私钥ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsacd /home/hadoop/.ssh#把node1、node2上的公钥拷贝到master上scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node1_pubkey scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node2_pubkey#在master上生成三台机器的共钥cp id_rsa.pub authorized_keyscat node1_pubkey >> authorized_keyscat node2_pubkey >> authorized_keysrm node1_pubkey node2_pubkey#吧master上的共钥拷贝到其他两个节点上scp authorized_keys node1: /home/hadoop/.ssh/scp authorized_keys node1: /home/hadoop/.ssh/#验证ssh masterssh node1ssh node2没有要求输入密码登陆，表示免密码登陆成功3、伪分布式环境搭建3.1下载并安装JAVA JDK系统软件#下载jdkwget http://60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin#安装jdkchmod +x jdk-6u21-linux-i586-rpm.bin./jdk-6u21-linux-i586-rpm.bin#配置环境变量vi /etc/profile.d/java.sh#手动立即生效source /etc/profile3.2 Hadoop 文件下载和安装#切到hadoop 安装路径下cd /opt/modules/hadoop/#从下载Hadoop 安装文件wget /apache-mirror/hadoop/common/hadoop-1.0.3/hadoop-1.0.3.tar.gz#如果已经下载,请复制文件到安装hadoop 文件夹cp hadoop-1.0.3.tar.gz /opt/modules/hadoop/#解压hadoop-1.0.3.tar.gzcd /opt/modules/hadoop/tar -xvf hadoop-1.0.3.tar.gz#配置环境变量vi /etc/profile.d/java.sh#手动立即生效source /etc/profile3.3配置hadoop-env.sh 环境变量#配置jdk。

大数据--Hadoop集群环境搭建

⼤数据--Hadoop集群环境搭建⾸先我们来认识⼀下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式⽂件系统。

它其实是将⼀个⼤⽂件分成若⼲块保存在不同服务器的多个节点中。

通过联⽹让⽤户感觉像是在本地⼀样查看⽂件，为了降低⽂件丢失造成的错误，它会为每个⼩⽂件复制多个副本（默认为三个），以此来实现多机器上的多⽤户分享⽂件和存储空间。

Hadoop主要包含三个模块：HDFS模块：HDFS负责⼤数据的存储，通过将⼤⽂件分块后进⾏分布式存储⽅式，突破了服务器硬盘⼤⼩的限制，解决了单台机器⽆法存储⼤⽂件的问题，HDFS是个相对独⽴的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。

YARN模块：YARN是⼀个通⽤的资源协同和任务调度框架，是为了解决Hadoop中MapReduce⾥NameNode负载太⼤和其他问题⽽创建的⼀个框架。

YARN是个通⽤框架，不⽌可以运⾏MapReduce，还可以运⾏Spark、Storm等其他计算框架。

MapReduce模块：MapReduce是⼀个计算框架，它给出了⼀种数据处理的⽅式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。

它只适⽤于⼤数据的离线处理，对实时性要求很⾼的应⽤不适⽤。

多相关信息可以参考博客：。

本节将会介绍Hadoop集群的配置，⽬标主机我们可以选择虚拟机中的多台主机或者多台阿⾥云服务器。

注意：以下所有操作都是在root⽤户下执⾏的，因此基本不会出现权限错误问题。

⼀、Vmware安装VMware虚拟机有三种⽹络模式，分别是Bridged(桥接模式)、NAT(⽹络地址转换模式)、Host-only(主机模式)：桥接：选择桥接模式的话虚拟机和宿主机在⽹络上就是平级的关系，相当于连接在同⼀交换机上；NAT：NAT模式就是虚拟机要联⽹得先通过宿主机才能和外⾯进⾏通信；仅主机：虚拟机与宿主机直接连起来。

Hadoop集群安装与配置实验报告

3.1 首先需要为 hadoop 用户生成密钥。 .............................................................................. 4 3.2 完成之后测试是否成功..................................................................................................... 5 四、安装配置 Hadoop..................................................................................................................... 5 五、多机器 HDFS 集群配置 ............................................................................................................ 6 5.1 首先将每台机器的 IP 设为静态 IP。............................................................................... 6 5.2 修改每台电脑的/etc/hosts 文件，【vi /etc/hosts】说明各机器的 IP 地址和角色。 6 .................................................................................................................................................. 6 5.3 配置各机器间 SSH ............................................................................................................ 6 5.4 配置 Hadoop 各机器角色 ............................................................................................. 7 5.5 配置 Hadoop .................................................................................................................. 7 5.6 启动 Hadoop ................................................................................................................ 9 六、示例程序的运行..................................................................................................................... 10 6.2 创建 file 文件夹： ..........................................................................................................10 6.3 在 HDFS 上创建输入文件夹目录 input ： .....................................................10 6.4 在 HDFS 上创建输入文件夹目录 input ： .....................................................10 6.5、 Hadoop 自带的运行 wordcount 例子的 jar 包： ...................................10 6.6 开始运行 wordcount： ...........................................................................................11 七、心得体会 .............................................................................................................................11

Redhat上Hadoop集群安装

Redhat上搭建Hadoop集群一、系统准备1、环境准备OS：Redhat 6.3 EnterpriseJDK：jdk1.6.0_45Hadoop：Hadoop-0.20.2VMWare：9.02、环境部署二、配置步骤总体思路：1台机器上配置好，然后克隆另外2台机器1、防火墙关闭三台虚拟机的防火墙，步骤可参考：关闭防火墙2、修改主机名修改主机名：vi /etc/hosts(解析IP要用)，添加192.168.179.90 master192.168.179.91 slave1192.168.179.92 slave2设置主机ip地址（注意先设置ip地址，后建ssh）3、创建hadoop用户useradd -g root hadoop4、安装jdk执行文件：sudo -s {jdk_install_dir}/jdk-6u26-linux-i586.bin，一路确定配置环境变量：vi ~/.bash_profile,添加：export JAVA_HOME=/java/jdk1.6.0_45PATH=$PATH:$HOME/bin:$JAVA_HOME/binexport PATH使profile文件生效：source .bash_profile验证是否配置成功：which java5、建立ssh互信hadoop 需要通过ssh互信来启动slave里表中各个主机的守护进程，所以SSH是必须安装的。

但是是否建立ssh互信（即无密码登陆）并不是必须的，但是如果不配置，每次启动hadoop，都需要输入密码以便登录到每台机器的Datanode上，而一般的hadoop集群动辄数百或数千台机器，因此一般来说都会配置ssh互信。

1、以hadoop身份，生成密钥并配置ssh无密码登陆主机(在master主机)ssh -keygen -t rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys6、安装hadoop放到~/bin下解压：tar -xzvf hadoop-0.20.2.tar.gz解压后进入：~/bin/hadoop-0.20.2/conf/，修改配置文件：a、修改hadoop-env.sh:export JAVA_HOME=/java/jdk1.6.0_45hadoop-env.sh里面有这一行，默认是被注释的，只需要把注释去掉，并且把JAVA_HOME 改成你的java安装目录即可b、修改core-site.xml<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration><property><name></name><value>hdfs://master:9000</value></property><property><name>Hadoop.tmp.dir</name><value>/tmp/hadoop-root</value></property></configuration>注释一：hadoop分布式文件系统文件存放位置都是基于hadoop.tmp.dir目录的，namenode 的名字空间存放地方就是${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是${hadoop.tmp.dir}/dfs/data，所以设置好hadoop.tmp.dir目录后，其他的重要目录都是在这个目录下面，这是一个根目录。

Hadoop实验集群搭建手册

Hadoop实验集群搭建手册目录1.目的： (4)2.集群构成： (4)2.1.集群构成图： (4)2.2.集群构成明细： (5)3.Hadoop安装前的准备： (5)3.1.安装JDK (5)3.2.修改/etc/hosts文件 (6)3.3.增加Hadoop集群专有用户 (7)3.4.安装和配置SSH (7)4.安装和配置Hadoop集群 (8)4.1.在NameNode节点安装Hadoop (8)4.2.修改search用户环境设置文件 (9)4.3.在NameNode节点配置Hadoop (10)4.3.1配置hadoop-env.sh文件 (10)4.3.2配置core-site.xml文件. (11)4.3.3配置mapred-site.xml文件 (11)4.3.4配置hdfs-site.xml文件 (12)4.3.5配置yarn-site.xml文件 (13)4.3.6配置主、从节点列表文件 (14)4.4.远程复制Hadoop到集群其他节点 (14)5.启动Hadoop集群 (14)5.1.系统格式化 (14)5.2.启动集群 (15)5.2.1启动HDFS分布式文件系统 (15)5.2.2启动YARN资源管理器 (15)5.2.3验证集群运行状况 (15)6.Hadoop集群动态扩展 (17)6.1.Hosts和Slaves文件中增加新增节点信息 (18)6.2.配置新增节点的SSH (18)6.3.远程复制Hadoop到新增节点 (19)6.4.在新增节点上单独启动Hadoop (19)1.目的：本手册旨在熟悉Hadoop2.X集群的安装与配置过程。

通过本手册的内容，使用户可以搭建一个拥有三个节点的Hadoop集群。

2.集群构成：2.1.集群构成图：Secondary NameNode 192.168.82.109:50090DataNodeDataNode 192.168.82.1072.2.集群构成明细：该集群一共有三个安装了64位CentOS6.6系统的服务器节点。

(完整版)Hadoop安装教程_伪分布式配置_CentOS6.4_Hadoop2.6.0

Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0都能顺利在CentOS 中安装并运行Hadoop。

环境本教程使用CentOS 6.4 32位作为系统环境，请自行安装系统（可参考使用VirtualBox安装CentOS）。

如果用的是Ubuntu 系统，请查看相应的Ubuntu安装Hadoop教程。

本教程基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1, Hadoop 2.4.1等。

Hadoop版本Hadoop 有两个主要版本，Hadoop 1.x.y 和Hadoop 2.x.y 系列，比较老的教材上用的可能是0.20 这样的版本。

Hadoop 2.x 版本在不断更新，本教程均可适用。

如果需安装0.20，1.2.1这样的版本，本教程也可以作为参考，主要差别在于配置项，配置请参考官网教程或其他教程。

新版是兼容旧版的，书上旧版本的代码应该能够正常运行（我自己没验证，欢迎验证反馈）。

装好了CentOS 系统之后，在安装Hadoop 前还需要做一些必备工作。

创建hadoop用户如果你安装CentOS 的时候不是用的“hadoop” 用户，那么需要增加一个名为hadoop 的用户。

首先点击左上角的“应用程序” -> “系统工具” -> “终端”，首先在终端中输入su，按回车，输入root 密码以root 用户登录，接着执行命令创建新用户hadoop:如下图所示，这条命令创建了可以登陆的hadoop 用户，并使用/bin/bash 作为shell。

CentOS创建hadoop用户接着使用如下命令修改密码，按提示输入两次密码，可简单的设为“hadoop”（密码随意指定，若提示“无效的密码，过于简单”则再次输入确认就行）:可为hadoop 用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题，执行：如下图，找到root ALL=(ALL) ALL这行（应该在第98行，可以先按一下键盘上的ESC键，然后输入:98 (按一下冒号，接着输入98，再按回车键)，可以直接跳到第98行），然后在这行下面增加一行内容：hadoop ALL=(ALL) ALL（当中的间隔为tab），如下图所示：为hadoop增加sudo权限添加上一行内容后，先按一下键盘上的ESC键，然后输入:wq (输入冒号还有wq，这是vi/vim编辑器的保存方法)，再按回车键保存退出就可以了。

hadoop安装指南(非常详细,包成功)

➢3.10.2.进程➢JpsMaster节点：namenode/tasktracker（如果Master不兼做Slave, 不会出现datanode/TasktrackerSlave节点：datanode/Tasktracker说明：JobTracker 对应于NameNodeTaskTracker 对应于DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每个Task（即MapTask和ReduceTask）并将它们分发到各个TaskTracker服务中去执行2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。

一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。

TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

TaskTracker都需要运行在HDFS的DataNode上3.10.3.文件系统HDFS⏹查看文件系统根目录：Hadoop fs–ls /。

Hadoop集群搭建详细简明教程

Hadoop 集群搭建详细简明教程
Linux 操作系统安装
利用 vmware 安装 Linux 虚拟机，选择 CentOS 操作系统
搭建机器配置说明
本人机器是 thinkpadt410，i7 处理器，8G 内存，虚拟机配置为 2G 内存，大家可以按照自己的机器做相应调整，但虚拟机内存至少要求 1G。
会出现虚拟机硬件清单，我们要修改的，主要关注“光驱”和“软驱”，如下图：选择“软驱”，点击“remove”移除软驱：
选择光驱，选择 CentOS ISO 镜像，如下图：最后点击“Close”，回到“硬件配置页面”，点击“Finsh”即可，如下图：下图为创建all or upgrade an existing system”
执行 java –version 命令会出现上图的现象。从网站上下载 jdk1.6 包( jdk-6u21-linux-x64-rpm.bin )上传到虚拟机上修改权限：chmod u+x jdk-6u21-linux-x64-rpm.bin 解压并安装: ./jdk-6u21-linux-x64-rpm.bin (默认安装在/usr/java 中) 配置环境变量：vi /etc/profile 在该 profile 文件中最后添加：
选择“Skip”跳过，如下图：
选择“English”，next，如下图：键盘选择默认，next，如下图：
选择默认，next，如下图：
输入主机名称，选择“CongfigureNetwork” 网络配置，如下图：
选中 system eth0 网卡，点击 edit，如下图：
选择网卡开机自动连接，其他不用配置（默认采用 DHCP 的方式获取 IP 地址），点击“Apply”，如下图：

大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置

大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置实验内容：（一）安装和配置CentOS（二）安装和配置Java环境（三）启动和配置SSH绵密登录（四）安装和配置Hadoop设置仅主机连接模式启动Linux虚拟机，手动设置IP地址，注意和windows下虚拟网卡地址一个网段；2. 安装winscp(windows和linux虚拟机传数据的小工具),pieTTY(linux小客户端)，并使用工具连接到虚拟机linux，通过winscp上传jdk、hadoop到linux虚拟机；3. 永久关闭防火墙，和Selinux，不然ssh无密码连接时可能会无法连接。

执行如下命令/etc/init.d/iptables stopchkconfig iptables offvi /etc/sysconfig/selinux 设置SELINUX=disabled4. 进入/etc/hosts添加自己的IP地址和主机名。

如192.168.18.120 hadoop5. 安装jdk并配置环境变量。

（用RPM包或压缩包）。

rmp安装命令：rpm -ivh jdk-7u67-linux-x86.rpmmv命令jdk相关目录改名进入/etc/profile文件，添加Java环境变量vi /etc/profileexport JAVA_HOME=/usr/local/jdkexport PATH=$PATH:$JAVA_HOME/bin执行source /etc/profile 刷新配置文件验证jdk是否成功。

Java -version6. 配置用户免密码登录。

7.安装hadoop（安装版本hadoop 2.7版本以上）使用ssh上传文件到linux主机执行了mv命令解压后更改文件夹名为hadoop在/etc/profile文件下添加环境变量，如下export HADOOP_HOME=/home/hadoop/hadoopexport PATH=$PATH:$HADOOP_HOME/bin保存配置文件执行source /etc/profile 使其立即生效切换到hadoop_home 下etc/Hadoop下修改相关配置文件。

Hadoop大数据开发基础教案Hadoop集群的搭建及配置教案

Hadoop大数据开发基础教案-Hadoop集群的搭建及配置教案教案章节一：Hadoop简介1.1 课程目标：了解Hadoop的发展历程及其在大数据领域的应用理解Hadoop的核心组件及其工作原理1.2 教学内容：Hadoop的发展历程Hadoop的核心组件（HDFS、MapReduce、YARN）Hadoop的应用场景1.3 教学方法：讲解与案例分析相结合互动提问，巩固知识点教案章节二：Hadoop环境搭建2.1 课程目标：学会使用VMware搭建Hadoop虚拟集群掌握Hadoop各节点的配置方法2.2 教学内容：VMware的安装与使用Hadoop节点的规划与创建Hadoop配置文件（hdfs-site.xml、core-site.xml、yarn-site.xml）的编写与配置2.3 教学方法：演示与实践相结合手把手教学，确保学生掌握每个步骤教案章节三：HDFS文件系统3.1 课程目标：理解HDFS的设计理念及其优势掌握HDFS的搭建与配置方法3.2 教学内容：HDFS的设计理念及其优势HDFS的架构与工作原理HDFS的搭建与配置方法3.3 教学方法：讲解与案例分析相结合互动提问，巩固知识点教案章节四：MapReduce编程模型4.1 课程目标：理解MapReduce的设计理念及其优势学会使用MapReduce解决大数据问题4.2 教学内容：MapReduce的设计理念及其优势MapReduce的编程模型（Map、Shuffle、Reduce）MapReduce的实例分析4.3 教学方法：互动提问，巩固知识点教案章节五：YARN资源管理器5.1 课程目标：理解YARN的设计理念及其优势掌握YARN的搭建与配置方法5.2 教学内容：YARN的设计理念及其优势YARN的架构与工作原理YARN的搭建与配置方法5.3 教学方法：讲解与案例分析相结合互动提问，巩固知识点教案章节六：Hadoop生态系统组件6.1 课程目标：理解Hadoop生态系统的概念及其重要性熟悉Hadoop生态系统中的常用组件6.2 教学内容：Hadoop生态系统的概念及其重要性Hadoop生态系统中的常用组件（如Hive, HBase, ZooKeeper等）各组件的作用及相互之间的关系6.3 教学方法：互动提问，巩固知识点教案章节七：Hadoop集群的调优与优化7.1 课程目标：学会对Hadoop集群进行调优与优化掌握Hadoop集群性能监控的方法7.2 教学内容：Hadoop集群调优与优化原则参数调整与优化方法（如内存、CPU、磁盘I/O等）Hadoop集群性能监控工具（如JMX、Nagios等）7.3 教学方法：讲解与案例分析相结合互动提问，巩固知识点教案章节八：Hadoop安全与权限管理8.1 课程目标：理解Hadoop安全的重要性学会对Hadoop集群进行安全配置与权限管理8.2 教学内容：Hadoop安全概述Hadoop的认证与授权机制Hadoop安全配置与权限管理方法8.3 教学方法：互动提问，巩固知识点教案章节九：Hadoop实战项目案例分析9.1 课程目标：学会运用Hadoop解决实际问题掌握Hadoop项目开发流程与技巧9.2 教学内容：真实Hadoop项目案例介绍与分析Hadoop项目开发流程（需求分析、设计、开发、测试、部署等）Hadoop项目开发技巧与最佳实践9.3 教学方法：案例分析与讨论团队协作，完成项目任务教案章节十：Hadoop的未来与发展趋势10.1 课程目标：了解Hadoop的发展现状及其在行业中的应用掌握Hadoop的未来发展趋势10.2 教学内容：Hadoop的发展现状及其在行业中的应用Hadoop的未来发展趋势（如Big Data生态系统的演进、与大数据的结合等）10.3 教学方法：讲解与案例分析相结合互动提问，巩固知识点重点和难点解析：一、Hadoop生态系统的概念及其重要性重点：理解Hadoop生态系统的概念，掌握生态系统的组成及相互之间的关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（Java私塾）Hadoop集群安装
第一部分：环境规划
•用户test 密码test
•机器
主机名IP角色
bigdata-1
172.16.206.205 NameNode JobTraker Sencondary NameNode
bigdata-2
172.16.206.231 DataNode TaskTracker •NameNode元数据目录
•/home/test/dfs/namenode
•DataNode 数据存放目录
•/home/test/dfs/d atanode
•Sencondary NameNode
•/home/test/dfs/sencondnode
第二部分：安装JDK并配置环境变量
安装 JDK 并配置环境变量
•2 台机器做同样的事情
•更改执行权限
•chmod +x jdk-6u24-linux-i586.bin
•安装
•./jdk-6u24-linux-i586.bin
•配置环境变量
•Home路径下，打开.bashrc文件，命令如下
•vi .bashrc
•添加JAVA环境变量
•export JAVA_HOME=/home/hadoop/java
•export PATH=$JAVA_HOME/bin:$PATH
第三部分：建立互信配置SSH
配置互信
每台机器上执行
$ ssh-keygen
$ ssh-copy-id -i ~/.ssh/id_rsa.pub bigdata -1
$ ssh-copy-id -i ~/.ssh/id_rsa.pub bigdata-2
第四部分：安装Hadoop并配置环境变量
安装并配置Hadoop的环境变量
•解压Hadoop，到/home/test路径下
• tar zxvf hadoop-1.0.0.tar.gz
•建立软连接
•ln –s hadoop-1.0.0 hadoop
•配置环境变量
•vi .bashrc
•添加如下内容
export HADOOP_CORE_HOME=/home/test/ hadoop
export PATH=.:$HADOOP_CORE_HOME/bin:$PATH
第五部分：配置Hadoop集群
core-site.xml
<configuration>
<property>
<name></name>
<value>hdfs://bigdata-1:9000</value>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>/home/test/dfs/sencondnode</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>.dir</name>
<value>/home/test/dfs/namenode </value>
</property>
<property>
<name>dfs.data.dir</name>
<value> >/home/test/dfs/datanode</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>bigdata-1:9001</value>
</property>
</configuration>
master与slaves
•mas ter
文件添加内容如下
bigdata-1
•Slaves
文件添加内容如下
bigdata-2
Hadoop-env.sh
•export JAVA_HOME=/home/tes/soft/java
第六部分：启动Hadoop集群
启动Hadoop集群
•hadoop namenode -format
•start-all.sh
•start-dfs.sh start-mapred.sh
•ha doop-deamon.sh start namenode
datanode
jobtracker
tasktracker
sencondnamenode
第七部分：测试WordCount 程序
测试WordCount 程序
•hadoop fs –mkdir input
•hadoop fs –put test.txt input
•hadoop jar hadoop-examples-*.jar wordcount input output。