HADOOP2.2安装部署手册
hadoop2.2.0安装笔记
Hadoop 2.2 安装笔记测试环境:硬件:PC 机(12G内存, AMD phenomII x4 CPU,120G SSD硬盘)软件:win7 64位旗舰版操作系统vmware workstation 9.01SSH Secure Shell ClientCentOS-6.4-x86_64-minimaljdk-7u45-linux-x64hadoop-2.2.0第一步Linux 虚拟机安装和配置1.下载好linux操作系统镜像,建立三个空目录用来存放虚机2.建立三个虚拟机,1vcpu,2G内存,20G硬盘。
网络连接模式设置为桥接3.挂载iso镜像,安装系统,主机名分别设置为h1.hadooph2.hadooph3.hadooproot的密码都设成了hadoop由于使用的是centos最小安装镜像,所以各种设置采用默认的即可。
centos 最小安装版镜像地址/centos/6.4/isos/x86_64/4.修改三台虚机的网络配置,设置静态IP(物理机的ip为192.168.1.xx)h1 192.168.1.21h2 192.168.1.22h3 192.168.1.23重启虚机网络service network restart5.关闭防火墙:(非常重要)在三台机器上运行chkconfig iptables off (重启后生效)6.修改三台机器的/etc/hosts文件,加入以下三行192.168.1.21 h1 h1.hadoop192.168.1.22 h2 h2.hadoop192.168.1.23 h3 h3.hadoop7.安装完成后关机,快照。
(防止误操作)第二步,安装JDK1.下载JDK,使用secure file transfer工具上传到三台虚机(由于使用的是centos,我下载的RPM包)JDK下载地址/technetwork/java/javase/downloads/jdk7-downloads-1 880260.html2.在每台虚机上安装JDK[root@h3 ~]# rpm -ivh jdk-7u45-linux-x64.rpm第三步配置SSH 互信1.在每一台机器上创建RSA公钥2.将三台机器的公钥文件id_rsa.pub合并,并拷回每台机器的~/.ssh/,重命名为authorized_keysh1[root@h1 .ssh]# scp ~/.ssh/id_rsa.pub root@h2:~/.ssh/authorized_keysh2[root@h2 ~]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys[root@h2 ~]# scp ~/.ssh/authorized_keys root@h3:~/.ssh/authorized_keysh3[root@h3 ~]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys[root@h3 ~]# scp ~/.ssh/authorized_keys root@h1:~/.ssh/[root@h3 ~]# scp ~/.ssh/authorized_keys root@h2:~/.ssh/3.用每一台机器ssh连接另外两台,确保不用输入密码[root@h1 ~]# ssh h2Last login: Tue Jan 1 17:33:24 2008 from h3[root@h2 ~]# exitlogoutConnection to h2 closed.[root@h1 ~]# ssh h3Last login: Tue Jan 1 17:33:08 2008 from h2[root@h3 ~]# exitlogoutConnection to h3 closed.注意第一次建立连接时会有一个提示,以后就不会有了[root@h1 ~]# ssh h3The authenticity of host 'h3 (192.168.1.23)' can't be established.RSA key fingerprint is ba:26:62:1f:f7:46:24:cd:f9:95:c3:55:82:eb:4e:5a.Are you sure you want to continue connecting (yes/no)? yesWarning: Permanently added 'h3,192.168.1.23' (RSA) to the list of known hosts. Last login: Tue Jan 1 17:18:53 2008 from 192.168.1.104第四步安装hadoop1.下载hadoop,由于2.2.x已经发布了稳定版,所以我下载了这个版本下载地址/apache/hadoop/common/hadoop-2.2.0/2.将hadoop-2.2.0.tar.gz 上传到h1节点3.解压安装包[root@h1 ~]# tar -zxvf hadoop-2.2.0.tar.gz4.修改hadoop-env.sh 文件[root@h1 hadoop]# vi /root/hadoop-2.2.0/etc/hadoop/hadoop-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_455.修改core-site.xml文件[root@h1 hadoop]# vi core-site.xml<configuration><property><name></name><value>hdfs://h1:9000</value></property><property><name>hadoop.tmp.dir</name><value>/root/hadoop/tmp</value></property></configuration>6.建立hadoop临时目录(同样也要在节点2和节点3上建立)[root@h1 hadoop]# mkdir -p ~/hadoop/tmp7.修改 hdfs-site.xml文件[root@h1 hadoop]# vi hdfs-site.xml<configuration><property><name>dfs.replication</name><value>2</value></property></configuration>8.修改mapred-site.xml文件[root@h1 hadoop]# cp mapred-site.xml.template mapred-site.xml [root@h1 hadoop]# vi mapred-site.xml<configuration><property><name>mapred.job.tracker</name><value>h1:9001</value></property></configuration>9.修改masters文件[root@h1 hadoop]# vi mastersh110.修改slaves文件[root@h1 hadoop]# vi slavesh2h311.将hadoop-2.2.0拷贝到节点2和3[root@h1 ~]# scp -r hadoop-2.2.0 root@h2:~[root@h1 ~]# scp -r hadoop-2.2.0 root@h3:~12.格式化name node[root@h1 bin]# ~/hadoop-2.2.0/bin/hadoop namenode -format13.启动hadoop集群[root@h1 bin]# ./start-all.sh14.验证集群状态h1h2h3总结:1.整个安装步骤基本顺利,hadoop采用了java虚拟机,所以相对于其他系统简单很多。
hadoop2安装完整步骤
<value>master1:9000</value>
</property>
<property>
<name>node.rpc-address.hadoop-cluster1.nn2</name>
mkdir -m 755 rlocal
mkdir -m 755 nodemanagerlogs
mkdir -m 755 nodemanagerremote
cd /home/hadoop/hadoop2/etc/hadoop
修改core-site.xml
<configuration>
一、环境准备,参看hadoop安装手顺(一到四章节)
二、找三台机器安装zookeeper,本例中三台服务器为masterha1、masterha2和master2
三、安装hadoop2
1.解压缩hadoop-2.2.0.tar.gz 并改名为hadoop2 添加环境变量HADOOP_HOME、PATH(注意除了bin目录外还有sbin目录)
</property>
<!--cluster1-->
<property>
<name>nodes.hadoop-cluster1</name>
<value>nn1,nn2</value>
</property>
<property>
大数据Hadoop集群安装部署文档
大数据Hadoop集群安装部署文档一、背景介绍大数据时代下,海量数据的处理和分析成为了一个重要的课题。
Hadoop是一个开源的分布式计算框架,能够高效地处理海量数据。
本文将介绍如何安装和部署Hadoop集群。
二、环境准备1.集群规模:本文以3台服务器组成一个简单的Hadoop集群。
2.操作系统:本文以Linux作为操作系统。
三、安装过程1.安装JavaHadoop是基于Java开发的,因此需要先安装Java。
可以通过以下命令安装:```sudo apt-get updatesudo apt-get install openjdk-8-jdk```2.安装Hadoop```export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin```保存文件后,执行`source ~/.bashrc`使配置生效。
3.配置Hadoop集群在Hadoop安装目录中的`etc/hadoop`目录下,有一些配置文件需要进行修改。
a.修改`hadoop-env.sh`文件该文件定义了一些环境变量。
可以找到JAVA_HOME这一行,将其指向Java的安装目录:```export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64```b.修改`core-site.xml`文件```<property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>```c.修改`hdfs-site.xml`文件```<property><name>dfs.replication</name><value>3</value></property>```其中,`dfs.replication`定义了数据的副本数,这里设置为34.配置SSH免密码登录在Hadoop集群中,各个节点之间需要进行通信。
(完整word版)centos6下安装部署hadoop2.2
centos6下安装部署hadoop2。
2hadoop安装入门版,不带HA,注意理解,不能照抄.照抄肯定出错。
我在安装有centos7(64位)的机器上,使用hadoop2。
5版本,安装验证过,但我没有安装过hadoop2。
2,仅供参考.如果你的(虚拟机)操作系统和JVM/JDK是64位的,就直接安装hadoop 2.5版本,无需按照网上说的去重新编译hadoop,因为它的native库就是64位了;如果你的(虚拟机)操作系统和JVM/JDK是32位的,就直接安装hadoop 2。
4以及之前的版本.安装小技巧和注意事项:1. 利用虚拟机clone的技术。
2. 不要在root用户下安装hadoop,自己先事先建立一个用户。
3。
如果需要方便操作,可以把用户名添加到sudoers文件中,使用sudo命令执行需要root权限的操作。
4。
Linux里面有严格的权限管理,很多事情普通用户做不了,习惯使用windows的同学,需要改变观念。
5。
centos7与之前的版本,在很多命令上有区别,centos与ubuntu有存在很多操作上的差别。
6. Hadoop 2.5版本中的native lib库是64位的,而hadoop 2。
2版本中的native lib库是32位的。
网上教程大多数针对hadoop2。
2写的,如果你是64位的虚拟机,你直接安装Hadoop 2.5版本就行。
7. 确认虚拟机安装并启用了sshd服务后,用xshell客户端连接Linux虚拟机,不要在vmware workstation 里面操作。
用xshell可以非常方便的复制文字和命令等。
学习Hadoop安装的步骤(1)可以先参考网上的资料“虾皮博客”http://www。
/xia520pi/xia520pi/archive/2012/05/16/2503949.html安装一个hadoop 1.2 版本,熟悉一下,搞明白后,再安装hadoop 2.x版本。
hadoop2.2实例安装步骤8-实用
2.3.1、 hadoop2安装手顺一、环境准备,参看hadoop安装手顺(一到四章节 jdk ssh)•服务器规划如下:master1-hadoop2: 192.168.137.23 主机名:master1(active namenode,RM)master1-ha-hadoop2: 192.168.137.24 主机名:masterha1(standby namenode,jn)master2-hadoop2: 192.168.137.31 主机名:master2(active namenode,jn)master2-ha-hadoop2: 192.168.137.40 主机名:masterha2(standby namenode,jn)slave1-hadoop2: 192.168.137.25 主机名:slave1(datanode,nodemanager)slave2-hadoop2: 192.168.137.26 主机名:slave2(datanode,nodemanager)slave3-hadoop2: 192.168.137.27 主机名:slave3(datanode,nodemanager)二、找三台机器安装zookeeper,本例中三台服务器为masterha1、masterha2和master2三、安装hadoop21.解压缩hadoop-2.2.0.tar.gz 并改名为hadoop2 添加环境变量HADOOP_HOME、PATH(注意除了bin目录外还有sbin目录)2.cd ~/hadoop创建以下目录 权限设置为755(mkdir -m 755 xxx)mkdir -m 755 namedirmkdir -m 755 datadirmkdir -m 755 tmpmkdir -m 755 jndirmkdir -m 755 hadoopmrsysmkdir -m 755 hadoopmrlocalmkdir -m 755 nodemanagerlocalmkdir -m 755 nodemanagerlogsmkdir -m 755 nodemanagerremotecd /home/hadoop/hadoop2/etc/hadoophadoop2配置文件.zip配置文件.txt修改core-site.xml<configuration><property><name>fs.defaultFS</name><value>viewfs:///</value></property><property><name>fs.viewfs.mounttable.default.link./tmp</name><value>hdfs://hadoop-cluster1/tmp</value></property><property><name>fs.viewfs.mounttable.default.link./tmp2</name><value>hdfs://hadoop-cluster2/tmp2</value></property></configuration>修改hdfs-site.xml<configuration><!-- 使用federation时,使用了2个HDFS集群。
Hadoop集群安装详细步骤亲测有效
Hadoop集群安装详细步骤亲测有效第一步:准备硬件环境- 64位操作系统,可以是Linux或者Windows-4核或更高的CPU-8GB或更高的内存-100GB或更大的硬盘空间第二步:准备软件环境- JDK安装:Hadoop运行需要Java环境,所以我们需要先安装JDK。
- SSH配置:在主节点和从节点之间建立SSH连接是Hadoop集群正常运行的前提条件,所以我们需要在主节点上生成SSH密钥,并将公钥分发到从节点上。
第四步:配置Hadoop- core-site.xml:配置Hadoop的核心参数,包括文件系统的默认URI和临时目录等。
例如,可以将`hadoop.tmp.dir`设置为`/tmp/hadoop`。
- hdfs-site.xml:配置Hadoop分布式文件系统的参数,包括副本数量和块大小等。
例如,可以将副本数量设置为`3`。
- yarn-site.xml:配置Hadoop的资源管理系统(YARN)的参数。
例如,可以设置YARN的内存资源分配方式为容器的最大和最小内存均为1GB。
- mapred-site.xml:配置Hadoop的MapReduce框架的参数。
例如,可以设置每个任务容器的内存限制为2GB。
第五步:格式化Hadoop分布式文件系统在主节点上执行以下命令,格式化HDFS文件系统:```hadoop namenode -format```第六步:启动Hadoop集群在主节点上执行以下命令来启动Hadoop集群:```start-all.sh```此命令将启动Hadoop的各个组件,包括NameNode、DataNode、ResourceManager和NodeManager。
第七步:测试Hadoop集群可以使用`jps`命令检查Hadoop的各个进程是否正常运行,例如`NameNode`、`DataNode`、`ResourceManager`和`NodeManager`等进程都应该在运行中。
hadoop集群安装配置的主要操作步骤-概述说明以及解释
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册
Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册前言: (3)一. Hadoop安装(伪分布式) (4)1. 操作系统 (4)2. 安装JDK (4)1> 下载并解压JDK (4)2> 配置环境变量 (4)3> 检测JDK环境 (5)3. 安装SSH (5)1> 检验ssh是否已经安装 (5)2> 安装ssh (5)3> 配置ssh免密码登录 (5)4. 安装Hadoop (6)1> 下载并解压 (6)2> 配置环境变量 (6)3> 配置Hadoop (6)4> 启动并验证 (8)前言:网络上充斥着大量Hadoop1的教程,版本老旧,Hadoop2的中文资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际工作中的经验,提供一套最新版本的Hadoop2相关教程。
为什么是Hadoop2.2.0,而不是Hadoop2.4.0本文写作时,Hadoop的最新版本已经是2.4.0,但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0,且Hadoop2.2.0已经相对稳定,所以我们依然采用2.2.0版本。
一. Hadoop安装(伪分布式)1. 操作系统Hadoop一定要运行在Linux系统环境下,网上有windows下模拟linux环境部署的教程,放弃这个吧,莫名其妙的问题多如牛毛。
2. 安装JDK1> 下载并解压JDK我的目录为:/home/apple/jdk1.82> 配置环境变量打开/etc/profile,添加以下内容:export JAVA_HOME=/home/apple/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar执行source /etc/profile ,使更改后的profile生效。
hadoop2.2.0分布式配置
Hadoop2.2.0分布式配置一、系统环境:IP 账号/主机名功能操作系统192.168.25.150 hadoop@hadoopm nm/rm/sm red hat enterprise linux 6.0 192.168.25.151 hadoop@hadoopd1 dn/rm red hat enterprise linux 6.0 192.168.25.152 hadoop@hadoopd2 dn/rm red hat enterprise linux 6.0二、设置HOST:vi /etc/hosts192.168.25.150 hadoopm192.168.25.151 hadoopd1192.168.25.152 hadoopd2注释掉localhost等配置:#127.0.0.1 localhost.localdomain localhost#::1 localhost6.localdomain6 localhost6设置好后,将此文件直接覆盖到其它主机对应的文件。
三、设置静态IP:查看ip:Ifconfig设置静态ip:vi /etc/sysconfig/networkNETWORKING=yesNETWORKING_IPV6=noHOSTNAME= hadoopm #主机名DEVICE=eth0 #网卡标志ONBOOT=yes #是否自动启动BOOTPROTO=static #是否使用静态IPIPADDR=192.168.25.150 #当前机器的IP地址NETMASK=255.255.255.0 #子网掩码GATEWAY=192.168.25.255 #网关也可以单独修改具体网卡的ip配置:vi /etc/sysconfig/network-scripts/ifcfg-ethoDEVICE=eth0 #网卡标志ONBOOT=yes #是否自动启动BOOTPROTO=static #是否使用静态IPIPADDR=192.168.25.150 #当前机器的IP地址NETMASK=255.255.255.0 #子网掩码GATEWAY=192.168.25.255 #网关使配置生效:/etc/init.d/network restart一台机器修改完毕后,其它机器按照此方式修改,注意要调整hostname和ip地址为正在被修改机器的对应信息。
Hadoop2.2部署文档
MICROSOFTHadoop部署文档Hadoop2.2部署吴汉章2014/12/22本文档是RHEL虚拟机下Hadoop部署文档,提供了Hadoop伪分布安装和Hadoop集群安装。
意在帮助Hadoop初学者快速掌握Hadoop部署步骤。
目录文档控制 (2)1引言 (3)1.1文档概述 (3)1.2背景 (3)1.3术语 (3)2Red Hat Linux基础环境搭建 (3)2.1修改主机名称 (3)2.2设置静态IP地址 (3)2.3设置IP映射关系 (4)2.4安装Java JDK (4)2.5创建Linux用户 (5)3Hadoop伪分布安装配置 (5)3.1配置SSH免密钥登陆 (5)3.2 Hadoop伪分布式配置 (6)3.2.1配置hadoop-env.sh (6)3.2.2配置yarn-env.sh (6)3.2.3配置core-site.xml (6)3.2.4配置hdfs-site.xml (7)3.2.5配置mapred-site.xml (8)3.2.6配置yarn-site.xml (8)3.2.7配置slaves节点列表 (8)3.2.8配置Hadoop环境变量 (9)3.3格式化HDFS文件系统 (9)3.4启动Hadoop系统 (9)3.4.1启动HDFS文件系统 (9)3.4.2启动YARN资源管理器 (10)3.5运行MapReduce程序 (10)3.5.1创建单词文件 (10)3.5.2上传文件到HDFS (11)3.5.3运行WordCount程序 (11)4Hadoop集群安装配置 (12)4.1Hadoop集群概要 (12)4.2克隆Master节点机器 (12)4.2.1修改主机名称 (12)4.2.2设置静态IP地址 (12)4.2.3设置IP映射 (13)4.3配置Master节点 (13)4.3.1删除HDFS格式信息 (13)4.3.2配置slave节点列表 (13)4.4克隆slave节点机器 (14)4.4.1配置salve1节点机器 (14)4.4.2配置salve2节点机器 (14)4.5格式化HDFS文件系统 (15)4.6启动Hadoop系统 (15)4.6.1启动HDFS文件系统 (15)4.6.2启动YARN资源管理器 (16)4.7运行MapReduce程序 (17)附件: (17)文档控制1引言1.1文档概述本文档搭建Hadoop集群使用的hadoop2.2.0版本,操作系统为Red Hat Enterprise Linux Server release 5.4 (Tikanga)。
hadoop.集群搭建详解
hadoop2.2.0集群搭建PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译1.准备工作:(参考伪分布式搭建)1.1修改Linux主机名1.2修改IP1.3修改主机名和IP的映射关系1.4关闭防火墙1.5ssh免登陆1.6.安装JDK,配置环境变量等2.集群规划:PS:在hadoop2.0中通常由两个NameNode组成,一个处于active 状态,另一个处于standby状态。
Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。
hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。
这里我们使用简单的QJM。
在该方案中,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。
通常配置奇数个JournalNode这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态3.安装步骤:3.1.安装配置zooekeeper集群3.1.1解压tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/3.1.2修改配置cd /cloud/zookeeper-3.4.5/conf/cp zoo_sample.cfg zoo.cfgvim zoo.cfg修改:dataDir=/cloud/zookeeper-3.4.5/tmp在最后添加:server.1=hadoop01:2888:3888server.2=hadoop02:2888:3888server.3=hadoop03:2888:3888保存退出然后创建一个tmp文件夹mkdir /cloud/zookeeper-3.4.5/tmp再创建一个空文件touch /cloud/zookeeper-3.4.5/tmp/myid最后向该文件写入IDecho 1 > /cloud/zookeeper-3.4.5/tmp/myid3.1.3将配置好的zookeeper拷贝到其他节点(首先分别在hadoop02、hadoop03根目录下创建一个cloud目录:mkdir /cloud)scp -r /cloud/zookeeper-3.4.5/ hadoop02:/cloud/scp -r /cloud/zookeeper-3.4.5/ hadoop03:/cloud/注意:修改hadoop02、hadoop03对应/cloud/zookeeper-3.4.5/tmp/myid内容hadoop02:echo 2 > /cloud/zookeeper-3.4.5/tmp/myidhadoop03:echo 3 > /cloud/zookeeper-3.4.5/tmp/myid3.2.安装配置hadoop集群3.2.1解压tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/3.2.2配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下)将hadoop添加到环境变量中vim /etc/profileexport JAVA_HOME=/usr/java/jdk1.6.0_45export HADOOP_HOME=/cloud/hadoop-2.2.0export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin cd /cloud/hadoop-2.2.0/etc/hadoop3.2.2.1修改hadoo-env.shexport JAVA_HOME=/usr/java/jdk1.6.0_453,2.2.2修改core-site.xml<configuration><!-- 指定hdfs的nameservice为ns1 --><property><name>fs.defaultFS</name><value>hdfs://ns1</value></property><!-- 指定hadoop临时目录--><property><name>hadoop.tmp.dir</name><value>/cloud/hadoop-2.2.0/tmp</value></property><!-- 指定zookeeper地址--><property><name>ha.zookeeper.quorum</name><value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value></property></configuration>3,2.2.3修改hdfs-site.xml<configuration><!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致--><property><name>services</name><value>ns1</value></property><!-- ns1下面有两个NameNode,分别是nn1,nn2 --> <property><name>nodes.ns1</name><value>nn1,nn2</value></property><!-- nn1的RPC通信地址--><property><name>node.rpc-address.ns1.nn1</name><value>hadoop01:9000</value></property><!-- nn1的http通信地址--><property><name>node.http-address.ns1.nn1</name><value>hadoop01:50070</value></property><!-- nn2的RPC通信地址--><property><name>node.rpc-address.ns1.nn2 </name><value>hadoop02:9000</value></property><!-- nn2的http通信地址--><property><name>node.http-address.ns1.nn2 </name><value>hadoop02:50070</value></property><!-- 指定NameNode的元数据在JournalNode上的存放位置--><property><name>node.shared.edits.dir<value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485 /ns1</value></property><!-- 指定JournalNode在本地磁盘存放数据的位置--><property><name>dfs.journalnode.edits.dir</name><value>/cloud/hadoop-2.2.0/journal</value></property><!-- 开启NameNode失败自动切换--><property><name>dfs.ha.automatic-failover.enabled</name><value>true</value></property><!-- 配置失败自动切换实现方式--><name>dfs.client.failover.proxy.provider.ns1</name><value>node.ha. ConfiguredFailoverProxyProvider</value></property><!-- 配置隔离机制--><property><name>dfs.ha.fencing.methods</name><value>sshfence</value></property><!-- 使用隔离机制时需要ssh免登陆--><property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_rsa</value> </property></configuration>3.2.2.4修改slaveshadoop01hadoop02hadoop033.2.3配置YARN3.2.3.1修改yarn-site.xml<configuration><!-- 指定resourcemanager地址--> <property><name>yarn.resourcemanager.hostname</name><value>hadoop01</value></property><!-- 指定nodemanager启动时加载server的方式为shuffle server --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>3.2.3.2修改mapred-site.xml<configuration><!-- 指定mr框架为yarn方式--><property><name></name><value>yarn</value></property></configuration>3.2.4将配置好的hadoop拷贝到其他节点scp -r /cloud/hadoop-2.2.0/ hadoo02:/cloud/scp -r /cloud/hadoop-2.2.0/ hadoo03:/cloud/3.2.5启动zookeeper集群(分别在hadoop01、hadoop02、hadoop03上启动zk)cd /cloud/zookeeper-3.4.5/bin/./zkServer.sh start查看状态:./zkServer.sh status(一个leader,两个follower)3.2.6启动journalnode(在hadoop01上启动所有journalnode)cd /cloud/hadoop-2.2.0sbin/hadoop-daemons.sh start journalnode(运行jps命令检验,多了JournalNode进程)3.2.7格式化HDFS在hadoop01上执行命令:hadoop namenode -format格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/cloud/hadoop-2.2.0/tmp,然后将/cloud/hadoop-2.2.0/tmp拷贝到hadoop02的/cloud/hadoop-2.2.0/下。
hadoop 操作手册
hadoop 操作手册Hadoop 是一个分布式计算框架,它使用 HDFS(Hadoop Distributed File System)存储大量数据,并通过 MapReduce 进行数据处理。
以下是一份简单的 Hadoop 操作手册,介绍了如何安装、配置和使用 Hadoop。
一、安装 Hadoop1. 下载 Hadoop 安装包,并解压到本地目录。
2. 配置 Hadoop 环境变量,将 Hadoop 安装目录添加到 PATH 中。
3. 配置 Hadoop 集群,包括 NameNode、DataNode 和 JobTracker 等节点的配置。
二、配置 Hadoop1. 配置 HDFS,包括 NameNode 和 DataNode 的配置。
2. 配置 MapReduce,包括 JobTracker 和 TaskTracker 的配置。
3. 配置 Hadoop 安全模式,如果需要的话。
三、使用 Hadoop1. 上传文件到 HDFS,使用命令 `hadoop fs -put local_file_path/hdfs_directory`。
2. 查看 HDFS 中的文件和目录信息,使用命令 `hadoop fs -ls /`。
3. 运行 MapReduce 作业,编写 MapReduce 程序,然后使用命令`hadoop jar my_` 运行程序。
4. 查看 MapReduce 作业的运行结果,使用命令 `hadoop fs -cat/output_directory/part-r-00000`。
5. 从 HDFS 中下载文件到本地,使用命令 `hadoop fs -get/hdfs_directory local_directory`。
6. 在 Web 控制台中查看 HDFS 集群信息,在浏览器中打开7. 在 Web 控制台中查看 MapReduce 作业运行情况,在浏览器中打开四、管理 Hadoop1. 启动和停止 Hadoop 集群,使用命令 `` 和 ``。
hadoop2.2安装
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程历时一周多,终于搭建好最新版本Hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)另外:欢迎配置过程中遇到问题的朋友留言,相互讨论,并且能够把解决方法共享给大家。
下面评论中有几个朋友遇到的问题和解决方法,欢迎参考!第一部分Hadoop 2.2 下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。
官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译(10楼评论中提供了一个解决方法链接)。
下载地址:/hadoop/common/hadoop-2.2.0/如下图所示,下载红色标记部分即可。
如果要自行编译则下载src.tar.gz.第二部分集群环境搭建1、这里我们搭建一个由三台机器组成的集群:192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager)1.2 Hostname可以在/etc/hostname中修改(ubuntu是在这个路径下,RedHat稍有不同)1.3 这里我们为每台机器新建了一个账户hduser.这里需要给每个账户分配sudo的权限。
hadoop2安装笔记
一、准备安装环境:1、Vmware workstation 12 的安装2、虚拟机Red Hat RHEL 6.6[hadoop@master~]$ more /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.150.30 master TST-RHEL66-00192.168.150.31 slave1 TST-RHEL66-01192.168.150.32 slave2 TST-RHEL66-02[hadoop@master~]$2、虚拟机之间可以需要SSH免密码登录## (注意:ssh与-keygen之间没有空格)一路回车即可。
[hadoop@master~]$ cd[hadoop@master~]$pwd/home/hadoop[hadoop@master~]$ ssh-keygen -t rsa##转到.ssh目录 cd ~/.ssh 可以看到生成了id_rsa,和id_rsa.pub两个文件[hadoop@master~]$ cd .ssh/[hadoop@master .ssh]$ lsauthorized_keys id_rsa id_rsa.pub known_hosts## 执行 cp id_rsa.pub authorized_keys[hadoop@master .ssh]$ cp id_rsa.pub authorized_keys## 把Master上面的authorized_keys文件复制到Slave机器的/home/hadoop/.ssh/文件下面[hadoop@master .ssh]$scpauthorized_keys slave1:~/.ssh/[hadoop@master .ssh]$scpauthorized_keys slave2:~/.ssh/## 修改修改.ssh目录的权限以及authorized_keys 的权限(这个必须修改,要不然还是需要密码) sudochmod 644 ~/.ssh/authorized_keyssudochmod 700 ~/.ssh二、Hadoop 2.0稳定版介质/apache//apache/hadoop/core/stable/hadoop-2.7.2.tar.gz1、上传解压文件并创建软链接# tar xzvf hadoop-2.2.0.tar.gz# chown -R hadoop:hadoop hadoop-2.2.0 (-R级联的授权,子目录都有权限)2、配置主机变量配置环境变量(三台主机)添加如下内容到hadoop用户的.bashrc文件:# User specific aliases and functionsexport JAVA_HOME=/usr/java/latestexport CLASSPATH=$CLASSPATH:$JAVA_HOME/libexport HADOOP_DEV_HOME=/home/hadoop/hadoop2export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME}export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}export YARN_HOME=${HADOOP_DEV_HOME}export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoopexport HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoopexport YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop发送到另外两台主机[hadoop@master .ssh]$scp .bashrc slave1:~[hadoop@master .ssh]$scp .bashrc slave2:~3、Hadoop配置有关文件修改hadoop-env.sh和mapred-env.sh文件配置hadoop-env.sh配置mapred-env.sh修改yarn-env.sh和slaves文件~/hadoop2/etc/hadoop/yarn-env.sh配置~/hadoop2/etc/hadoop/slaves修改core-site.xml文件创建hadoop工作目录(临时工作目录,默认是/tmp目录,服务器重启后,文件消失,所以需要另外指定一个目录/hadoop2)修改~/hadoop2/etc/hadoop/core-site.xmlfs_defaultFS是NameNode的IPHadoop.tmp.dir是hadoop的临时目录,刚刚root用户创建的/hadoop2/tmpHadoop.proxyuser.hadoop.hosts中的“.hadoop.”是用户名,我们这里是hadoop,如果使用别的用户,需要用别的用户名,例如:erhadoop.hosts修改hdfs-site.xml文件创建hadoop工作目录(生产环境中的hadoop目录需要指定挂接独立磁盘或独立盘阵的目录。
Hadoop安装手册
Hadoop目录1Centos ··········································· 错误!未定义书签。
1.1安装环境 (3)1.2初始环境配置 (3)1.2.1设置centos开机自启动网络 (3)1.2.2关闭防火墙 (4)1.2.3关闭selinux (5)1.2.4修改hosts (5)1.3安装JDK (6)1.3.1安装 (6)1.3.2设置环境变量 (7)1.4添加用户 (8)1.5复制虚拟机 (8)1Hadoop1.1.2安装1.1安装环境操作系统:Centos6.5 64位Hadoop:hadoop-1.1.2Jdk:jdk-7u511.2初始环境配置1.2.1设置centos开机自启动网络[root@localhost network-scripts]# cd /etc/sysconfig/network-scripts[root@localhost network-scripts]# lsifcfg-eth0 ifdown-bnep ifdown-ipv6 ifdown-ppp ifdown-tunnel ifup-bnep ifup-ipv6 ifup-plusb ifup-routes ifup-wireless network-functionsifcfg-lo ifdown-eth ifdown-isdn ifdown-routes ifup ifup-eth ifup-isdn ifup-post ifup-sit init.ipv6-global network-functions-ipv6ifdown ifdown-ippp ifdown-post ifdown-sit ifup-aliases ifup-ippp ifup-plip ifup-ppp ifup-tunnel net.hotplug第3页/共53页[root@localhost network-scripts]# vi ifcfg-eth0DEVICE=eth0HWADDR=00:0C:29:09:8B:B0TYPE=EthernetUUID=3192d1fe-8ff3-411f-81b7-8270e86f5959ONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=dhcp1.2.2关闭防火墙关闭防火墙[root@master01 /]# service iptables stopiptables:将链设置为政策 ACCEPT:filter [确定]iptables:清除防火墙规则: [确定]iptables:正在卸载模块: [确定]设置开机不启用[root@master01 /]# chkconfig iptables off第4页/共53页1.2.3关闭selinux[root@master01 /]# vi /etc/selinux/config# This file controls the state of SELinux on the system.# SELINUX= can take one of these three values:# enforcing - SELinux security policy is enforced.# permissive - SELinux prints warnings instead of enforcing.# disabled - No SELinux policy is loaded.SELINUX=disabled# SELINUXTYPE= can take one of these two values:# targeted - Targeted processes are protected,# mls - Multi Level Security protection.#SELINUXTYPE=targeted1.2.4修改hosts[root@master01 etc]# vi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.239.100 master01第5页/共53页192.168.239.101 slave01192.168.239.102 slave021.3安装JDK1.3.1安装cd /home/nunchakus[root@localhost nunchakus]# lsjdk-7u51-linux-x64.rpm[root@localhost nunchakus]# rpm -ivh jdk-7u51-linux-x64.rpmPreparing... ########################################### [100%] 1:jdk ########################################### [100%] Unpacking JAR files...rt.jar...jsse.jar...charsets.jar...tools.jar...localedata.jar...jfxrt.jar...[root@localhost nunchakus]# lsjdk-7u51-linux-x64.rpm[root@localhost nunchakus]# cd /usr[root@localhost usr]# lsbin etc games include java lib lib64 libexec local sbin share src tmp [root@localhost usr]# cd java[root@localhost java]# lsdefault jdk1.7.0_51 latest第6页/共53页1.3.2设置环境变量[root@localhost ~]# vi /etc/profile末尾加入export JAVA_HOME=/usr/java/jdk1.7.0_51export JAVA_BIN=/usr/java/jdk1.7.0_51/binexport PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH让/etc/profile文件修改后立即生效,可以使用如下命令:# . /etc/profile注意: . 和/etc/profile 有空格.重启测试[root@localhost ~]# java -version第7页/共53页java version "1.7.0_45"OpenJDK Runtime Environment (rhel-2.4.3.3.el6-x86_64 u45-b15)OpenJDK 64-Bit Server VM (build 24.45-b08, mixed mode)1.4添加用户[root@master01 /]# useradd hadoop[root@master01 /]# passwd hadoop更改用户hadoop 的密码。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HA D O O P2.2安装部署手册XXXXX公司2014年5月版本号更新人更新日期V1.0Box2014-5-15目录目录 (I)第1章基础环境 (1)1.1集群规划 (1)1.1.1.修改主机名 (1)1.1.2.职责划分 (1)第2章软件版本 (2)2.1软件 (2)2.2文件目录规划 (2)第3章基础配置 (3)3.1集群SSH无密码互信 (3)3.2配置系统环境变量 (3)第4章HADOOP安装 (4)4.1配置文件修改 (4)4.1.1修改$HADOOP_HOME/etc/Hadoop/hadoop-env.sh (4)4.1.2修改$HADOOP_HOME/etc/Hadoop/slaves (4)4.1.3修改$HADOOP_HOME/etc/Hadoop/core-site.xml (4)4.1.4修改$HADOOP_HOME/etc/Hadoop/hdfs-site.xml (5)4.1.5修改$HADOOP_HOME/etc/Hadoop/mapred-site.xml (6)4.1.6修改$HADOOP_HOME/etc/Hadoop/yarn-site.xml (7)4.1.7分发到各结点 (9)4.2格式化HDFS (9)4.3启动HDFS、YARN (9)4.4检查集群运行状态 (9)第5章ZOOKEEPER安装 (9)5.1修改配置 (9)5.2分发到各结点 (10)5.3启动ZOOKEEPER (10)第6章HBASE安装 (10)6.1修改配置 (10)6.1.1修改$HBASE_HOME/conf/hbase-env.sh (10)6.1.2修改$HBASE_HOME/conf/RegionServer (10)6.1.3修改$HBASE_HOME/conf/hbase-site.xml (11)6.2分发到各结点 (12)6.3启动HBASE (12)第7章安装HIVE (12)7.1安装MYSQL (12)7.1.1检查是否已经安装过MYSQL (12)7.1.2安装MYSQL (13)7.1.3配置MYSQL (13)7.1.4修改root密码 (14)7.1.5创建hive元数据数据库 (14)7.2修改HIVE配置 (15)7.2.1修改$HIVE_HOME/conf/hive-site.xml (15)7.3开启HIVE服务 (16)第8章安装SPARK (17)8.1修改配置 (17)8.1.1修改$SPARK_HOME/spark-env.sh (17)8.1.2修改slaves (17)8.2分发到各结点 (17)8.3启动spark (17)第9章安装SHARK (18)9.1修改配置 (18)9.2进入SHARK控制台 (18)附录A:HADOOP-HBASE兼容表 (18)附录B:问题清单 (19)第1章基础环境[root@ip-172-167-15-226~]#lsb_release-aLSBVersion::core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd6 4:printing-4.0-noarchDistributor ID:RedHatEnterpriseServerDescription:Red Hat Enterprise Linux Server release6.2(Santiago)Release: 6.2Codename:Santiago1.1集群规划1.1.1.修改主机名vi/etc/sysconfig/networkHOSTNAME=hadoo201vi/etc/hosts#for hadoop2cluster#pengyq2014.5.13172.167.15.226hadoop201172.167.15.227hadoop202172.167.15.228hadoop203172.167.15.230hadoop204172.167.15.231hadoop2051.1.2.职责划分hadoop201作为namenode、seconderynamenode、HMaster、Spark Masterhadoop202,hadoop203,hadoop204,hadoop205为DataNode、RegionServer、Spark Slaver五台机器都作为Zookeeper节点第2章软件版本2.1软件版本兼容请参照附录A[hadoop@hadoop201hadoop2_cluster]$lsjdk1.7.0_55#JAVA运行基础环境hadoop-2.2.0Zookeeper-3.4.6#hbase依赖(使用hbase0.98.2自带zk安装遇到了问题,所以独立安装zk群)hbase-0.98.2apache-hive-0.13.0-binscala-2.11.0#spark依赖spark-0.9.1-bin-hadoop2shark-0.9.1-bin-hadoop22.2文件目录规划/Hadoop/home/hadoop2_cluster/jdk1.7.0_55/hadoop-2.2.0/Zookeeper-3.4.6/hbase-0.98.2/apache-hive-0.13.0-bin/scala-2.11.0/spark-0.9.1-bin-hadoop2/shark-0.9.1-bin-hadoop2/workspace/dfs/data/#hdfs数据name/#namenode数据hive/#hive querylogmapred/#mapreduce日志tmp/zookeeper/#zookeeper datadir/opt/mysql_data/mysql#mysql数据存放目录第3章基础配置3.1集群SSH无密码互信生成SSH密钥ssh-keygen#分发公钥到受控节点ssh-copy-id-i~/.ssh/id_rsa.pub hadoop@hadoop202ssh-copy-id-i~/.ssh/id_rsa.pub hadoop@hadoop203ssh-copy-id-i~/.ssh/id_rsa.pub hadoop@hadoop204ssh-copy-id-i~/.ssh/id_rsa.pub hadoop@hadoop205出现的问题:Permission denied(publickey,gssapi-with-mic).修改了/etc/ssh/sshd_config中的"PasswordAuthentication"参数值为"no",修改回"yes",重启sshd服务即可。
3.2配置系统环境变量vi/etc/profileexport JAVA_HOME=/home/hadoop/hadoop2_cluster/jdk1.7.0_55export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jarexport HADOOP_HOME=/home/hadoop/hadoop2_cluster/hadoop-2.2.0export ZOOKEEPER_HOME=/home/hadoop/hadoop2_cluster/zookeeper-3.4.6export HIVE_HOME=/home/hadoop/hadoop2_cluster/apache-hive-0.13.0-binexport HBASE_HOME=/home/hadoop/hadoop2_cluster/hbase-0.98.2-hadoop2export SCALA_HOME=/home/hadoop/hadoop2_cluster/scala-2.11.0export SPARK_HOME=/home/hadoop/hadoop2_cluster/spark-0.9.1-bin-hadoop2export SHARK_HOME=/home/hadoop/hadoop2_cluster/shark-0.9.1-bin-hadoop2exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOM E/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SHARK_HOME/bin:$PATH第4章HADOOP安装4.1配置文件修改4.1.1修改$HADOOP_HOME/etc/Hadoop/hadoop-env.sh修改JAVA_HOME和HADOOP_HOME4.1.2修改$HADOOP_HOME/etc/Hadoop/slaves添加slaverHadoop202Hadoop203Hadoop204hadoop2054.1.3修改$HADOOP_HOME/etc/Hadoop/core-site.xml<property><name>fs.defaultFS</name><value>hdfs://hadoop201:9000</value></property><property><name>io.file.buffer.size</name><value>131072</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop2_cluster/workspace/tmp</value><description>A base for other temporarydirectories.</description> </property><property><name>hadoop.proxyuser.root.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.root.groups</name><value>*</value></property><property><name>hadoop.proxyuser.hadoop.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.hadoop.groups</name><value>*</value></property><property><name>hadoop.security.authorization</name><value>true</value></property>4.1.4修改$HADOOP_HOME/etc/Hadoop/hdfs-site.xml<property><name>node.secondary.http-address</name><value>hadoop201:9001</value></property><property><name>.dir</name><value>file:/home/hadoop/hadoop2_cluster/workspace/dfs/name</value> </property><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/hadoop2_cluster/workspace/dfs/data</value> </property><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property><property><name>hadoop.job.ugi</name><value>hadoop,hadoop</value><description>username,password used byclient</description></property>4.1.5修改$HADOOP_HOME/etc/Hadoop/mapred-site.xml<property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop201:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop201:19888</value></property><property><name>mapreduce.jobhistory.intermediate-done-dir</name><value>/home/hadoop/hadoop2_cluster/workspace/mapred/mr-history/tmp</value> </property><property><name>mapreduce.jobhistory.done-dir</name><value>/home/hadoop/hadoop2_cluster/workspace/mapred/mr-history/done</value> </property>4.1.6修改$HADOOP_HOME/etc/Hadoop/yarn-site.xml<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.address</name><value>hadoop201:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>hadoop201:8030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>hadoop201:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>hadoop201:8033</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>hadoop201:8088</value></property><property><name>yarn.nodemanager.local-dirs</name><value>/home/hadoop/hadoop2_cluster/workspace/yarn.mynode/my</value> </property><property><name>yarn.nodemanager.log-dirs</name><value>/home/hadoop/hadoop2_cluster/workspace/yarn.mynode/logs</value> </property><property><name>yarn.nodemanager.log.retain-seconds</name><value>10800</value></property><property><name>yarn.nodemanager.remote-app-log-dir</name><value>/logs</value></property><property><name>yarn.nodemanager.remote-app-log-dir-suffix</name><value>logs</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>-1</value></property><property><name>yarn.log-aggregation.retain-check-interval-seconds</name><value>-1</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>4.1.7分发到各结点Scp-r./hadoop-2.2.0hadoop@hadoop202:/home/hadoop/hadoop2_cluster Scp-r./hadoop-2.2.0hadoop@hadoop203:/home/hadoop/hadoop2_cluster Scp-r./hadoop-2.2.0hadoop@hadoop204:/home/hadoop/hadoop2_cluster Scp-r./hadoop-2.2.0hadoop@hadoop205:/home/hadoop/hadoop2_cluster4.2格式化HDFSHadoop namenode–format4.3启动HDFS、YARNstart-dfs.shstart-yarn.sh4.4检查集群运行状态hdfs dfsadmin–report第5章ZOOKEEPER安装5.1修改配置vi$ZOOKEEPER_HOME/conf/zoo.cfgclientPort=2181server.1=hadoop201:2888:3888server.2=hadoop202:2888:3888server.3=hadoop203:2888:3888server.4=hadoop204:2888:3888server.5=hadoop205:2888:3888dataDir下新建myid文件内容为编号上面配置中server.后面的数字5.2分发到各结点Scp-r./zookeeper-3.4.6hadoop@hadoop202:/home/hadoop/hadoop2_cluster Scp-r./zookeeper-3.4.6hadoop@hadoop203:/home/hadoop/hadoop2_cluster Scp-r./zookeeper-3.4.6hadoop@hadoop204:/home/hadoop/hadoop2_cluster Scp-r./zookeeper-3.4.6hadoop@hadoop205:/home/hadoop/hadoop2_cluster5.3启动ZOOKEEPER在Zookeeper集群的每个节点上,执行启动zkServer.sh start第6章HBASE安装6.1修改配置6.1.1修改$HBASE_HOME/conf/hbase-env.sh修改JAVA_HOME修改HBASE_HOMEexport HBASE_MANAGES_ZK=false#使用独立ZK群6.1.2修改$HBASE_HOME/conf/RegionServer添加:Hadoop202Hadoop203Hadoop204hadoop2056.1.3修改$HBASE_HOME/conf/hbase-site.xml<property><name>hbase.rootdir</name><value>hdfs://hadoop201:9000/hbase</value><description>The directory shared byRegionServers.</description></property><property><name>hbase.master</name><value>hadoop201:60000</value></property><property><name>hbase.cluster.distributed</name><value>true</value><description>The mode the clusterwill be in.Possible values arefalse:standalone and pseudo-distributedsetups with managed Zookeepertrue:fully-distributed with unmanagedZookeeper Quorum(see hbase-env.sh)</description></property><property><name>hbase.zookeeper.property.clientPort</name><value>2181</value><description>Property fromZooKeeper's config zoo.cfg.The port at which the clients willconnect.</description></property><property><name>hbase.zookeeper.quorum</name><value>hadoop201,hadoop202,hadoop203,hadoop204,hadoop205</value><description>Comma separated listof servers in the ZooKeeper Quorum.For example,",,".By default this is set to localhost forlocal and pseudo-distributed modesof operation.For a fully-distributedsetup,this should be set to a fulllist of ZooKeeper quorum servers.IfHBASE_MANAGES_ZK is set in hbase-env.shthis is the list of servers which we willstart/stop ZooKeeper on.</description></property><property><name>hbase.zookeeper.property.dataDir</name><value>/home/hadoop/hadoop2_cluster/workspace/zookeeper/zookeeper_data</value> <description>Property fromZooKeeper's config zoo.cfg.The directory where the snapshot isstored.</description></property>6.2分发到各结点Scp-r./hbase-0.98.2-hadoop2hadoop@hadoop202:/home/hadoop/hadoop2_clusterScp-r./hbase-0.98.2-hadoop2hadoop@hadoop203:/home/hadoop/hadoop2_clusterScp-r./hbase-0.98.2-hadoop2hadoop@hadoop204:/home/hadoop/hadoop2_clusterScp-r./hbase-0.98.2-hadoop2hadoop@hadoop205:/home/hadoop/hadoop2_cluster6.3启动HBASE启动HBASE在http://hadoop201:60010查看HBASE信息第7章安装HIVE7.1安装MYSQLHive元数据存储于MYSQL7.1.1检查是否已经安装过MYSQL检查是否已经安装mysqlrpm-qa|grep-i mysql如果安装执行面命令卸载删除已安装的mysql包#rpm-ev MySQL-server-5.0.22-0.i386#rpm-ev MySQL-client-5.0.22-0.i386如果有依赖错误rpm-e--nodeps mysql-libs-5.1.52-1.el6_0.1.x86_64 7.1.2安装MYSQL安装server clientrpm-ivh MySQL-server-5.5.37-1.el6.x86_64.rpm rpm-ivh MySQL-client-5.5.37-1.rhel5.x86_64.rpm检查是否正常netstat-nat|grep33067.1.3配置MYSQL创建mysql数据存放文件夹/opt/mysql_datamv/var/lib/mysql/opt/mysql_datavi/etc/rc.d/init.d/mysqlbasedir=datadir=/opt/mysql_data/mysqlcp/usr/share/mysql/f/etc/fvi/etc/f[client]password=123456port=3306socket=/data/mysql/mysql.sockdefault-character-set=utf8#Here follows entries for some specific programs#The MySQL server[mysqld]port=3306socket=/data/mysql/mysql.sockskip-external-lockingkey_buffer_size=16Mmax_allowed_packet=1Mtable_open_cache=64sort_buffer_size=512Knet_buffer_length=8Kread_buffer_size=256Kread_rnd_buffer_size=512Kmyisam_sort_buffer_size=8Mcharacter_set_server=utf8collation-server=utf8_general_cilower_case_table_names=1character_set_client=utf8(注意linux下mysql安装完后是默认:区分表名的大小写,不区分列名的大小写;lower_case_table_names=00:区分大小写,1:不区分大小写)max_connections=1000(设置最大连接数,默认为151,MySQL服务器允许的最大连接数16384;) [mysql]default-character-set=utf8no-auto-rehash进入/usr/binmysql_install_db#初始化mysqlMysql restart如遇到如下错误,检查配置文件和数据文件夹权限ERROR2002(HY000):Can't connect to local MySQL server through socket '/opt/mysql_data/mysql/mysql.sock'(2)7.1.4修改root密码mysql-u root-pUser mysqlUPDATE user SET Password=PASSWORD('root')WHERE user='root';7.1.5创建hive元数据数据库create database hive_metadata;insert into er(Host,User,Password)values('localhost','hive',password('hive'));grant all on hive_metadata.*to hive@'%'identified by'hive';grant all on hive_metadata.*to hive@127.0.0.1identified by'hive';flush privileges;ALTER DATABASE hive_metadata CHARACTER SET latin1;7.2修改HIVE配置7.2.1修改$HIVE_HOME/conf/hive-site.xml<property><name>hive.metastore.local</name><value>false</value><description>controls whether to connect to remove metastore server or open a new metastore server in Hive Client JVM</description></property><property><name>hive.metastore.uris</name><value>thrift://hadoop201:9083</value></property><property><name>hive.querylog.location</name><value>/home/hadoop/hadoop2_cluster/workspace/hive/querylog</value></property><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive_metadata?createDatabaseIfNotExist=true</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value></property><property><name>mapred.reduce.tasks</name><value>4</value></property><property><name>hive.exec.scratchdir</name><value>/opt/hadoop/tmp/hive/hive-${}</value></property><property><name>hive.cli.print.header</name><value>true</value></property><property><name>hive.cli.print.current.db</name><value>true</value></property><property><name>hive.hwi.war.file</name><value>lib/hive-hwi-0.13.0.jar</value><description>This is the WAR file with the jsp content for Hive Web Interface</description> </property>7.3开启HIVE服务#开启metastore服务~bin/hive--service metastore&nohup bin/hive--service metastore&#开启hiveserver服务~bin/hive--service hiveserver&建议使用下面的:nohup hive--service hiveserver&第8章安装SPARK8.1修改配置8.1.1修改$SPARK_HOME/spark-env.shexport SCALA_HOME=/home/hadoop/hadoop2_cluster/scala-2.11.0export JAVA_HOME=/home/hadoop/hadoop2_cluster/jdk1.7.0_55export SPARK_MASTER_IP=hadoop201export SPARK_WORKER_MEMORY=2g8.1.2修改slaveshadoop202hadoop203hadoop204hadoop2058.2分发到各结点scp-r./scala-2.11.0hadoop@hadoop202:/home/hadoop/hadoop2_clusterscp-r./scala-2.11.0hadoop@hadoop203:/home/hadoop/hadoop2_clusterscp-r./scala-2.11.0hadoop@hadoop204:/home/hadoop/hadoop2_clusterscp-r./scala-2.11.0hadoop@hadoop205:/home/hadoop/hadoop2_clusterscp-r./spark-0.9.1-bin-hadoop2hadoop@hadoop202:/home/hadoop/hadoop2_cluster scp-r./spark-0.9.1-bin-hadoop2hadoop@hadoop203:/home/hadoop/hadoop2_cluster scp-r./spark-0.9.1-bin-hadoop2hadoop@hadoop204:/home/hadoop/hadoop2_cluster scp-r./spark-0.9.1-bin-hadoop2hadoop@hadoop205:/home/hadoop/hadoop2_cluster8.3启动spark./sbin/start-all.sh第9章安装SHARK9.1修改配置修改shark-env.shexport SPARK_MEM=2gexport SCALA_HOME=/home/hadoop/hadoop2_cluster/scala-2.11.0export SHARK_MASTER_MEM=1gexport HIVE_CONF_DIR=/home/hadoop/hadoop2_cluster/apache-hive-0.13.0-bin/conf export HADOOP_HOME=/home/hadoop/hadoop2_cluster/hadoop-2.2.0export SPARK_HOME=/home/hadoop/hadoop2_cluster/spark-0.9.1-bin-hadoop2 9.2进入SHARK控制台./bin/shark-withinfo附录A:HADOOP-HBASE兼容表HBase-0.92.x HBase-0.94.x HBase-0.96.0HBase-0.98.0 Hadoop-0.20.205S X X X Hadoop-0.22.x S X X X Hadoop-1.0.0-1.0.2[a]S S X X Hadoop-1.0.3+S S S X Hadoop-1.1.x NT S S X Hadoop-0.23.x X S NT X Hadoop-2.0.x-alpha X NT X X Hadoop-2.1.0-beta X NT S X Hadoop-2.2.0X NT[b]S S Hadoop-2.x X NT S SWhereS=supported and tested,X=not supported,NT=it should run,but not tested enough.附录B:问题清单。