Hadoop环境搭建_光环大数据培训机构

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop环境搭建_光环大数据培训机构
第一篇 Hadoop环境搭建部分，分为3个章节。

Haddop环境准备Hadoop完全分步式集群搭建HDFS测试
每一章节，都会分为”文字说明部分”和”代码部分”，保持文字说明与代码的连贯性。

Haddop环境准备
文字说明部分：
首先环境准备，这里我选择了Linux Ubuntu操作系统12.04的64位版本，大家可以根据自己的使用习惯选择顺手的Linux。

但JDK一定要用Oracle SUN官方的版本，请从官网下载，操作系统的自带的OpenJDK会有各种不兼容。

JDK请选择1.6.x的版本，JDK1.7版本也会有各种的不兼容情况。

/technetwork/java/javase/downloads/index.htm l
完全分步式的Hadoop集群，这个选择5台一样配置的虚拟机，通过内网的一个DNS服务器，指定5台虚拟机所对应的域名。

每台虚拟机，1G内存，系统硬盘2G，外接硬盘16G。

hadoop会存储在外接硬盘上面。

外接硬盘，需要先进行格式化，然后创建目录，再mount到操作系统，通过修改/etc/fstab配置，系统每次重起都是自动加载外接硬盘。

(如果用户操作系统的硬盘够大，不用外接硬盘，这步可以省略)
接下来，为hadoop集群创建访问账号hadoop，创建访问组hadoop，创建用户目录/home/hadoop，把账号，组和用户目录绑定。

再为hadoop的hdfs创建存储位置/hadoop/conan/data0，给hadoop用户权限。

设置SSH自动登陆，从虚拟机开始，通过ssh-keygen命令，生成id_rsa.pub，再合并到authorized_keys的文件。

再通过scp把authorized_keys复制到其他的虚拟机。

循环生成authorized_keys并合并文件。

使得5台虚拟机，都有了相互的SSH自动登陆的配置。

环境准备完成，参考下面代码部分，动手实现。

代码部分：
1. 操作系统Ubuntu 1
2.04 x64
~ uname -aLinux domU-00-16-3e-00-00-85 3.2.0-23-generic #36-Ubuntu SMP Tue Apr 10 20:39:51 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux
2. JAVA环境
~ java -versionjava version "1.6.0_29"Java(TM) SE Runtime Environment (build 1.6.0_29-b11)Java HotSpot(TM) 64-Bit Server VM (build 20.4-b02, mixed mode)
3. Hadoop集群：５台机器,１个NameNode,４个DataNode,通过DNS指定域名
虚拟机名字域名内存硬盘namenode: 1G 2G+16Gdatanode1: 1G 2G+16Gdatanode2: 1G 2G+16Gdatanode3: 1G 2G+16Gdatanode4: 1G 2G+16G
挂载硬盘16G
1. mkfs.ext4 -j /dev/xvdb
2. mkdir /hadoop
3. mount /dev/xvdb /hadoop
4. vi /etc/fstab /dev/xvdb /hadoop ext4 noatime 0 1
创建hadoop账号和组
1. groupadd hadoop
2. useradd hadoop -g hadoop;
3. passwd hadoop
4. mkdir /home/hadoop
5. chown -R hadoop:hadoop /home/hadoop
创建hadoop工作目录
1. mkdir /hadoop/conan/data0
2. chown -R hadoop:hadoop /hadoop/conan/data0
配置ssh及密码
: 1. su hadoop 2. ssh-keygen -t rsa 3. cd /home/hadoop/.ssh/ 4. cat id_rsa.pub >> authorized_keys 5. scp authorized_keys :/home/hadoop/.ssh/: 1. su hadoop 2. ssh-keygen -t rsa 3. cd /home/hadoop/.ssh/ 4. cat id_rsa.pub >> authorized_keys 5. scp authorized_keys
:/home/hadoop/.ssh/: 1. su hadoop 2. ssh-keygen -t rsa 3. cd /home/hadoop/.ssh/ 4. cat id_rsa.pub >> authorized_keys 5. scp authorized_keys :/home/hadoop/.ssh/: 1. su hadoop 2. ssh-keygen -t rsa 3. cd /home/hadoop/.ssh/ 4. cat id_rsa.pub >> authorized_keys 5. scp authorized_keys :/home/hadoop/.ssh/: 1. su hadoop 2. ssh-keygen -t rsa 3. cd /home/hadoop/.ssh/ 4. cat id_rsa.pub >> authorized_keys 5. scp authorized_keys :/home/hadoop/.ssh/: 1. su hadoop 2. cd /home/hadoop/.ssh/ 3. scp authorized_keys :/home/hadoop/.ssh/ 4. scp authorized_keys :/home/hadoop/.ssh/ 5. scp authorized_keys :/home/hadoop/.ssh/ 6. scp authorized_keys :/home/hadoop/.ssh/
Hadoop完全分步式集群搭建
文字说明部分：
说明：本文以hadoop-0.20.2为例，与系列中其他几篇文章中的hadoop-1.0.3版本，安装和配置上是一样。

首先，我们在namenode()节点上面，下载hadoop。

修改hadoop配置文件hadoop-env.sh，hdfs-site.xml，core-site.xml，mapred-site.xml，设置master和slaves节点
把配置好的namenode()节点，用scp复制到其他4台虚拟机同样的目位置。

启动namenode()节点，
第一次启动时要先进行格式化，bin/hadoop namenode -format
启动hadoop，bin/start-all.sh
输入jps命令，可以看到所有Java的系统进程。

只要下面三个系统进程出
现，SecondaryNameNode，JobTracker，NameNode，就恭喜你hadoop启动成功。

通过netstat -nl，可以检查系统打开的端口。

其中包括，hdfs的9000，
jobtracker的9001,namenode的web监控的50070,Map/Reduce的web监控的
50030
其他的节点的测试检查是一样的，在这里就不重复说明了。

代码部分：
下载及配置hadoop
:
1. cd /hadoop/conan
2. wget
/apache/hadoop/common/hadoop-0.20.2/hadoop-0
.20.2.tar.gz3. tar zxvf hadoop-0.20.2.tar.gz4. cd
/hadoop/conan/hadoop-0.20.2/conf5. vi hadoop-env.sh export
JAVA_HOME=/etc/java-config-2/current-system-vm6. vi hdfs-site.xml
<configuration> <property> <name>dfs.data.dir</name> <value>/hadoop/conan/data0</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration>7. vi
core-site.xml <configuration> <property> <name></name>
<value>hdfs://:9000</value> </property>
</configuration>8. vi mapred-site.xml <configuration>
<property> <name>mapred.job.tracker</name>
<value>:9001</value> </property> </configuration>9.
vi masters 10. vi slaves
同步hadoop配置到其他虚拟机
cd /hadoop/conan
scp -r ./hadoop-0.20.2 :/hadoop/conan
scp -r ./hadoop-0.20.2 :/hadoop/conan
scp -r ./hadoop-0.20.2 :/hadoop/conan
scp -r ./hadoop-0.20.2 :/hadoop/conan
启动namenode节点
cd /hadoop/conan/hadoop-0.29.2
bin/hadoop namenode -format
bin/start-all.sh
检查hadoop启动是否成功
jps
9362 Jps7756 SecondaryNameNode7531 JobTracker7357 NameNode
netstat -nl
Active Internet connections (only servers)Proto Recv-Q Send-Q
Local Address Foreign Address State tcp
0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN tcp 0 0 0.0.0.0:8649 0.0.0.0:* LISTEN tcp6 0 0 :::50070 :::* LISTEN tcp6 0 0 :::22 :::* LISTEN tcp6 0 0 :::39418 :::* LISTEN tcp6 0 0 :::32895 :::* LISTEN tcp6 0 0 192.168.1.238:9000 :::* LISTEN tcp6 0 0 192.168.1.238:9001 :::* LISTEN tcp6 0 0 :::50090 :::* LISTEN tcp6 0 0 :::51595 :::* LISTEN tcp6 0 0 :::50030 :::* LISTEN udp 0 0 239.2.11.71:8649 0.0.0.0:*
HDFS测试
文字说明部分：
hadoop环境启动成功，我们进行一下hdfs的简单测试。

通过命令在hdfs上面，创建一个目录bin/hadoop fs -mkdir /test
通过命令复制一个本地文件到hdfs文件系统中，bin/hadoop fs
-copyFormLocal README.txt /test
通过命令查看刚刚上传的文件bin/hadoop fs -ls /test
代码部分：
:
cd /hadoop/conan/hadoop-0.29.2
bin/hadoop fs -mkdir /test
bin/hadoop fs -copyFormLocal README.txt /test
bin/hadoop fs -ls /test
Found 1 items-rw-r--r-- 2 hadoop supergroup 1366 2012-08-30 02:05 /test/README.txt
最后，恭喜你完成了，hadoop的完成分步式安装，环境成功搭建。

继续学习，请看第二篇 RHadoop实践系列文章之RHadoop安装与使用。

为什么大家选择光环大数据！
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据领域具有多年经验的讲师，提高教学的整体质量与教学水准。

讲师团及时掌握时代的技术，将时新的技能融入教学中，让学生所学知识顺应时代所需。

通过深入浅出、通俗易懂的教学方式，指导学生较快的掌握技能知识，帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。

光环大数据专注国内大数据和人工智能培训，将在人工智能和大数据领域深度合作。

未来三年，光环大数据将联合国内百所大学，通过“AI智客计划”，共同推动人工智能产业人才生态建设，培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”，享2000元助学金！
【报名方式、详情咨询】
光环大数据网站报名：
手机报名链接：http:// /mobile/。