(完整版)hadoop安装教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、VMware 安装
我们使用Vmware 14的版本,傻瓜式安装即可。

(只要)
双击如过
2.安装xshell
双击
3.安装镜像:
解压centos6.5-empty 解压双击打开
CentOS6.5.vmx
如果打不开,在cmd 窗口中输入:netsh winsock reset 然后重启电脑。

进入登录界面,点击other 用户名:root
密码:root
然后右键open in terminal 输入ifconfig回车
查看ip地址
xshell
打开
点击链接
如果有提示,则接受
输入用户名:root
输入密码:root
4.xshell 连接虚拟机
打开虚拟机,通过ifconfig 查看
ip
5.安装jkd
1. 解压Linux版本的JDK压缩包
mkdir:创建目录的命令
rm -rf 目录/文件删除目录命令
cd 目录进入指定目录
rz可以上传本地文件到当前的linux目录中(也可以直接将安装包拖到xshell窗口)
ls可以查看当前目录中的所有文件
tar解压压缩包(Tab键可以自动补齐文件名)
pwd可以查看当前路径
文档编辑命令:
vim文件编辑命令
i:进入编辑状态
Esc(左上角):退出编辑状态
:wq保存并退出
:q!不保存退出
mkdir /home/software#按习惯用户自己安装的软件存放到
/home/software目录下
cd /home/software #进入刚刚创建的目录
rz 上传jdk tar包#利用xshell的rz命令上传文件(如果rz 命令不能用,先执行yum install lrzsz -y ,需要联网)
tar -xvf jdk-7u51-linux-x64.tar.gz#解压压缩包
2. 配置环境变量
1)vim /etc/profile
2)在尾行添加
#set java environment
JAVA_HOME=/home/software/jdk1.8.0_65
JAVA_BIN=/home/software/jdk1.8.0_65/bin
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
Esc退出编辑状态
:wq#保存退出
注意JAVA_HOME要和自己系统中的jdk目录保持一致,如果是使用的rpm包安
装的jdk,安装完之后jdk的根目录为:/usr/java/jdk1.8.0_111,也可
以通过命令:rpm -qal|grep jdk 来查看目录
3)source /etc/profile使更改的配置立即生效
4)java -version查看JDK版本信息。

如显示版本号则证明成功。

6.安装hadoop
1. 安装配置jdk、关闭防火墙
service iptables stop
执行该命令可以关闭防火墙,但是如果虚拟机重启的话,防火墙会重新开启。

chkconfig iptables off
执行该命令可以永久关闭防火墙。

两个命令配合使用
2. 修改主机名
vim /etc/sysconfig/network
注意:主机名里不能有下滑线,或者特殊字符#$,不然会找不到主机,从而导致无法启动。

这种方式更改主机名需要重启才能永久生效,因为主机名属于内核参数。

如果不想重启,可以执行:hostname hadoop01。

但是这种更改是临时的,重启后会恢复原主机名。

所以可以结合使用。

先修改配置文件,然后执行:hostname hadoop01。

可以达到不重启或重启都是主机名都是同一个的目的
3. 配置hosts文件
vim /etc/hosts
修改hosts文件,以后用到IP连接的地方就可以直接使用hadoop01代替IP地址了。

4. 配置免密码登录
ssh-keygen
这里只需要回车,无需输入。

ssh-copy-id root@hadoop01想从这台机器免密登录哪个机器,就把公钥文件发送到哪个机器上。

5. 安装配置jdk(省略)
6. 上传和解压hadoop安装包
过程省略,解压路径为:
要记着这个路径,后面的配置要用到。

bin目录:命令脚本
etc/hadoop:存放hadoop的配置文件
lib目录:hadoop运行的依赖jar包
sbin目录:启动和关闭hadoop等命令都在这里
libexec目录:存放的也是hadoop命令,但一般不常用
最常用的就是bin和etc目录
7. 在hadoop根目录下创建tmp目录
mkdir tmp存放Hadoop运行时产生的文件目录
8. 配置hadoop-env.sh文件
cd etc/hadoop
vim hadoop-env.sh
修改JAVA_HOME路径和HADOOP_CONF_DIR 路径,注意路径一定要写对,里面原始的获取系统路径的方式不起作用。

(修改两个地方)
A
l l t
h i n g
export JAVA_HOME=/home/software/jdk1.8.0_65
# The jsvc implementation to use. Jsvc is required to run secure datanodes
# data transfer protocol using non-privileged ports.#export JSVC_HOME=${JSVC_HOME}
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop :wq
退出
source hadoop-env.sh
让配置立即生效
9. 修改core-site.xml
vim core-site.xml

<configuration></configuration>标签中添加如下代码
<configuration >
<property >
<name >fs.defaultFS </name >
<value >hdfs://hadoop01:9000</value >
</property ><property >
<name >hadoop.tmp.dir </name >
<value >/home/software/hadoop-2.7.1/tmp </value >
</property >
</configuration>
<!--第一个property参数用来指定hdfs的老大,namenode的地址-->
<!--第二个property参数用来指定hadoop运行时产生文件的存放目录-->
10. 修改 hdfs-site .xml
vim hdfs-site.xml在
<configuration></configuration>标签中添加如下代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
<!--第一个property参数指定hdfs保存数据副本的数量,包括自己,默认值是3。

如果是伪分布模式,此值是1 -->
<!--第二个property参数设置hdfs的操作权限,false表示任何用户都可以在hdfs上操作文件 -->
11. 修改 mapred-site.xml
cp mapred-site.xml.template mapred-site.xml拷贝模板文件并重命名
vim mapred-site.xml在
<configuration></configuration>标签中添加如下代码
<configuration>
<property>
<name></name>
<value>yarn</value>
</property>
</configuration>
<!--property参数指定mapreduce运行在yarn上 -->
yarn是Hadoop的资源协调工具。

12. 修改yarn-site.xml
vim yarn-site.xml在
<configuration></configuration>标签中添加如下代码
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
<!--第一个property参数用来指定yarn的老大resoucemanager的地址 -->
<!--第二个property参数用来指定NodeManager获取数据的方式 --> 13. 配置slaves文件
vim slaves
hadoop01
14. 配置hadoop的环境变量
vim /etc/profile修改配置文件,使hadoop命令可以在任何目录下执行,下面是修改后的代码
JAVA_HOME=/home/software/jdk1.8.0_111
HADOOP_HOME=/home/software/hadoop-2.7.1
JAVA_BIN=/home/software/jdk1.8.0_111/bin
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/s bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/to ols.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH HADOOP_HOME
加粗的地方都是需要修改的地方,注意PATH多个参数值之间用冒号隔开,所有的参数都在$PATH之前
source /etc/profile使配置文件生效
15. 格式化namenode
hadoop namenode -format
中间如果提示是否需要重新格式化,则根据自己的需求输入即可。

如果出现successfully formatted,则表示格式化成功。

16. 启动分布式文件系统
cd /home/software
cd hadoop-2.7.1/
cd sbin
进入Hadoop安装目录下的sbin目录,执行:sh start-dfs.sh 如果要停止,执行sh stop-dfs.sh
,如果出现下图则表示执行成功
之后执行jps
17. HDFS控制台页面
通过浏览器访问:ip:50070来查看hdfs系统
7、Windows下Eclipse中安装hadoop插件
1.下载hadoop插件,注意:插件的版本要和用的hadoop版本保持一致
2.将插件jar包放在eclipse安装目录的plugins目录下
3.将hadoop安装包放到指定的一个目录(后面要用这个安装目录)
3. 重启eclipse(配置jdk和compiler查看是否与jdk一致),window=>preferences下发现多出Map/Reduce选项卡,点击=》选择hadoop的安装目录,然后点击apply,点击确定
eclipse中配置jdk:
然后next
4. 点击window->show view ,调出map/reduce 视图
6.在map/reduce视图下,点击右下方蓝色的大象,新建hadoop客户端连接
7.在下面的选项卡里,填好namenode节点的ip地址,及相应的端口号
8.即可链接到
hdfs。

相关文档
最新文档