Hadoop环境的安装

合集下载

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

hadoop安装实验总结

hadoop安装实验总结Hadoop安装实验总结Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。

在本次实验中，我成功安装了Hadoop，并进行了相关的配置和测试。

以下是我对整个过程的总结和经验分享。

1. 环境准备在开始安装Hadoop之前，我们需要确保已经具备了以下几个环境条件：- 一台Linux操作系统的机器，推荐使用Ubuntu或CentOS。

- Java开发环境，Hadoop是基于Java开发的，因此需要安装JDK。

- SSH服务，Hadoop通过SSH协议进行节点之间的通信，因此需要确保SSH服务已启动。

2. 下载和安装Hadoop可以从Hadoop官方网站上下载最新的稳定版本。

下载完成后，解压缩到指定目录，并设置环境变量。

同时，还需要进行一些配置，包括修改配置文件和创建必要的目录。

3. 配置Hadoop集群Hadoop是一个分布式系统，通常会配置一个包含多个节点的集群。

在配置文件中，我们需要指定集群的各个节点的IP地址和端口号，并设置一些重要的参数，如数据存储路径、副本数量等。

此外，还可以根据实际需求调整其他配置参数，以优化集群性能。

4. 启动Hadoop集群在完成集群配置后，我们需要启动Hadoop集群。

这一过程需要先启动Hadoop的各个组件，包括NameNode、DataNode、ResourceManager和NodeManager等。

启动成功后，可以通过Web 界面查看集群的状态和运行情况。

5. 测试Hadoop集群为了验证Hadoop集群的正常运行，我们可以进行一些简单的测试。

例如，可以使用Hadoop提供的命令行工具上传和下载文件，查看文件的副本情况，或者运行一些MapReduce任务进行数据处理。

这些测试可以帮助我们了解集群的性能和可靠性。

6. 故障排除与优化在实际使用Hadoop时，可能会遇到一些故障和性能问题。

为了解决这些问题，我们可以通过查看日志文件或者使用Hadoop提供的工具进行故障排查。

hadoop环境搭建

hadoop环境搭建⼀、安装ssh免密登录命令：ssh-keygenoverwrite(覆盖写⼊)输⼊y⼀路回车将⽣成的密钥发送到本机地址ssh-copy-id localhost（若报错命令⽆法找到则需要安装openssh-clients）yum –y install openssh-clients测试免密设置是否成功ssh localhost⼆、卸载已有java确定JDK版本rpm –qa | grep jdkrpm –qa | grep gcj切换到root⽤户，根据结果卸载javayum -y remove java-1.8.0-openjdk-headless.x86_64 yum -y remove java-1.7.0-openjdk-headless.x86_64卸载后输⼊java –version查看三、安装java切换回hadoop⽤户，命令：su hadoop查看下当前⽬标⽂件，命令：ls将桌⾯的hadoop⽂件夹中的java及hadoop安装包移动到app⽂件夹中命令：mv /home/hadoop/Desktop/hadoop/jdk-8u141-linux-x64.gz /home/hadoop/app mv /home/hadoop/Desktop/hadoop/hadoop-2.7.0.tar.gz /home/hadoop/app解压java程序包，命令：tar –zxvf jdk-7u79-linux-x64.tar.gz创建软连接ln –s jdk1.8.0_141 jdk配置jdk环境变量切换到root⽤户再输⼊vi /etc/profile输⼊export JAVA_HOME=/home/hadoop/app/jdk1.8.0_141export JAVA_JRE=JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JAVA_JRE/lib export PATH=$PATH:$JAVA_HOME/bin保存退出，并使/etc/profile⽂件⽣效source /etc/profile能查询jdk版本号，说明jdk安装成功java -version四、安装hadoop切换回hadoop⽤户，解压缩hadoop-2.6.0.tar.gz安装包创建软连接，命令：ln -s hadoop-2.7.0 hadoop验证单机模式的Hadoop是否安装成功，命令：hadoop/bin/hadoop version此时可以查看到Hadoop安装版本为Hadoop2.7.0，说明单机版安装成功。

Hadoop 搭建

实验报告
（与程序设计有关）
课程名称：云计算技术提高
实验题目：Hadoop搭建
Xx xx：0000000000
x x:xx
x x：
xxxx
2021年5月21日
实验目的及要求：
开源分布式计算架构Hadoop的搭建
软硬件环境：
Vmware一台计算机
算法或原理分析（实验内容）：
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台，使用Java语言开发，具有很好的跨平台性，可以运行在商用（廉价）硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储。
三．Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件，设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二．JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表；并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境，设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后，使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态；利用systemctl stop firewalld.service关闭防火墙；最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件，利用date命令测试

Hadoop完全分布式详细安装过程

Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware，用于支撑Linux系统。

2、在VMware上安装Ubuntu系统。

3、安装Hadoop前的准备工作：安装JDK和SSH服务。

4、配置Hadoop。

5、为了方便开发过程，需安装eclipse。

6、运行一个简单的Hadoop程序：WordCount.java注：在win7系统上，利用虚拟工具VMware建立若干个Linux系统，每个系统为一个节点，构建Hadoop集群。

先在一个虚拟机上将所有需要配置的东西全部完成，然后再利用VMware 的克隆功能，直接生成其他虚拟机，这样做的目的是简单。

二、所需软件1、VMware：VMware Workstation，直接百度下载（在百度软件中心下载即可）。

2、Ubuntu系统：ubuntu-15.04-desktop-amd64.iso，百度网盘：/s/1qWxfxso注：使用15.04版本的Ubuntu（其他版本也可以），是64位系统。

3、jdk：jdk-8u60-linux-x64.tar.gz，网址：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注：下载64位的Linux版本的jdk。

4、Hadoop：hadoop-1.2.1-bin.tar.gz，网址：/apache/hadoop/common/hadoop-1.2.1/注：选择1.2.1版本的Hadoop。

5、eclipse：eclipse-java-mars-1-linux-gtk-x86_64.tar.gz，网址：/downloads/?osType=linux注：要选择Linux版本的，64位，如下：6、hadoop-eclipse-plugin-1.2.1.jar，这是eclipse的一个插件，用于Hadoop的开发，直接百度下载即可。

三、安装过程1、安装VMware。

hadoop安装以及配置启动命令

hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz，以下步骤都是在此版本上进⾏。

1、安装，通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息：在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上，只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤： a、⾸先进⼊Hadoop的安装⽬录，进⼊bin⽬录下，先将Hadoop环境初始化，命令：./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件，命令:./hadoop fs -ls/ d、上传⽂件，命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容，命令：./hadoopo fs -cat hadoop⽂件地址注意：在安装Hadoop环境时先安装好机器集群，使得⾄少3台以上（含3台）机器之间可以免密互相登录（可以查看上⼀篇的linux的ssh免密登录）执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。

linuxxshelljdkhadoop（环境搭建）虚拟机安装（大数据搭建环境）

linuxxshelljdkhadoop（环境搭建）虚拟机安装（⼤数据搭建环境）【hadoop是2.6.5版本xshell是6版本jdk是1.8.0.131 虚拟机是CentOS-6.9-x86_64-bin-DVD1.iso vmware10】1.创建虚拟机第⼀步：在VMware中创建⼀台新的虚拟机。

如图2.2所⽰。

图2.2第⼆步：选择“⾃定义安装”，然后单击“下⼀步”按钮，如图2.3所⽰。

图2.3第三步：单击“下⼀步” 按钮，如图2.4所⽰。

图2.4第四步：选择“稍后安装操作系统”，然后单击“下⼀步” 按钮，如图2.5所⽰。

图2.5第五步：客户机操作系统选择Linux，版本选择“CentOS 64位”，然后单击“下⼀步” 按钮，如图2.6所⽰。

图2.6第六步：在这⾥可以选择“修改虚拟机名称”和“虚拟机存储的物理地址”，如图2.7所⽰。

图2.7第七步：根据本机电脑情况给Linux虚拟机分配“处理器个数”和每个处理器的“核⼼数量”。

注意不能超过⾃⼰电脑的核数，推荐处理数量为1，每个处理器的核⼼数量为1，如图2.8所⽰。

图2.8第⼋步：给Linux虚拟机分配内存。

分配的内存⼤⼩不能超过⾃⼰本机的内存⼤⼩，多台运⾏的虚拟机的内存总合不能超过⾃⼰本机的内存⼤⼩，如图2.9所⽰。

图2.9第九步：使⽤NAT⽅式为客户机操作系统提供主机IP地址访问主机拨号或外部以太⽹⽹络连接，如图2.10所⽰。

图2.10第⼗步：选择“SCSI控制器为LSI Logic(L)”，然后单击“下⼀步” 按钮，如图2.11所⽰。

图2.11第⼗⼀步：选择“虚拟磁盘类型为SCSI(S)”，然后单击“下⼀步” 按钮，如图2.12所⽰。

图2.12第⼗⼆步：选择“创建新虚拟磁盘”，然后单击“下⼀步” 按钮，如图2.13所⽰。

图2.13第⼗三步：根据本机的磁盘⼤⼩给Linux虚拟机分配磁盘，并选择“将虚拟机磁盘拆分为多个⽂件”，然后单击“下⼀步”按钮，如图2.14所⽰。

hadoop的基本使用

hadoop的基本使用Hadoop的基本使用Hadoop是一种开源的分布式计算系统和数据处理框架，具有可靠性、高可扩展性和容错性等特点。

它能够处理大规模数据集，并能够在集群中进行并行计算。

本文将逐步介绍Hadoop的基本使用。

一、Hadoop的安装在开始使用Hadoop之前，首先需要进行安装。

以下是Hadoop的安装步骤：1. 下载Hadoop：首先，从Hadoop的官方网站（2. 配置环境变量：接下来，需要将Hadoop的安装目录添加到系统的环境变量中。

编辑~/.bashrc文件（或其他相应的文件），并添加以下行：export HADOOP_HOME=/path/to/hadoopexport PATH=PATH:HADOOP_HOME/bin3. 配置Hadoop：Hadoop的配置文件位于Hadoop的安装目录下的`etc/hadoop`文件夹中。

其中，最重要的配置文件是hadoop-env.sh，core-site.xml，hdfs-site.xml和mapred-site.xml。

根据具体需求，可以在这些配置文件中进行各种参数的设置。

4. 启动Hadoop集群：在完成配置后，可以启动Hadoop集群。

运行以下命令以启动Hadoop集群：start-all.sh二、Hadoop的基本概念在开始使用Hadoop之前，了解一些Hadoop的基本概念是非常重要的。

以下是一些重要的概念：1. 分布式文件系统（HDFS）：HDFS是Hadoop的核心组件之一，用于存储和管理大规模数据。

它是一个可扩展的、容错的文件系统，能够在多个计算机节点上存储数据。

2. MapReduce：MapReduce是Hadoop的编程模型，用于并行计算和处理大规模数据。

它由两个主要的阶段组成：Map阶段和Reduce阶段。

Map阶段将输入数据切分为一系列键值对，并运行在集群中的多个节点上。

Reduce阶段将Map阶段的输出结果进行合并和计算。

hadoop安装配置指南

Hadoop安装、配置指南一、环境1、软件版本Hadoop：hadoop-0.20.2.Hive：hive-0.5.0JDK：jdk1.6以上版本2、配置的机器：主机[服务器master]：192.168.10.121 hadoop13从机[服务器slaves]：192.168.10.68 hadoop4在本文中，在命令或二、先决条件1、配置host:打开/etc/host文件，添加如下映射192.168.10.121 hadoop13 hadoop13192.168.10.68 hadoop4 hadoop42、配置SSH自动登陆1)以ROOT用户，登陆到[服务器master]上执行,如下操作：ssh-keygen -t rsa //一路回车cd ~/.sshcat id_rsa.pub >> authorized_keysscp -r ~/.ssh [服务器slaves]:~/2）以ROOT用户，登陆到[服务器slaves]上执行,如下操作：scp -r ~/.ssh [服务器master]:~/3）测试SSH是否配置成功在主服务器中执行如下命令：ssh [服务器master]ssh 192.168.10.68成功显示结果：Last login: Thu Aug 26 14:11:27 2010 from 在从服务器中执行如下命令：ssh [服务器slaves]ssh 192.168.10.121成功显示结果Last login: Thu Aug 26 18:23:58 2010 from 三、安装hadoop1、JDK安装,解压到/usr/local/jdk1.6.0_17,并配置/etc/profile环境export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jarJDK路径:/usr/local/jdk/jdk1.7.0export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar/usr/local/jdk/jdk1.7.02、下载Hadoop 并解压到[服务器master]的/root/zwmhadoop目录下tar zxvf hadoop-0.20.2.tar.gz四、配置hadoop1.配置主机[服务器master]到zwm hadoop/hadoop-0.20.2/ hadoop 目录下，修改以下文件：1）配置conf/hadoop-env.sh文件，在文件中添加环境变量，增加以下内容：export JAVA_HOME=/usr/local/jdk1.6.0_17export HADOOP_HOME=/root/zwmhadoop/hadoop-0.20.2/2）配置conf/core-site.xml文件，增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name></name><value>hdfs://192.168.10.121:9000</value>//你的namenode的配置，机器名加端口<description>The nam e of the default file system. Either the literal string "local" o r a host:port for DFS.</description></property></configuration>3）配置conf/hdfs-site.xml文件，增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>hadoop.t m p.dir</name><value>/root/zwmhadoop/t m p</value>//Hadoop的默认临时路径，这个最好配置，然后在新增节点或者其他情况下莫名其妙的DataNode启动不了，就删除此文件中的t mp目录即可。

Hadoop环境搭建

Hadoop环境搭建啥是⼤数据？问啥要学⼤数据？在我看来⼤数据就很多的数据，超级多，咱们⽇常⽣活中的数据会和历史⼀样，越来越多⼤数据有四个特点(4V)：⼤多样快价值学完⼤数据我们可以做很多事，⽐如可以对许多单词进⾏次数查询（本节最后的实验），可以对股市进⾏分析，所有的学习都是为了赚⼤钱！（因为是在Linux下操作，所以⽤到的全是Linux命令，不懂可以百度，这篇⽂章有⼀些简单命令。

常⽤）第⼀步安装虚拟机配置环境1.下载虚拟机，可以⽤⾃⼰的，没有的可以下载这个 passowrd：u8lt2.导⼊镜像，可以⽤这个 password：iqww （不会创建虚拟机的可以看看，不过没有这个复杂，因为导⼊就能⽤）3.更换主机名，vi /etc/sysconfig/network 改HOSTNAME=hadoop01 (你这想改啥改啥，主要是为了清晰，否则后⾯容易懵)注：在这⾥打开终端4.查看⽹段，从编辑-虚拟⽹络编辑器查看，改虚拟机⽹段，我的是192.168.189.128-254（这个你根据⾃⼰的虚拟机配置就⾏，不⽤和我⼀样，只要记住189.128这个段就⾏）5.添加映射关系，输⼊：vim /etc/hosts打开⽂件后下⾯添加 192.168.189.128 hadoop01（红⾊部分就是你们上⾯知道的IP）（这⾥必须是hadoop01，为了⽅便后⾯直接映射不⽤敲IP）6.在配置⽂件中将IP配置成静态IP 输⼊： vim /etc/sysconfig/network-scripts/ifcfg-eth0 （物理地址也要⼀样哦！不知道IP的可以输⼊：ifconfig 查看⼀下）7.重启虚拟机输⼊：reboot (重启后输⼊ ping 能通就说明没问题)第⼆步克隆第⼀台虚拟机，完成第⼆第三虚拟机的配置1.⾸先把第⼀台虚拟机关闭，在右击虚拟机选项卡，管理-克隆即可（克隆两台⼀台hadoop02 ⼀台hadoop03）2.克隆完事后，操作和第⼀部基本相同唯⼀不同的地⽅是克隆完的虚拟机有两块⽹卡，我们把其中⼀个⽹卡注释就好（⼀定牢记！通过这⾥的物理地址⼀定要和配置⽂件中的物理地址相同）输⼊：vi /etc/udev/rules.d/70-persistent-net.rules 在第⼀块⽹卡前加# 将第⼆块⽹卡改为eth03.当三台机器全部配置完之后，再次在hosts⽂件中加⼊映射达到能够通过名称互相访问的⽬的输⼊：vim /etc/hosts （三台都要如此设置）（改完之后记得reboot重启）第三步使三台虚拟机能够通过SHELL免密登录1.查看SSH是否安装 rmp -qa | grep ssh （如果没有安装，输⼊sudo apt-get install openssh-server）2.查看SSH是否启动 ps -e | grep sshd （如果没有启动，输⼊sudo /etc/init.d/ssh start）3.该虚拟机⽣成密钥 ssh-keygen -t rsa（连续按下四次回车就可以了）4.将密钥复制到另外⼀台虚拟机⽂件夹中并完成免密登录输⼊：ssh-copy-id -i ~/.ssh/id_rsa.pub 2 （同样把秘钥给hadoop03和⾃⼰）（输⼊完后直接下⼀步，如果下⼀步失败再来试试改这个修改/etc/ssh/ssh_config中的StrictHostKeyCheck ask ）5.之后输⼊ ssh hadoop02就可以正常访问第⼆台虚拟机啦注：可能你不太理解这是怎么回事，我这样解释⼀下，免密登录是为了后⾯进⾏集群操作时⽅便，⽣成秘钥就像是⽣成⼀个钥匙，这个钥匙是公钥，公钥可以打开所有门，之后把这个钥匙配两把，⼀把放在hadoop02的那⾥，⼀把放在hadoop03的那⾥，这样hadoop01可以对hadoop02和hadoop03进⾏访问。

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐血整理）

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐⾎整理）系统：Centos 7，内核版本3.10本⽂介绍如何从0利⽤Docker搭建Hadoop环境，制作的镜像⽂件已经分享，也可以直接使⽤制作好的镜像⽂件。

⼀、宿主机准备⼯作0、宿主机（Centos7）安装Java（⾮必须，这⾥是为了⽅便搭建⽤于调试的伪分布式环境）1、宿主机安装Docker并启动Docker服务安装：yum install -y docker启动：service docker start⼆、制作Hadoop镜像（本⽂制作的镜像⽂件已经上传，如果直接使⽤制作好的镜像，可以忽略本步，直接跳转⾄步骤三）1、从官⽅下载Centos镜像docker pull centos下载后查看镜像 docker images 可以看到刚刚拉取的Centos镜像2、为镜像安装Hadoop1）启动centos容器docker run -it centos2）容器内安装java下载java，根据需要选择合适版本，如果下载历史版本拉到页⾯底端，这⾥我安装了java8/usr下创建java⽂件夹，并将java安装包在java⽂件下解压tar -zxvf jdk-8u192-linux-x64.tar.gz解压后⽂件夹改名（⾮必需）mv jdk1.8.0_192 jdk1.8配置java环境变量vi ~/.bashrc ，添加内容，保存后退出export JAVA_HOME=/usr/java/jdk1.8export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin使环境变量⽣效 source ~/.bashrc验证安装结果 java -version这⾥注意，因为是在容器中安装，修改的是~/.bashrc⽽⾮我们使⽤更多的/etc/profile，否则再次启动容器的时候会环境变量会失效。

(完整版)Hadoop安装教程_伪分布式配置_CentOS6.4_Hadoop2.6.0

Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0都能顺利在CentOS 中安装并运行Hadoop。

环境本教程使用CentOS 6.4 32位作为系统环境，请自行安装系统（可参考使用VirtualBox安装CentOS）。

如果用的是Ubuntu 系统，请查看相应的Ubuntu安装Hadoop教程。

本教程基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1, Hadoop 2.4.1等。

Hadoop版本Hadoop 有两个主要版本，Hadoop 1.x.y 和Hadoop 2.x.y 系列，比较老的教材上用的可能是0.20 这样的版本。

Hadoop 2.x 版本在不断更新，本教程均可适用。

如果需安装0.20，1.2.1这样的版本，本教程也可以作为参考，主要差别在于配置项，配置请参考官网教程或其他教程。

新版是兼容旧版的，书上旧版本的代码应该能够正常运行（我自己没验证，欢迎验证反馈）。

装好了CentOS 系统之后，在安装Hadoop 前还需要做一些必备工作。

创建hadoop用户如果你安装CentOS 的时候不是用的“hadoop” 用户，那么需要增加一个名为hadoop 的用户。

首先点击左上角的“应用程序” -> “系统工具” -> “终端”，首先在终端中输入su，按回车，输入root 密码以root 用户登录，接着执行命令创建新用户hadoop:如下图所示，这条命令创建了可以登陆的hadoop 用户，并使用/bin/bash 作为shell。

CentOS创建hadoop用户接着使用如下命令修改密码，按提示输入两次密码，可简单的设为“hadoop”（密码随意指定，若提示“无效的密码，过于简单”则再次输入确认就行）:可为hadoop 用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题，执行：如下图，找到root ALL=(ALL) ALL这行（应该在第98行，可以先按一下键盘上的ESC键，然后输入:98 (按一下冒号，接着输入98，再按回车键)，可以直接跳到第98行），然后在这行下面增加一行内容：hadoop ALL=(ALL) ALL（当中的间隔为tab），如下图所示：为hadoop增加sudo权限添加上一行内容后，先按一下键盘上的ESC键，然后输入:wq (输入冒号还有wq，这是vi/vim编辑器的保存方法)，再按回车键保存退出就可以了。

Hadoop开发环境搭建(Win8 + Eclipse + Linux)

Hadoop开发环境搭建（Win8+Linux）常见的Hadoop开发环境架构有以下三种：1、Eclipse与Hadoop集群在同一台Windows机器上。

2、Eclipse与Hadoop集群在同一台Linux机器上。

3、Eclipse在Windows上，Hadoop集群在远程Linux机器上。

点评：第一种架构：必须安装cygwin，Hadoop对Windows的支持有限，在Windows 上部署hadoop会出现相当多诡异的问题。

第二种架构：Hadoop机器运行在Linux上完全没有问题，但是有大部分的开发者不习惯在Linux上做开发。

这种架构适合习惯使用Linux的开发者。

第三种架构：Hadoop集群部署在Linux上，保证了稳定性，Eclipse在Windows 上，符合大部分开发者的习惯。

本文主要介绍第三种Hadoop开发环境架构的搭建方法。

Hadoop开发环境的搭建分为两大块：Hadoop集群搭建、Eclipse环境搭建。

其中Hadoop集群搭建可参考官方文档，本文主要讲解Eclipse环境搭建（如何在Eclipse 中查看和操作HDFS、如何在Eclipse中执行MapReduce作业）。

搭建步骤：1、搭建Hadoop集群（Linux、JDK6、Hadoop-1.1.2）2、在Windows上安装JDK6+3、在Windows上安装Eclipse3.3+4、在Eclipse上安装hadoop-eclipse-plugin-1.1.2.jar插件（如果没有，则需自行编译源码）5、在Eclipse上配置Map/Reduce Location搭建Hadoop集群此步骤可参考Hadoop官方文档在Windows上安装JDK此步骤可参考官方文档在Window上安装Eclipse此步骤可参考官方文档在Eclipse上安装hadoop-eclipse-plugin-1.1.2.jar插件Hadoop-1.1.2的发布包里面没有hadoop-eclipse-plugin-1.1.2.jar，开发者必须根据所在的环境自行编译hadoop-eclipse-plugin-1.1.2.jar插件。

hadoop安装指南(非常详细,包成功)

➢3.10.2.进程➢JpsMaster节点：namenode/tasktracker（如果Master不兼做Slave, 不会出现datanode/TasktrackerSlave节点：datanode/Tasktracker说明：JobTracker 对应于NameNodeTaskTracker 对应于DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每个Task（即MapTask和ReduceTask）并将它们分发到各个TaskTracker服务中去执行2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。

一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。

TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

TaskTracker都需要运行在HDFS的DataNode上3.10.3.文件系统HDFS⏹查看文件系统根目录：Hadoop fs–ls /。

Hadoop生产环境搭建（含HA、Federation）

Hadoop⽣产环境搭建（含HA、Federation）Hadoop⽣产环境搭建1. 将安装包hadoop-2.x.x.tar.gz存放到某⼀⽬录下，并解压。

2. 修改解压后的⽬录中的⽂件夹etc/hadoop下的配置⽂件（若⽂件不存在，⾃⼰创建。

）包括hadoop-env.sh,mapred-site.xml,core-site.xml,hdfs-site.xml,yarn-site.xml3. 格式化并启动HDFS4. 启动YARN以上整个过程与Hadoop单机Hadoop测试环境搭建基本⼀致，不同的是步骤2中配置⽂件设置内容以及步骤3的详细过程。

HDFS2.0的HA配置⽅法（主备NameNode）注意事项：1）主备Namenode有多种配置⽅法，本次使⽤JournalNode⽅式。

⾄少准备三个节点作为JournalNode2）主备两个Namenode应放于不同的机器上，独享机器。

（HDFS2.0中吴煦配置secondaryNamenode，备NameNode已经代替它完成相应的功能）3）主备NameNode之间有两种切换⽅式，⼿动切换和⾃动切换。

其中⾃动切换是借助Zookeeper实现的。

因此需要单独部署⼀个Zookeeper集群，通常为奇数个，⾄少3个。

==================================================================================HSFS HA部署架构和流程HSFS HA部署架三个JournalNode两个NameNodeN个DataNodeHDFS HA部署流程——hdfs-site.xml配置services 集群中命名服务列表（⾃定义）nodes.${ns}命名服务中的namenode逻辑名称（⾃定义）node.rpc-address.${ns}.${nn} 命名服务中逻辑名称对应的RPC地址node.http-address.${ns}.${nn} 命名服务中逻辑名称对应的HTTP地址.dir NameNode fsimage存放⽬录node.shared.edits.dir 主备NameNode同步元信息的共享存储系统dfs.journalnode.edits.dir Journal Node数据存放⽬录HDFS HA部署流程——hdfs-site.xml配置实例<?xml version="1.0" encoding="UTF-8"?><configuration><property><name>services</name><value>hadoop-rokid</value></property><property><name>nodes.hadoop-rokid</name><value>nn1,nn2</value></property><property><name>node.rpc-adress.hadoop-rokid.nn1</name><value>nn1:8020</value></property><property><name>node.rpc-adress.hadoop-rokid.nn2</name><value>nn2:8020</value></property><property><name>node.http-adress.hadoop-rokid.nn1</name><value>nn1:50070</value></property><property><name>node.http-adress.hadoop-rokid.nn2</name><value>nn2:50070</value></property><property><name>.dir</name><value>file:///home/zhangzhenghai/cluster/hadoop/dfs/name</value></property><property><name>node.shared.edits.dir</name><value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid</value></property><property><name>dfs.datanode.data.dir</name><value>file:///home/zhangzhenghai/cluster/hadoop/dfs/data</value></property><property><name>dfs.ha.automatic-failover.enabled</name><value>false</value></property><property><name>dfs.journalnode.edits.dir</name><value>/home/zhangzhenghai/cluster/hadoop/dfs/journal</value><?xml version="1.0" encoding="UTF-8"?><configuration><property><name></name><value>hdfs://nn1:8020</value></property></configuration>HDFS HA部署流程——slaves配置实例列出集群中的所有机器名称列表启动顺序：Hadoop2.x上机实践（部署多机-HDFS HA+YARN）HA注意：所有操作均在Hadoop部署⽬录下进⾏。

hadoop安装与配置总结与心得

hadoop安装与配置总结与心得安装与配置Hadoop是一个相对复杂的任务，但如果按照正确的步骤进行，可以顺利完成。

以下是我在安装与配置Hadoop 过程中的总结与心得：1. 首先，确保你已经满足Hadoop的系统要求，并且已经安装了Java环境和SSH。

2. 下载Hadoop的压缩包，并解压到你想要安装的目录下。

例如，解压到/opt/hadoop目录下。

3. 配置Hadoop的环境变量。

打开你的.bashrc文件（或者.bash_profile文件），并添加以下内容：```shellexport HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin```保存文件后，执行source命令使其生效。

4. 配置Hadoop的核心文件。

打开Hadoop的配置文件core-site.xml，并添加以下内容：```xml<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>```5. 配置Hadoop的HDFS文件系统。

打开Hadoop的配置文件hdfs-site.xml，并添加以下内容：```xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>```这里的dfs.replication属性指定了数据块的副本数量，可以根据实际情况进行调整。

6. 配置Hadoop的MapReduce框架。

centos环境下hadoop的安装与配置实验总结

centos环境下hadoop的安装与配置实验总结实验总结：CentOS环境下Hadoop的安装与配置一、实验目标本次实验的主要目标是学习在CentOS环境下安装和配置Hadoop，了解其基本原理和工作机制，并能够运行简单的MapReduce程序。

二、实验步骤1. 准备CentOS环境：首先，我们需要在CentOS上安装和配置好必要的基础环境，包括Java、SSH等。

2. 下载Hadoop：从Hadoop官方网站下载Hadoop的稳定版本，或者使用CentOS的软件仓库进行安装。

3. 配置Hadoop：解压Hadoop安装包后，需要进行一系列的配置。

这包括设置环境变量、配置文件修改等步骤。

4. 格式化HDFS：使用Hadoop的命令行工具，对HDFS进行格式化，创建其存储空间。

5. 启动Hadoop：启动Hadoop集群，包括NameNode、DataNode等。

6. 测试Hadoop：运行一些简单的MapReduce程序，检查Hadoop是否正常工作。

三、遇到的问题和解决方案1. 环境变量配置问题：在配置Hadoop的环境变量时，有时会出现一些问题。

我们需要检查JAVA_HOME是否设置正确，并确保HADOOP_HOME 在PATH中。

2. SSH连接问题：在启动Hadoop集群时，需要确保各个节点之间可以通过SSH进行通信。

如果出现问题，需要检查防火墙设置和SSH配置。

3. MapReduce程序运行问题：在运行MapReduce程序时，可能会遇到一些错误。

这通常是由于程序本身的问题，或者是由于HDFS的权限问题。

我们需要仔细检查程序代码，并确保运行程序的用户有足够的权限访问HDFS。

四、实验总结通过本次实验，我们深入了解了Hadoop的安装和配置过程，以及如何解决在安装和运行过程中遇到的问题。

这对于我们今后在实际应用中部署和使用Hadoop非常重要。

同时，也提高了我们的实践能力和解决问题的能力。

简述hadoop伪分布式环境搭建流程

Hadoop是一个能够处理大规模数据的分布式系统框架，它能够在集裙中运行并管理大量的数据。

在学习和使用Hadoop时，搭建一个伪分布式环境是非常有必要的。

伪分布式环境搭建流程如下：1. 准备环境在开始搭建Hadoop伪分布式环境之前，首先需要安装并配置好Java 环境。

Hadoop是基于Java开发的，所以Java环境是必不可少的。

2. 下载Hadoop首先在官全球信息站下载Hadoop的最新版本，然后解压到指定的目录。

3. 配置Hadoop环境变量在解压得到的Hadoop安装目录中，找到etc/hadoop目录，这是Hadoop的配置文件目录。

在该目录下，打开hadoop-env.sh文件，设置JAVA_HOME变量为你的Java安装路径。

4. 配置Hadoop的核心文件在etc/hadoop目录下，打开core-site.xml文件，设置Hadoop的核心配置信息。

包括Hadoop的基本参数、HDFS的URL位置区域等。

5. 配置Hadoop的HDFS文件系统同样在etc/hadoop目录下，打开hdfs-site.xml文件，设置Hadoop的HDFS配置信息。

包括数据的存储路径、副本数量等。

6. 配置Hadoop的MapReduce框架在etc/hadoop目录下，打开mapred-site.xml.template文件，设置Hadoop的MapReduce配置信息。

包括MapReduce框架的工作目录、框架的框架数据存储路径等。

7. 配置Hadoop的主节点和从节点在etc/hadoop目录下，打开slaves文件，配置Hadoop的主节点和从节点信息。

可以设置本地主机为主节点，也可以配置其他从节点的IP位置区域。

8. 格式化HDFS在命令行中输入命令：hdfs namenode -format，即可格式化HDFS 文件系统。

这一步是为了清空HDFS文件系统中的旧数据，重新初始化HDFS。

hadoop安装实验总结

hadoop安装实验总结Hadoop安装实验总结一、引言Hadoop是一个开源的分布式计算平台，用于存储和处理大规模数据集。

在本次实验中，我们将介绍Hadoop的安装过程，并总结一些注意事项和常见问题的解决方法。

二、安装过程1. 确定操作系统的兼容性：Hadoop支持多种操作系统，包括Linux、Windows等。

在安装之前，我们需要确认所使用的操作系统版本与Hadoop的兼容性。

2. 下载Hadoop软件包：我们可以从Hadoop的官方网站或镜像站点上下载最新的稳定版本的Hadoop软件包。

确保选择与操作系统相对应的软件包。

3. 解压缩软件包：将下载的Hadoop软件包解压缩到指定的目录下。

可以使用命令行工具或图形界面工具进行解压缩操作。

4. 配置环境变量：为了方便使用Hadoop命令行工具，我们需要配置环境变量。

在Linux系统中，可以编辑.bashrc文件，在其中添加Hadoop的安装路径。

在Windows系统中，可以通过系统属性中的环境变量设置来配置。

5. 配置Hadoop集群：在Hadoop的安装目录下，找到conf文件夹，并编辑其中的配置文件。

主要包括core-site.xml、hdfs-site.xml 和mapred-site.xml等。

根据实际需求，配置Hadoop的相关参数，如文件系统路径、副本数量、任务调度等。

6. 格式化文件系统：在启动Hadoop之前，需要先格式化文件系统。

使用命令行工具进入Hadoop的安装目录下的bin文件夹，并执行格式化命令：hadoop namenode -format。

7. 启动Hadoop集群：在命令行工具中输入启动命令：start-all.sh（Linux）或start-all.cmd（Windows）。

Hadoop集群将会启动并显示相应的日志信息。

8. 验证Hadoop集群：在启动Hadoop集群后，我们可以通过访问Hadoop的Web界面来验证集群的运行状态。