hadoop2.6基于yarn安装配置详解
hadoop2.6.0安装
hadoop2.6.0安装搭建hadoop2.6.0开发环境前言:因为没有物理机器要测试,所以学习如何构建Hadoop环境并在本地笔记本中创建三个Linux虚拟机是一个不错的选择。
安装VMware并准备三台相同的Linux虚拟机Linux虚拟机ISO:虚拟机平台服务器版本:PS:关于软件,软件描述如下:本地笔记本:t420,8g内存,64位操作系统,配置如下:1.安装虚拟机1.1安装vmware-workstation,一路下一步即可,导入centos,使用iso方式搭建linux虚拟机2.安装Linux虚拟机2.1安装vmware-workstation完成后,选择新建虚拟机,导入centos,使用iso方式搭建linux虚拟机选择路径选择多核选择2G内存选择桥连接的方式选择磁盘I/O模式创建全新的虚拟机选择磁盘类型虚拟机文件存储方式设置虚拟机文件的存储路径完成打开,报错如下:无法准备安装说明:\\software\\wmware\\centos-6.5-x86 64-bin-dvd1。
iso。
确保您正在使用有效的Linux安装光盘。
如果出现错误,您可能需要安装VMWareWorkstation。
原因是笔记本没有开启虚拟机功能选项,重启电脑,然后按住f1键,进入bios设置,找到virtual选项,设置成enable,然后保存退出。
打开时出现错误消息:EDD:Error8000ReadingSector 2073976原因是:vmwareworkstation9,版本太老,升级到10版本,就ok了。
设置虚拟机网络连接(固定IP),并将连接模式设置为NAT模式看下是否能上外网,左键点击笔记本右下角无线图标,再点击打开网络与共享中心,关闭vmnet01,只保留vmnet08,然后使用默认的ipv4的ip地址192.168.52.1像两颗豌豆一样克隆另一颗。
在虚拟机name02上右键弹出菜单里点击”管理(m)”,然后点击右边下拉菜单”克隆(c)”,如下所示:继续下一步选择创建完成克隆(f)设置名称和位置,然后单击finish开始复制,时间较长,耐心等待,如下单击“关闭”按钮以完成克隆。
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群,默认读者已经掌握了Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。
本教程由厦门大学数据库实验室出品,转载请注明。
本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。
另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。
为了方便新手入门,我们准备了两篇不同系统的Hadoop 伪分布式配置教程。
但其他Hadoop 教程我们将不再区分,可同时适用于Ubuntu 和CentOS/RedHat 系统。
例如本教程以Ubuntu 系统为主要演示环境,但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。
环境本教程使用Ubuntu 14.04 64位作为系统环境,基于原生Hadoop 2,在Hadoop 2.6.0 (stable)版本下验证通过,可适合任何Hadoop 2.x.y 版本,例如Hadoop 2.7.1,Hadoop 2.4.1 等。
本教程简单的使用两个节点作为集群环境: 一个作为Master 节点,局域网IP 为192.168.1.121;另一个作为Slave 节点,局域网IP 为192.168.1.122。
准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop,并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍,请前往查看,不再重复叙述。
yarn 源码编译和安装流程
一、背景介绍它是关于 yarn 源码编译和安装流程的相关知识。
在这段时间内,很多人都想了解 yarn 源码编译和安装流程是怎样的。
今天我们就来一起深入了解一下。
二、Yarn 简介Yarn 是一个JavaScript软件包管理器,它是 npm 的替代品,能够显著提高软件包的下载速度,并且是一个强大的依赖关系管理工具。
Yarn 是令人兴奋的,因为它具有很多新优点,比如速度快,需要更少的资源,设置依赖关系更加稳定等。
这就是为什么很多人都想去学习它背后的编译和安装流程。
三、编译 Yarn 源码1. 下载源码首先需要从 Yarn 的 GitHub 仓库下载源码。
打开 Yarn 的 GitHub 页面,点击“Clone or download” 按钮,复制信息并使用 git clone 命令来克隆仓库。
你也可以直接下载压缩包并解压。
2. 安装依赖在安装源码之前,需要确保已经安装了 Node.js 和 npm。
在 Yarn 源码的根目录下,运行 npm install 命令,它会安装源码所需的所有依赖。
3. 编译源码Yarn 使用 TypeScript 编写,所以在编译之前需要安装 TypeScript 编译器。
运行 npm install -g typescript 命令来全局安装 TypeScript。
然后运行 npm runpile 命令来编译 Yarn 源码。
4. 安装 Yarn编译成功后,在 Yarn 源码的根目录下会生成一个 bin 文件夹,里面包含了编译好的 Yarn 可执行文件。
将 bin 目录添加到环境变量中,这样就可以在任何位置访问到 Yarn 命令。
四、Yarn 安装流程1. 下载安装包Yarn 的官方全球信息湾提供了各个评台的安装包,可以直接下载并安装。
2. 源码安装如果想从源码安装 Yarn,可以参考上面的编译 Yarn 源码流程。
3. 验证安装安装完成后,在终端中运行 yarn --version 命令来验证安装是否成功。
Hadoop2.6集群配置
groupadd hadoop
useradd -g hadoop hadoop
#修改用户密码
passwd hadoop
2.安装配置hadoop集群(nn01上操作)
2.1解压
tar -zxvf hadoop-2.6.4.tar.gz -C /tiandun/
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>node.rpc-address.ns1.nn2</name>
<value>tiandun02:9000</value>
</property>
export JAVA_HOME=/usr/java/jdk1.8.0_71
2.2.2修改core-site.xml
<configuration>
<!-- 指定hdfs的nameservice为ns1 -->
<property>
<name>fs.defaultFS</name>
</property>
</configuration>
2.2.3修改hdfs-site.xml
<configuration>
<!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
<property>
<value>hdfs://ns1</value>
在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04
在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04注:该教程转⾃厦门⼤学⼤数据课程学习总结装好了 Ubuntu 系统之后,在安装 Hadoop 前还需要做⼀些必备⼯作。
创建hadoop⽤户如果你安装 Ubuntu 的时候不是⽤的 “hadoop” ⽤户,那么需要增加⼀个名为 hadoop 的⽤户。
⾸先按 ctrl+alt+t 打开终端窗⼝,输⼊如下命令创建新⽤户 : sudo useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop ⽤户,并使⽤ /bin/bash 作为 shell。
sudo命令 本⽂中会⼤量使⽤到sudo命令。
sudo是ubuntu中⼀种权限管理机制,管理员可以授权给⼀些普通⽤户去执⾏⼀些需要root权限执⾏的操作。
当使⽤sudo命令时,就需要输⼊您当前⽤户的密码.密码 在Linux的终端中输⼊密码,终端是不会显⽰任何你当前输⼊的密码,也不会提⽰你已经输⼊了多少字符密码。
⽽在windows系统中,输⼊密码⼀般都会以“*”表⽰你输⼊的密码字符 接着使⽤如下命令设置密码,可简单设置为 hadoop,按提⽰输⼊两次密码: sudo passwd hadoop可为 hadoop ⽤户增加管理员权限,⽅便部署,避免⼀些对新⼿来说⽐较棘⼿的权限问题: sudo adduser hadoop sudo最后注销当前⽤户(点击屏幕右上⾓的齿轮,选择注销),返回登陆界⾯。
在登陆界⾯中选择刚创建的 hadoop ⽤户进⾏登陆。
更新apt⽤ hadoop ⽤户登录后,我们先更新⼀下 apt,后续我们使⽤ apt 安装软件,如果没更新可能有⼀些软件安装不了。
按 ctrl+alt+t 打开终端窗⼝,执⾏如下命令: sudo apt-get update后续需要更改⼀些配置⽂件,我⽐较喜欢⽤的是 vim(vi增强版,基本⽤法相同) sudo apt-get install vim安装SSH、配置SSH⽆密码登陆集群、单节点模式都需要⽤到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上⾯运⾏命令),Ubuntu 默认已安装了SSH client,此外还需要安装 SSH server: sudo apt-get install openssh-server安装后,配置SSH⽆密码登陆利⽤ ssh-keygen ⽣成密钥,并将密钥加⼊到授权中: exit # 退出刚才的 ssh localhost cd ~/.ssh/ # 若没有该⽬录,请先执⾏⼀次ssh localhost ssh-keygen -t rsa # 会有提⽰,都按回车就可以 cat ./id_rsa.pub >> ./authorized_keys # 加⼊授权此时再⽤ssh localhost命令,⽆需输⼊密码就可以直接登陆了。
hadoop2.6配置文件说明
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<property>
<name></name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3 mapred-site.xm
<configuration>
<property>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
<name></name>
Hadoop的安装及配置
Hadoop的安装及配置Hadoop的安装及配置单节点环境搭配(一)安装JDK。
版本1.7以上。
1、java -version查看是否已经安装2、sudo apt-get update3、sudo apt-get install default-jdk4、java -version 确认安装情况5、which java显示安装路径附:java安装方法:1、源码包准备;2、解压源码包通过终端在/usr/local目录下新建java文件夹,命令行:sudomkdir /usr/local/java然后将下载到压缩包拷贝到java文件夹中,命令行:进入jdk源码包所在目录cp jdk-U161-linux-x64.tar.gz /usr/local/java然后进入java目录,命令行:cd /usr/local/java解压压缩包,命令行:sudo tar xvf jdk-u161-linux-x64.tar.gz然后可以把压缩包删除,命令行:sudo rm jdk-u161-linux-x64.tar.gz3、设置jdk环境变量这里采用全局设置方法,它是是所有用户的共用的环境变量sudogedit ~/.bashrc打开之后在末尾添加//注意每行前后不要有多余的空格export JAVA_HOME=/usr/local/java/jdk1.8.0_161 export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH4、java -version看看是否安装成功(二)设置SSH无密码登录1、sudo apt-get install ssh2、sudo apt-get install rsync3、ssh-keygen -t rsa4、ll ~/.ssh 查看生成的密钥(三)hadoop下载安装1、在apache官方网站下载hadoop2、解压tar -zxvf hadoop-2.6.5.tar.gz3、sudo mv hadoop-2.6.5 /usr/local/hadoop4、ll /usr/local/hadoop 查看安装情况(四)hadoop环境变量的设置1、sudogedit ~/.bashrc2、添加下列设置设置HADOOP_HOME为Hadoop的安装路径export HADOOP_HOME=/usr/local/hadoop设置PATHexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin3、Hadoop其他环境变量设置export HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexportHADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/na tiveexport HADOOP_OPTS="-DJava.library.path=$HADOOP_HOME/lib"exportJAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRA RY_PATH4、source ~/.bashrc(五)修改Hadoop配置文件1、设置hadoop-env.sh配置文件sudogedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh修改export JAVA_HOME=/usr/local/java/jdk1.8.0_1612、修改core-site.xmlsudo vim /usr/local/hadoop/etc/hadoop/core-site.xml/doc/eb13635280.html,hdfs://localhost:9000。
hadoop集群安装配置的主要操作步骤-概述说明以及解释
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
hadoop2.6完全分布式安装
系统准备Hadoop完全分布式安装,服务器最好都是基数,我用了三台虚拟机。
hadoop2.6.0完全分布式masterhadoop2.6.0完全分布式salves01hadoop2.6.0完全分布式salves02系统环境设置修改虚拟机的主机名称代码如下:1、修改第一台虚拟机vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=masterGAREWAY=192.168.83.22、修改第一台虚拟机vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=salves01GAREWAY=192.168.83.23、修改第一台虚拟机vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=salves02GAREWAY=192.168.83.2配置IP地址1、修改第一台服务器vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0#HWADDR=00:0C:29:8C:FB:39TYPE=EthernetUUID=92d31d5c-369a-4e3d-8fbc-140ef4ff3ec3 ONBOOT=yes //虚拟机启动时就启动网络NM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.83.100GATEWAY=192.168.83.2NETMASK=255.255.255.0DNS1=192.168.83.22、修改第二台服务器vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0#HWADDR=00:0C:29:8C:FB:39TYPE=EthernetUUID=92d31d5c-369a-4e3d-8fbc-140ef4ff3ec3 ONBOOT=yes //虚拟机启动时就启动网络NM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.83.101GATEWAY=192.168.83.2NETMASK=255.255.255.0DNS1=192.168.83.23、修改第三台服务器vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0#HWADDR=00:0C:29:8C:FB:39TYPE=EthernetUUID=92d31d5c-369a-4e3d-8fbc-140ef4ff3ec3 ONBOOT=yes //虚拟机启动时就启动网络NM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.83.102GATEWAY=192.168.83.2NETMASK=255.255.255.0DNS1=192.168.83.2service network restart //使配置的ip起作用修改主机名和IP的映射关系以及其他虚拟机的关系(hosts)vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.83.100 master192.168.83.101 salves01192.168.83.102 salves02三台虚拟机都需要配置,三台虚拟机的hosts一样关闭防火墙三台虚拟机都需要关闭防火墙重启系统安装jdk准备jdk在网上下载64位的jdk,下载好了之后上传到虚拟机中在Ubuntu下切换到root用户解压jdk(jdk-7u55-linux-x64.tar.gz)代码如下:配置坏境变量代码如下:重启/etc/profile代码如下:查看是否配置成功(jdk的版本) java –version统默认自己配置的jdk代码如下:配置ssh免密码登录代码如下:ssh-keygen -t rsa//创建keycat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys//把key写在authorized_keys中ll ~/.ssh/authorized_keys//查看是否有这个文件chmod 600 authorized_keys//给这个文件赋予权限ssh localhost //执行切换,看是否是免密码登录把三台服务器中的id_rsa.pub(key),分别加入三台服务器中的authorized_keys文件中,打通三台服务器免密码登录。
Hadoop2.6.0安装----环境准备
Hadoop2.6.0安装----环境准备准备工作:1、笔记本4G内存,操作系统WIN7 (屌丝的配置)2、工具VMware Workstation3、虚拟机:CentOS6.4共四台虚拟机设置:每台机器:内存512M,硬盘40G,网络适配器:NAT模式选择高级,新生成虚机Mac地址(克隆虚拟机,Mac地址不会改变,每次最后手动重新生成)编辑虚拟机网络:点击NAT设置,查看虚机网关IP,并记住它,该IP在虚机的网络设置中非常重要。
NAT设置默认IP会自动生成,但是我们的集群中IP需要手动设置。
本机Win7 :VMnet8 网络设置注意:克隆的虚拟机网卡MAC地址已经改变,但是文件里面没有修改,我们启动网络服务会遇到下面错误:Bringing up interface eth0: Error: No suitable device found: no device found for cone解决办法:# vi /etc/udev/rules.d/70-persistent-net.rules(内容如下图)查看ifcfg-eth0 中的“HWADDR ”是否和第一个网卡启动信息中的ATTR{address}值相同,如果两个值相同则删除eth0中的所有内容在eth1中进行相关IP配置安装JDK72.1下载JDK安装包安装版本:jdk-7u60-linux-x64.gz查看最新:/technetwork/java/javase/downloads/ind ex.html2.2解压安装我们把JDK安装到这个路径:/usr/lib/jvm如果没有这个目录,我们就新建一个目录cd /usr/libsudomkdirjvm将jdk-7u60-linux-x64.tar.gz复制到linux桌面tarzxvf jdk-7u60-linux-x64.tar.gz -C /usr/lib/jvm2.3配置环境变量(1)只对当前用户生效vim ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/jdk1.7.0_60export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH保存退出,然后输入下面的命令来使之生效source ~/.bashrc(2)对所有用户生效(root用户登录)vim /etc/profileexport JAVA_HOME=/usr/lib/jvm/jdk1.7.0_60export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH保存退出,然后输入下面的命令来使之生效source /etc/profile2.4配置默认JDK(一般情况下这一步都可以省略)由于一些Linux的发行版中已经存在默认的JDK,如OpenJDK等。
hadoop 2.6.0详细安装过程和实例(有截图)
Hadoop 环境搭建时间:2015—07—26作者:周乐相环境搭建之前准备工作我的笔记本配置:硬盘:500G (实际上用不完)CPU: Intel(R) Core(TM)i5-2450M CPU @ 2。
50GHz内存:10G操作系统:WIN7 (64位)软件准备1)。
虚拟机软件:vmwareworkstation64.exe (VMware work station 64 bit V 11。
0)2). Linux 版本: Red Hat Enterprise Linux Server release 6.5 (Santiago)(rhel-server-6.5—x86_64-dvd.iso)3). hadoop 版本: hadoop—2.6。
0。
tar。
gz4)。
JAVA 版本:java version "1。
6.0_32" (jdk—6u32-linux-x64.bin)安装VMware 软件傻瓜操作下一步。
安装Linux操作系统傻瓜操作下一步。
...。
安装完成.1)。
创建hadoop操作系统安装hadoop的用户第一台操作系统命主机名为: master2) 拷贝该虚拟机master 分别为node01 、node02 两个节点数3)分别对拷贝的node01 、node02 修改IP和主机名称主机名: IPmaster : 192。
168.2。
50node01: 192.168.2.51node02: 192。
168.2.52jdk安装并设置好环境变量##设置JAVA_HOME环境变量配置ssh 免密码通信三台服务器SSH关系上面这个图可以表达这三台服务器之间的关系.对master主节点SSH配置执行:ssh-keygen –t dsa 回车一直回车下去会在$HOME/。
ssh目录生成id_dsa 和id_dsa.pub两个文件将id_dsa。
pub文件放到authorized_keys文件,注意需要修改权限chmod 600 authorized_keys依次将node01、node02两台的密码追加到authorized_keys 文件里面对node01节点SSH配置这样master与node01就可以正常的互通无需密码对node02节点SSH配置这样master与node02就可以正常的互通无需密码Hadoop安装配置修改配置文件用红线框起来的都需要修改配置修改:mapred-site。
(完整word版)Hadoop 2.6.0分布式部署参考手册
Hadoop 2。
6.0分布式部署参考手册1。
环境说明 (2)1。
1安装环境说明 (2)2。
2 Hadoop集群环境说明: (2)2。
基础环境安装及配置 (2)2.1 添加hadoop用户 (2)2.2 JDK 1.7安装 (2)2.3 SSH无密码登陆配置 (3)2.4 修改hosts映射文件 (3)3.Hadoop安装及配置 (4)3.1 通用部分安装及配置 (4)3。
2 各节点配置 (4)4。
格式化/启动集群 (4)4.1 格式化集群HDFS文件系统 (4)4。
2启动Hadoop集群 (4)附录1 关键配置内容参考 (5)1 core-site.xml (5)2 hdfs-site。
xml (5)3 mapred—site.xml (6)4 yarn-site。
xml (6)5 hadoop-env。
sh (6)6 slaves (6)附录2 详细配置内容参考 (7)1 core-site.xml (7)2 hdfs-site.xml (7)3 mapred—site。
xml (8)4 yarn-site。
xml (9)5 hadoop-env。
sh (12)6 slaves (12)附录3 详细配置参数参考 (12)conf/core—site.xml (12)conf/hdfs-site。
xml (12)o Configurations for NameNode: (12)o Configurations for DataNode: (13)conf/yarn—site。
xml (13)o Configurations for ResourceManager and NodeManager: (13)o Configurations for ResourceManager: (13)o Configurations for NodeManager: (15)o Configurations for History Server (Needs to be moved elsewhere): 16 conf/mapred—site.xml (16)o Configurations for MapReduce Applications: (16)o Configurations for MapReduce JobHistory Server: (16)1。
(完整版)Hadoop安装教程_伪分布式配置_CentOS6.4_Hadoop2.6.0
Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0都能顺利在CentOS 中安装并运行Hadoop。
环境本教程使用CentOS 6.4 32位作为系统环境,请自行安装系统(可参考使用VirtualBox安装CentOS)。
如果用的是Ubuntu 系统,请查看相应的Ubuntu安装Hadoop教程。
本教程基于原生Hadoop 2,在Hadoop 2.6.0 (stable)版本下验证通过,可适合任何Hadoop 2.x.y 版本,例如Hadoop 2.7.1, Hadoop 2.4.1等。
Hadoop版本Hadoop 有两个主要版本,Hadoop 1.x.y 和Hadoop 2.x.y 系列,比较老的教材上用的可能是0.20 这样的版本。
Hadoop 2.x 版本在不断更新,本教程均可适用。
如果需安装0.20,1.2.1这样的版本,本教程也可以作为参考,主要差别在于配置项,配置请参考官网教程或其他教程。
新版是兼容旧版的,书上旧版本的代码应该能够正常运行(我自己没验证,欢迎验证反馈)。
装好了CentOS 系统之后,在安装Hadoop 前还需要做一些必备工作。
创建hadoop用户如果你安装CentOS 的时候不是用的“hadoop” 用户,那么需要增加一个名为hadoop 的用户。
首先点击左上角的“应用程序” -> “系统工具” -> “终端”,首先在终端中输入su,按回车,输入root 密码以root 用户登录,接着执行命令创建新用户hadoop:如下图所示,这条命令创建了可以登陆的hadoop 用户,并使用/bin/bash 作为shell。
CentOS创建hadoop用户接着使用如下命令修改密码,按提示输入两次密码,可简单的设为“hadoop”(密码随意指定,若提示“无效的密码,过于简单”则再次输入确认就行):可为hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题,执行:如下图,找到root ALL=(ALL) ALL这行(应该在第98行,可以先按一下键盘上的ESC键,然后输入:98 (按一下冒号,接着输入98,再按回车键),可以直接跳到第98行),然后在这行下面增加一行内容:hadoop ALL=(ALL) ALL(当中的间隔为tab),如下图所示:为hadoop增加sudo权限添加上一行内容后,先按一下键盘上的ESC键,然后输入:wq (输入冒号还有wq,这是vi/vim编辑器的保存方法),再按回车键保存退出就可以了。
YARN配置参数
Hadoop YARN配置参数剖析注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。
另外,这些参数均需要在yarn-site.xml中配置。
1. ResourceManager相关配置参数(1)yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。
客户端通过该地址向RM提交应用程序,杀死应用程序等。
默认值:${yarn.resourcemanager.hostname}:8032(2)yarn.resourcemanager.scheduler.address参数解释:ResourceManager 对ApplicationMaster暴露的访问地址。
ApplicationMaster通过该地址向RM申请资源、释放资源等。
默认值:${yarn.resourcemanager.hostname}:8030(3)yarn.resourcemanager.resource-tracker.address参数解释:ResourceManager 对NodeManager暴露的地址.。
NodeManager通过该地址向RM汇报心跳,领取任务等。
默认值:${yarn.resourcemanager.hostname}:8031(4)yarn.resourcemanager.admin.address参数解释:ResourceManager 对管理员暴露的访问地址。
管理员通过该地址向RM发送管理命令等。
默认值:${yarn.resourcemanager.hostname}:8033(5)yarn.resourcemanager.webapp.address参数解释:ResourceManager水草玛瑙 对外web ui地址。
用户可通过该地址在浏览器中查看集群各类信息。
默认值:${yarn.resourcemanager.hostname}:8088(6)yarn.resourcemanager.scheduler.class参数解释:启用的资源调度器主类。
CentOS(64位)环境下Hadoop2.6.0分布式部署说明
1,准备工作1,部署CentOS 7.0(64位)环境;需配置静态IP地址。
1),设置虚拟机网络。
首先打开本机的”打开网络和共享中心”:选择打开”本地连接”,并点击”属性”,勾选”允许其他网络用户通过此计算机的Internet连接来连接”,从下拉框中选择”VMware Network Adapter VMnet8”:虚拟机菜单->编辑->虚拟网络编辑:选择WMnet8 (NAT模式)设置静态IP地址,进入CentOS系统,打开”系统工具”->”设置”->”网络”,选择”手动”,输入IP地址,地址和网关参考上图的子网IP及网关设置。
设置完毕之后,再开启就可以发现网络IP地址已经变为设置后的地址。
测试网络是否连通:2),设置主机名。
在root下,打开/etc/hostname改为namenode,保存。
2,Hadoop -2.6.0 下载,下载地址:/hadoop/common/hadoop-2.6.0/ 2,安装Java1),搜索jdk开发环境yum search jdk2),安装jdkyum install java-1.8.0-openjdk-devel.x86_643),检查是否安装成功java -version可以看见当前的jdk版本已经是”1.8.0_91”。
表示已经安装成功。
3,安装Hadoop1),将第一步下载的hadoop版本安装包上传至/usr/local/ 文件夹,并解压。
cd /usr/localgunzip hadoop-2.6.0.tar.gztar -xvf hadoop-2.6.0.tar2),配置环境打开/etc/profile在文件的最后位置,追加上如下配置:#set java environmentexport JAVA_HOME=/usr/lib/jvm/javaexport JRE_HOME=$JAVA_HOME/jreexport P ATH=$P ATH:$JAVA_HOME/binexport CLASSP ATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport HADOOP_HOME=/usr/local/hadoop-2.6.0export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop export YARN_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoopexport P ATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$P ATH3),激活配置source /etc/profile4),创建hdfs相关目录mkdir /home/hadoop/hd_space/tmp -pmkdir /home/hadoop/hd_space/hdfs/name -pmkdir /home/hadoop/hd_space/hdfs/data -pmkdir /home/hadoop/hd_space/mapred/local -pmkdir -p /home/hadoop/hd_space/mapred/systemchown -R hadoop:hadoop /home/hadoop/hd_space/chown -R hadoop:hadoop /usr/local/hadoop-2.6.04,虚拟机克隆1),选择菜单栏中的“虚拟机->管理->克隆”。
Yarn的安装和全局配置(源缓存位置全局安装位置)
Yarn的安装和全局配置(源缓存位置全局安装位置)
本⽂安装环境: Win10 64位
前置条件: 已安装好Node环境(参考)
下载和安装
全局配置
控制台输⼊命令, 正常显⽰版本表⽰安装成功
$ yarn -v # 查看yarn版本
查看yarn的所有配置
$ yarn config list # 查看yarn配置
修改yarn的源镜像为淘宝源
$ yarn config set registry https:///
修改全局安装⽬录, 先创建好⽬录(global), 我放在了Yarn安装⽬录下(D:\RTE\Yarn\global)
$ yarn config set global-folder "D:\RTE\Yarn\global" # 具体⽬录请改成⾃⼰的
修改全局安装⽬录的bin⽬录位置, bin⽬录需要⾃⼰创建, ⽽且需要把此⽬录加到系统环境变量(D:\RTE\Yarn\global\bin), 添加环境变量请参考:
$ yarn config set prefix "D:\RTE\Yarn\global\" # 会⾃动设置成*\global\bin
修改全局缓存⽬录, 先创建好⽬录(cache), 和global放在同⼀层⽬录下
$ yarn config set cache-folder "D:\RTE\Yarn\cache" # 具体⽬录请改成⾃⼰的
查看所有配置
yarn config list
查看当前yarn的bin的位置
$ yarn global bin
查看当前yarn的全局安装位置
$ yarn global dir。
yarn的配置参数解释
yarn的配置参数解释属性名称默认值含义spark.yarn.am.memory512m client模式下,YARN Application Master使⽤的内存总量spark.yarn.am.cores1client模式下,Application Master使⽤的cpu数量spark.driver.cores1cluster模式下,driver使⽤的cpu core数量,driver与Application Master运⾏在⼀个进程中,所以也控制了Application Master的cpu数量spark.yarn.am.waitTime100s cluster模式下,Application Master要等待SparkContext初始化的时长; client模式下,application master等待driver来连接它的时长spark.yarn.submit.file.replication hdfs副本数作业写到hdfs上的⽂件的副本数量,⽐如⼯程jar,依赖jar,配置⽂件等,最⼩⼀定是1spark.yarn.preserve.staging.files false如果设置为true,那么在作业运⾏完之后,会避免⼯程jar等⽂件被删除掉spark.yarn.scheduler.heartbeat.interval-ms3000application master向resourcemanager发送⼼跳的间隔,单位msspark.yarn.scheduler.initial-allocation.interval 200msapplication master在有pending住的container分配需求时,⽴即向resourcemanager发送⼼跳的间隔spark.yarn.max.executor.failures executor数量*2,最⼩3整个作业判定为失败之前,executor最⼤的失败次数spark.yarn.historyServer.address⽆spark history server的地址spark.yarn.dist.archives⽆每个executor都要获取并放⼊⼯作⽬录的archive spark.yarn.dist.files⽆每个executor都要放⼊的⼯作⽬录的⽂件spark.executor.instances2默认的executor数量spark.yarn.executor.memoryOverhead executor内存10%每个executor的堆外内存⼤⼩,⽤来存放诸如常量字符串等东西spark.yarn.driver.memoryOverhead driver内存7%同上spark.yarn.am.memoryOverhead AM内存7%同上spark.yarn.am.port随机application master端⼝spark.yarn.jar⽆spark jar⽂件的位置nodes⽆spark作业能访问的hdfs namenode地址spark.yarn.containerLauncherMaxThreads25application master能⽤来启动executor container的最⼤线程数量spark.yarn.am.extraJavaOptions⽆application master的jvm参数spark.yarn.am.extraLibraryPath⽆application master的额外库路径spark.yarn.maxAppAttempts/提交spark作业最⼤的尝试次数spark.yarn.submit.waitAppCompletion true cluster模式下,client是否等到作业运⾏完再退出。
yarn的安装和使用
yarn的安装和使⽤yarn的简介:Yarn是facebook发布的⼀款取代npm的包管理⼯具。
npm install -g yarn安装成功后,查看版本号:yarn --version创建⽂件夹 yarnmd yarn进⼊yarn⽂件夹cd yarn初始化项⽬yarn init // 同npm init,执⾏输⼊信息后,会⽣成package.json⽂件yarn的配置项:yarn config list // 显⽰所有配置项yarn config get <key> //显⽰某配置项yarn config delete <key> //删除某配置项yarn config set <key> <value> [-g|--global] //设置配置项安装包:yarn install //安装package.json⾥所有包,并将包及它的所有依赖项保存进yarn.lockyarn install --flat //安装⼀个包的单⼀版本yarn install --force //强制重新下载所有包yarn install --production //只安装dependencies⾥的包yarn install --no-lockfile //不读取或⽣成yarn.lockyarn install --pure-lockfile //不⽣成yarn.lock添加包(会更新package.json和yarn.lock):yarn add [package] // 在当前的项⽬中添加⼀个依赖包,会⾃动更新到package.json和yarn.lock⽂件中yarn add [package]@[version] // 安装指定版本,这⾥指的是主要版本,如果需要精确到⼩版本,使⽤-E参数yarn add [package]@[tag] // 安装某个tag(⽐如beta,next或者latest)//不指定依赖类型默认安装到dependencies⾥,你也可以指定依赖类型:yarn add --dev/-D // 加到 devDependenciesyarn add --peer/-P // 加到 peerDependenciesyarn add --optional/-O // 加到 optionalDependencies//默认安装包的主要版本⾥的最新版本,下⾯两个命令可以指定版本:yarn add --exact/-E // 安装包的精确版本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。
Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。
这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题,就是ResourceManager只有一个,存在单点故障,hadoop-2.6解决了这个问题,有两个ResourceManager,一个是Active,一个是Standby,状态由zookeeper进行协调hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM(由cloudra提出,原理类似zookeeper)。
这里我使用QJM完成。
主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。
通常配置奇数个JournalNode1安装前准备1.1示例机器192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4每台机器都有一个hadoop用户,密码是hadoop所有机器上安装jdk1.7。
在hadoop2,hadoop3,hadoop4上安装Zookeeper3.4集群。
1.2配置ip与hostname用root用户修改每台机器的hostsVi /etc/hosts添加以下内容:192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4应用配置source /etc/hosts1.3关闭防火墙切换到管理员su root连接设备,键入命令“service iptables status”查看防火墙状态关闭命令“chkconfig iptables off”,重启后生效。
1.4ssh免密码登录SSH检查首先确认系统已经安装SSH,切换到管理员su root键入命令:rpm -qa | grep opensshrpm -qa | grep rsync出现如下图信息表示已安装。
假设没有安装ssh和rsync,可以通过下面命令进行安装。
安装SSH协议-->yum install ssh安装rsync工具-->yum install rsync启动服务-->service sshd restartSSH检查首先确认系统已经安装SSH,切换到管理员su root键入命令:rpm -qa | grep opensshrpm -qa | grep rsync出现如下图信息表示已安装。
假设没有安装ssh和rsync,可以通过下面命令进行安装。
安装SSH协议-->yum install ssh安装rsync工具-->yum install rsync启动服务-->service sshd restartSSH免密码登录的设置,每台设备的操作都是一样的,以192.168.0.25为例:切换用户 su - hadoop,执行ssh-keygen -t rsa生成密钥,一直按回车就行进入.ssh目录 cd ~/.ssh,执行:ssh-copy-id -i id_rsa.pub "-p 22 hadoop@192.168.0.10"ssh-copy-id -i id_rsa.pub "-p 22 hadoop@192.168.0.20"ssh-copy-id -i id_rsa.pub "-p 22 hadoop@192.168.0.30"ssh-copy-id -i id_rsa.pub "-p 22 hadoop@192.168.0.40"会提示输入密码,输入后回车,出现”to make sure we haven't added extra keys that you weren't expecting“就代表成功,在另外的设备上也进行这样的操作。
常见问题如果以上操作做完后,ssh登录还需要密码,请检查文件和文件夹权限.ssh目录和用户目录/hadoop的权限必须是700修改权限命令-->chmod 700 hadoop.ssh目录下的authorized_keys文件的权限必须是600修改权限命令-->chmod 600 authorized_keys2配置文件2.1修改core-site.xml<configuration><!--这里的值指的是默认的HDFS路径。
当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个哪?在这里指定!该值来自于hdfs-site.xml中的配置--><property><name>fs.defaultFS</name><value>hdfs://bigdata</value></property><!-- 指定hadoop临时目录--><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><!--指定可以在任何IP访问--><property><name>hadoop.proxyuser.hduser.hosts</name><value>*</value></property><!--指定所有用户可以访问--><property><name>hadoop.proxyuser.hduser.groups</name><value>*</value></property><!--这里是ZooKeeper集群的地址和端口。
注意,数量一定是奇数,且不少于三个节点--><property><name>ha.zookeeper.quorum</name><value>hadoop2:2181,hadoop3:2181,hadoop4:2181</value></property></configuration>2.2修改hadoo-env.shexport JAVA_HOME=/home/hadoop/jdk1.7.0_79#指定日志存放目录export HADOOP_LOG_DIR=/home/hadoop/tmp/log/hadoop2.3修改hdfs-site.xml<configuration><!--指定hdfs的集群名为bigdata,需要和core-site.xml中的保持一致--> <property><name>services</name><value>bigdata</value></property><!-- ns1下面有两个NameNode,分别是nameNode1,nameNode2 --><property><name>nodes.bigdata</name><value>nameNode1,nameNode2</value></property><!-- nameNode1的RPC通信地址--><property><name>Node1</name><value>hadoop1:9000</value></property><!-- nameNode2的RPC通信地址--><property><name>Node2</name><value>hadoop2:9000</value></property><!-- nameNode1的http通信地址--><property><name>Node1</name><value>hadoop1:50070</value></property><!-- nameNode2的http通信地址--><property><name>Node2</name><value>hadoop2:50070</value></property><!--指定JournalNode集群在对NameNode的目录进行共享时,自己存储数据的磁盘路径--><property><name>dfs.journalnode.edits.dir</name><value>/home/hadoop/tmp/journal</value></property><!-- 指定cluster1的两个NameNode共享edits文件目录时,使用的JournalNode集群信息--><property><name>node.shared.edits.dir</name><value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/bigdata</value> </property><!-- qj方式共享edits。