Hadoop的安装与配置及示例wordcount的运行

合集下载

Hadoop的配置及运行WordCount

Hadoop的配置及运行WordCount

Hadoop的配置及运行WordCount目录Hadoop的配置及运行WordCount (1)一、环境: (1)二、步骤: (1)1 JDK及SSH安装配置: (1)1.1 卸载Fedora自带的OpenJDK,安装Oracle的JDK (1)1.2 配置SSH (2)2 Hadoop安装配置: (4)2.1 下载并配置Hadoop的JDK环境 (4)2.2 为系统配置Hadoop环境变量 (5)2.3 修改Hadoop的配置文件 (6)2.4 初始化HDFS文件系统,和启动Hadoop (8)2.5 关闭HDFS (11)3 运行WordCount: (11)3.1 下载和编译WordCount示例 (11)3.2 建立文本文件并上传至DFS (13)3.3 MapReduce执行过程显示信息 (14)结尾: (15)一、环境:计算机Fedora 20、jdk1.7.0_60、Hadoop-2.2.0二、步骤:1 JDK及SSH安装配置:1.1 卸载Fedora自带的OpenJDK,安装Oracle的JDK*由于Hadoop,无法使用OpenJDK,所以的下载安装Oracle的JDK。

1.1.1、以下为卸载再带的OpenJDK:然后到/technetwork/java/javase/downloads/index.html下载jdk,可以下载rpm格式的安装包或解压版的。

rpm版本的下载完毕后可以运行安装,一般会自动安装在/usr/java/的路径下面。

接下来就配置jdk的环境变量了。

1.1.2、进入到系统的环境变量配置文件,加入以下内容:(按i进行编辑,编辑完毕按ESC,输入:wq,回车即保存退出)截图如下:Java环境变量配置输入这个回车即可保存退出java –version,检测配置是否成功。

如下结果则Java 配置安装成功。

1.2 配置SSH搭建hadoop分布式集群平台,为了实现通讯之间的可靠,防止远程管理过程中的信息泄露问题。

Hadoop环境搭建及wordcount实例运行

Hadoop环境搭建及wordcount实例运行
Hadoop
环境概述
虚拟平台:VirtualBox4.2.0
Linux版本:Ubuntu10.04
Hadoop版本:hadoop-0.20.2
JDK版本:1.6.0
Hadoop环境规划:一台namenode主机master,两台datanode主机salve1、slave2,master主机IP为111.111.111.2,slave1主机IP为111.111.111.3,slave2主机IP为111.111.111.4。
ssh_5.3p1-3ubuntu3_all.deb
依次安装即可
dpkg -i openssh-client_5.3p1-3ubuntu3_i386.deb
dpkg -i openssh-server_5.3p1-3ubuntu3_i386.deb
dpkg -i ssh_5.3p1-3ubuntu3_all.deb
14/02/20 15:59:58 INFO mapred.JobClient: Running job: job_201402201551_0003
14/02/20 15:59:59 INFO mapred.JobClient: map 0% reduce 0%
14/02/20 16:00:07 INFO mapred.JobClient: map 100% reduce 0%
111.111.111.2 master
111.111.111.3 slave1
111.111.111.4 slave2
然后按以下步骤配置master到slave1之间的ssh信任关系
用户@主机:/执行目录
操作命令
说明
hadoop@master:/home/hadoop

Hadoop安装部署手册

Hadoop安装部署手册

1.1软件环境1)CentOS6.5x642)Jdk1.7x643)Hadoop2.6.2x644)Hbase-0.98.95)Zookeeper-3.4.61.2集群环境集群中包括 3个节点:1个Master, 2个Slave2安装前的准备2.1下载JDK2.2下载Hadoop2.3下载Zookeeper2.4下载Hbase3开始安装3.1 CentOS安装配置1)安装3台CentOS6.5x64 (使用BasicServer模式,其他使用默认配置,安装过程略)2)Master.Hadoop 配置a)配置网络修改为:保存,退出(esc+:wq+enter ),使配置生效b) 配置主机名修改为:c)配置 hosts修改为:修改为:在最后增加如下内容以上调整,需要重启系统才能生效g) 配置用户新建hadoop用户和组,设置 hadoop用户密码id_rsa.pub ,默认存储在"/home/hadoop/.ssh" 目录下。

a) 把id_rsa.pub 追加到授权的 key 里面去b) 修改.ssh 目录的权限以及 authorized_keys 的权限c) 用root 用户登录服务器修改SSH 配置文件"/etc/ssh/sshd_config"的下列内容3) Slavel.Hadoop 、Slavel.Hadoop 配置及用户密码等等操作3.2无密码登陆配置1)配置Master 无密码登录所有 Slave a)使用 hadoop 用户登陆 Master.Hadoopb)把公钥复制所有的 Slave 机器上。

使用下面的命令格式进行复制公钥2) 配置Slave 无密码登录Mastera) 使用hadoop 用户登陆Slaveb)把公钥复制Master 机器上。

使用下面的命令格式进行复制公钥id_rsa 和相同的方式配置 Slavel 和Slave2的IP 地址,主机名和 hosts 文件,新建hadoop 用户和组c) 在Master机器上将公钥追加到authorized_keys 中3.3安装JDK所有的机器上都要安装 JDK ,先在Master服务器安装,然后其他服务器按照步骤重复进行即可。

Hadoop的安装与配置

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组,操作系统均为Ubuntu,三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备:所需要的软件及我使用的版本分别为:Hadoop版本为0.19.2,JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户,主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行:sudo gedit /etc/network/interfaceswjs1机器上执行:在文件尾添加:auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行:在文件尾添加:auto eth1iface eth1 inet staticaddress 192.168.137.3(wjs3上是address 192.168.137.4)gateway 192.168.137.1netmask 255.255.255.0b、重启网络:sudo /etc/init.d/networking restart查看ip是否配置成功:ifconfig{注:为了便于“wjs”用户能够修改系统设置访问系统文件,最好把“wjs”用户设为sudoers(有root权限的用户),具体做法:用已有的sudoer登录系统,执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行:wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析,在/etc/hosts中添加:192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务,因此必须确保安装Hadoop的各个节点之间网络的畅通,网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析(包括它自己)。

hadoop环境搭建

hadoop环境搭建

hadoop环境搭建⼀、安装ssh免密登录命令:ssh-keygenoverwrite(覆盖写⼊)输⼊y⼀路回车将⽣成的密钥发送到本机地址ssh-copy-id localhost(若报错命令⽆法找到则需要安装openssh-clients)yum –y install openssh-clients测试免密设置是否成功ssh localhost⼆、卸载已有java确定JDK版本rpm –qa | grep jdkrpm –qa | grep gcj切换到root⽤户,根据结果卸载javayum -y remove java-1.8.0-openjdk-headless.x86_64 yum -y remove java-1.7.0-openjdk-headless.x86_64卸载后输⼊java –version查看三、安装java切换回hadoop⽤户,命令:su hadoop查看下当前⽬标⽂件,命令:ls将桌⾯的hadoop⽂件夹中的java及hadoop安装包移动到app⽂件夹中命令:mv /home/hadoop/Desktop/hadoop/jdk-8u141-linux-x64.gz /home/hadoop/app mv /home/hadoop/Desktop/hadoop/hadoop-2.7.0.tar.gz /home/hadoop/app解压java程序包,命令:tar –zxvf jdk-7u79-linux-x64.tar.gz创建软连接ln –s jdk1.8.0_141 jdk配置jdk环境变量切换到root⽤户再输⼊vi /etc/profile输⼊export JAVA_HOME=/home/hadoop/app/jdk1.8.0_141export JAVA_JRE=JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JAVA_JRE/lib export PATH=$PATH:$JAVA_HOME/bin保存退出,并使/etc/profile⽂件⽣效source /etc/profile能查询jdk版本号,说明jdk安装成功java -version四、安装hadoop切换回hadoop⽤户,解压缩hadoop-2.6.0.tar.gz安装包创建软连接,命令:ln -s hadoop-2.7.0 hadoop验证单机模式的Hadoop是否安装成功,命令:hadoop/bin/hadoop version此时可以查看到Hadoop安装版本为Hadoop2.7.0,说明单机版安装成功。

Hadoop完全分布式详细安装过程

Hadoop完全分布式详细安装过程

Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware,用于支撑Linux系统。

2、在VMware上安装Ubuntu系统。

3、安装Hadoop前的准备工作:安装JDK和SSH服务。

4、配置Hadoop。

5、为了方便开发过程,需安装eclipse。

6、运行一个简单的Hadoop程序:WordCount.java注:在win7系统上,利用虚拟工具VMware建立若干个Linux系统,每个系统为一个节点,构建Hadoop集群。

先在一个虚拟机上将所有需要配置的东西全部完成,然后再利用VMware 的克隆功能,直接生成其他虚拟机,这样做的目的是简单。

二、所需软件1、VMware:VMware Workstation,直接百度下载(在百度软件中心下载即可)。

2、Ubuntu系统:ubuntu-15.04-desktop-amd64.iso,百度网盘:/s/1qWxfxso注:使用15.04版本的Ubuntu(其他版本也可以),是64位系统。

3、jdk:jdk-8u60-linux-x64.tar.gz,网址:/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注:下载64位的Linux版本的jdk。

4、Hadoop:hadoop-1.2.1-bin.tar.gz,网址:/apache/hadoop/common/hadoop-1.2.1/注:选择1.2.1版本的Hadoop。

5、eclipse:eclipse-java-mars-1-linux-gtk-x86_64.tar.gz,网址:/downloads/?osType=linux注:要选择Linux版本的,64位,如下:6、hadoop-eclipse-plugin-1.2.1.jar,这是eclipse的一个插件,用于Hadoop的开发,直接百度下载即可。

三、安装过程1、安装VMware。

hadoop安装以及配置启动命令

hadoop安装以及配置启动命令

hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz,以下步骤都是在此版本上进⾏。

1、安装,通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息: 在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property><!-- 复制节点数 --> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上,只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤: a、⾸先进⼊Hadoop的安装⽬录,进⼊bin⽬录下,先将Hadoop环境初始化,命令:./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件,命令:./hadoop fs -ls/ d、上传⽂件,命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容,命令:./hadoopo fs -cat hadoop⽂件地址注意:在安装Hadoop环境时先安装好机器集群,使得⾄少3台以上(含3台)机器之间可以免密互相登录(可以查看上⼀篇的linux的ssh免密登录)执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动?
1. 检查对应机器防火墙状态; 2. 检查对应机器的时间是否与主节点同步;
25
Hadoop集群—问题
2.集群状态不一致,clusterID不一致? 1. 删除/data.dir配置的目录; 2. 重新执行hadoop格式化;
准备工作:
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包(hadoop-2.7.6、jdk1.8.0_171)。 4.搭建三台虚拟机。(master、node1、node2)
存储采用分布式文件系统 HDFS,而且,HDFS的名称 节点和数据节点位于不同机 器上。
2、vim编辑core-site.xml,修改以下配置: <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

Hadoop集群的搭建方法与步骤

Hadoop集群的搭建方法与步骤

Hadoop集群的搭建方法与步骤随着大数据时代的到来,Hadoop作为一种分布式计算框架,被广泛应用于数据处理和分析领域。

搭建一个高效稳定的Hadoop集群对于数据科学家和工程师来说至关重要。

本文将介绍Hadoop集群的搭建方法与步骤。

一、硬件准备在搭建Hadoop集群之前,首先要准备好适合的硬件设备。

Hadoop集群通常需要至少三台服务器,一台用于NameNode,两台用于DataNode。

每台服务器的配置应该具备足够的内存和存储空间,以及稳定的网络连接。

二、操作系统安装在选择操作系统时,通常推荐使用Linux发行版,如Ubuntu、CentOS等。

这些操作系统具有良好的稳定性和兼容性,并且有大量的Hadoop安装和配置文档可供参考。

安装操作系统后,确保所有服务器上的软件包都是最新的。

三、Java环境配置Hadoop是基于Java开发的,因此在搭建Hadoop集群之前,需要在所有服务器上配置Java环境。

下载最新版本的Java Development Kit(JDK),并按照官方文档的指引进行安装和配置。

确保JAVA_HOME环境变量已正确设置,并且可以在所有服务器上运行Java命令。

四、Hadoop安装与配置1. 下载Hadoop从Hadoop官方网站上下载最新的稳定版本,并将其解压到一个合适的目录下,例如/opt/hadoop。

2. 编辑配置文件进入Hadoop的安装目录,编辑conf目录下的hadoop-env.sh文件,设置JAVA_HOME环境变量为Java的安装路径。

然后,编辑core-site.xml文件,配置Hadoop的核心参数,如文件系统的默认URI和临时目录。

接下来,编辑hdfs-site.xml文件,配置Hadoop分布式文件系统(HDFS)的相关参数,如副本数量和数据块大小。

最后,编辑mapred-site.xml文件,配置MapReduce框架的相关参数,如任务调度器和本地任务运行模式。

hadoop的基本使用

hadoop的基本使用

hadoop的基本使用Hadoop的基本使用Hadoop是一种开源的分布式计算系统和数据处理框架,具有可靠性、高可扩展性和容错性等特点。

它能够处理大规模数据集,并能够在集群中进行并行计算。

本文将逐步介绍Hadoop的基本使用。

一、Hadoop的安装在开始使用Hadoop之前,首先需要进行安装。

以下是Hadoop的安装步骤:1. 下载Hadoop:首先,从Hadoop的官方网站(2. 配置环境变量:接下来,需要将Hadoop的安装目录添加到系统的环境变量中。

编辑~/.bashrc文件(或其他相应的文件),并添加以下行:export HADOOP_HOME=/path/to/hadoopexport PATH=PATH:HADOOP_HOME/bin3. 配置Hadoop:Hadoop的配置文件位于Hadoop的安装目录下的`etc/hadoop`文件夹中。

其中,最重要的配置文件是hadoop-env.sh,core-site.xml,hdfs-site.xml和mapred-site.xml。

根据具体需求,可以在这些配置文件中进行各种参数的设置。

4. 启动Hadoop集群:在完成配置后,可以启动Hadoop集群。

运行以下命令以启动Hadoop集群:start-all.sh二、Hadoop的基本概念在开始使用Hadoop之前,了解一些Hadoop的基本概念是非常重要的。

以下是一些重要的概念:1. 分布式文件系统(HDFS):HDFS是Hadoop的核心组件之一,用于存储和管理大规模数据。

它是一个可扩展的、容错的文件系统,能够在多个计算机节点上存储数据。

2. MapReduce:MapReduce是Hadoop的编程模型,用于并行计算和处理大规模数据。

它由两个主要的阶段组成:Map阶段和Reduce阶段。

Map阶段将输入数据切分为一系列键值对,并运行在集群中的多个节点上。

Reduce阶段将Map阶段的输出结果进行合并和计算。

hadoop实训报告

hadoop实训报告

hadoop实训报告Hadoop 实训报告一、实训背景随着大数据时代的到来,数据量呈爆炸式增长,传统的数据处理方式已经无法满足需求。

Hadoop 作为一个开源的分布式计算框架,能够有效地处理海量数据,因此在数据处理和分析领域得到了广泛的应用。

为了深入了解和掌握 Hadoop 技术,提高自己的大数据处理能力,我参加了本次 Hadoop 实训。

二、实训目的1、熟悉 Hadoop 生态系统的核心组件,包括 HDFS(Hadoop 分布式文件系统)、MapReduce(分布式计算框架)、YARN(资源管理框架)等。

2、掌握 Hadoop 集群的搭建和配置方法,能够独立完成集群的部署。

3、学会使用 Hadoop 进行数据的存储、处理和分析,能够编写MapReduce 程序解决实际问题。

4、培养团队合作精神和解决问题的能力,提高自己在大数据领域的实践能力和综合素质。

三、实训环境1、操作系统:CentOS 762、 Hadoop 版本:Hadoop 3213、 Java 版本:JDK 184、开发工具:Eclipse、IntelliJ IDEA四、实训内容(一)Hadoop 集群搭建1、准备工作安装 CentOS 76 操作系统,配置网络、主机名等。

安装 Java 环境,配置 JAVA_HOME 环境变量。

2、安装 Hadoop下载 Hadoop 321 安装包,并解压到指定目录。

配置 Hadoop 环境变量,包括 HADOOP_HOME、PATH 等。

3、配置 Hadoop 集群修改 coresitexml、hdfssitexml、mapredsitexml、yarnsitexml 等配置文件,设置 namenode、datanode、resourcemanager、nodemanager 等相关参数。

启动 Hadoop 集群,包括 namenode 格式化、启动 HDFS、启动YARN 等。

(二)HDFS 操作1、文件上传与下载使用 hadoop fs put 命令将本地文件上传到 HDFS 中。

hadoop安装配置指南

hadoop安装配置指南

Hadoop安装、配置指南一、环境1、软件版本Hadoop:hadoop-0.20.2.Hive:hive-0.5.0JDK:jdk1.6以上版本2、配置的机器:主机[服务器master]:192.168.10.121 hadoop13从机[服务器slaves]:192.168.10.68 hadoop4在本文中,在命令或二、先决条件1、配置host:打开/etc/host文件,添加如下映射192.168.10.121 hadoop13 hadoop13192.168.10.68 hadoop4 hadoop42、配置SSH自动登陆1)以ROOT用户,登陆到[服务器master]上执行,如下操作:ssh-keygen -t rsa //一路回车cd ~/.sshcat id_rsa.pub >> authorized_keysscp -r ~/.ssh [服务器slaves]:~/2)以ROOT用户,登陆到[服务器slaves]上执行,如下操作:scp -r ~/.ssh [服务器master]:~/3)测试SSH是否配置成功在主服务器中执行如下命令:ssh [服务器master]ssh 192.168.10.68成功显示结果:Last login: Thu Aug 26 14:11:27 2010 from 在从服务器中执行如下命令:ssh [服务器slaves]ssh 192.168.10.121成功显示结果Last login: Thu Aug 26 18:23:58 2010 from 三、安装hadoop1、JDK安装,解压到/usr/local/jdk1.6.0_17,并配置/etc/profile环境export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jarJDK路径:/usr/local/jdk/jdk1.7.0export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar/usr/local/jdk/jdk1.7.02、下载Hadoop 并解压到[服务器master]的/root/zwmhadoop目录下tar zxvf hadoop-0.20.2.tar.gz四、配置hadoop1.配置主机[服务器master]到zwm hadoop/hadoop-0.20.2/ hadoop 目录下,修改以下文件:1)配置conf/hadoop-env.sh文件,在文件中添加环境变量,增加以下内容:export JAVA_HOME=/usr/local/jdk1.6.0_17export HADOOP_HOME=/root/zwmhadoop/hadoop-0.20.2/2)配置conf/core-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name></name><value>hdfs://192.168.10.121:9000</value>//你的namenode的配置,机器名加端口<description>The nam e of the default file system. Either the literal string "local" o r a host:port for DFS.</description></property></configuration>3)配置conf/hdfs-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>hadoop.t m p.dir</name><value>/root/zwmhadoop/t m p</value>//Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的t mp目录即可。

Hadoop集群安装与配置实验报告

Hadoop集群安装与配置实验报告
3.1 首先需要为 hadoop 用户生成密钥。 .............................................................................. 4 3.2 完成之后测试是否成功..................................................................................................... 5 四、安装配置 Hadoop..................................................................................................................... 5 五、多机器 HDFS 集群配置 ............................................................................................................ 6 5.1 首先将每台机器的 IP 设为静态 IP。............................................................................... 6 5.2 修改每台电脑的/etc/hosts 文件,【vi /etc/hosts】说明各机器的 IP 地址和角色。 6 .................................................................................................................................................. 6 5.3 配置各机器间 SSH ............................................................................................................ 6 5.4 配置 Hadoop 各机器角色 ............................................................................................. 7 5.5 配置 Hadoop .................................................................................................................. 7 5.6 启动 Hadoop ................................................................................................................ 9 六、示例程序的运行..................................................................................................................... 10 6.2 创建 file 文件夹: ..........................................................................................................10 6.3 在 HDFS 上 创 建 输 入 文 件 夹 目 录 input : .....................................................10 6.4 在 HDFS 上 创 建 输 入 文 件 夹 目 录 input : .....................................................10 6.5、 Hadoop 自 带 的 运 行 wordcount 例 子 的 jar 包 : ...................................10 6.6 开 始 运 行 wordcount: ...........................................................................................11 七 、 心 得 体 会 .............................................................................................................................11

hadoop安装指南(非常详细,包成功)

hadoop安装指南(非常详细,包成功)

➢3.10.2.进程➢JpsMaster节点:namenode/tasktracker(如果Master不兼做Slave, 不会出现datanode/TasktrackerSlave节点:datanode/Tasktracker说明:JobTracker 对应于NameNodeTaskTracker 对应于DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclient,JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。

一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。

TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。

TaskTracker都需要运行在HDFS的DataNode上3.10.3.文件系统HDFS⏹查看文件系统根目录:Hadoop fs–ls /。

Hadoop平台搭建与应用(第2版)(微课版)项目8 Hadoop平台应用综合案例

Hadoop平台搭建与应用(第2版)(微课版)项目8 Hadoop平台应用综合案例
教 学 过 程
教 学 提 示
项目8 Hadoop平台应用综合案例
任务8.1 本地数据集上传到数据仓库Hive中
下面把test.txt中的数据导入到数据仓库Hive中。为了完成这个操作,需要先把test.txt上传到HDFS中,再在Hive中创建一个外部表,完成数据的导入。
1.启动HDFS
HDFS是Hadoop的核心组件,因此,要想使用HDFS,必须先安装Hadoop。这里已经安装了Hadoop,打开一个终端,执行命令“start-all.sh”,启动Hadoop服务。
(3)在项目名上,右击选择Open Module Settings,在弹出的页面中选择Modules,单击+号,选择Scala,若本地没有scala,则单击Create...,再单击Download...,选择scala版本2.11.0,单击OK。
(4)编辑pom.xml文件。
(5)在scala文件夹下,新建scala文件,选择Object型,命名为WordCount。
578 NodeManager
3154 Jps
1028 QuorumPeerMain
474 DataNode
1102 HRegionServer
进入HBase Shell。
在HBase中创建user_action表。
新建一个终端,导入数据。
再次切换到HBase Shell运行的终端窗口,执行命令“scan'user_action'”,查询插入的数据。
启动Hadoop集群和HBase服务,并查看集群节点进程。
master1节点的进程如下。
[root@master1 bin]# jps
1714 SecondaryNameNode

hadoop安装与配置总结与心得

hadoop安装与配置总结与心得

hadoop安装与配置总结与心得安装与配置Hadoop是一个相对复杂的任务,但如果按照正确的步骤进行,可以顺利完成。

以下是我在安装与配置Hadoop 过程中的总结与心得:1. 首先,确保你已经满足Hadoop的系统要求,并且已经安装了Java环境和SSH。

2. 下载Hadoop的压缩包,并解压到你想要安装的目录下。

例如,解压到/opt/hadoop目录下。

3. 配置Hadoop的环境变量。

打开你的.bashrc文件(或者.bash_profile文件),并添加以下内容:```shellexport HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/bin```保存文件后,执行source命令使其生效。

4. 配置Hadoop的核心文件。

打开Hadoop的配置文件core-site.xml,并添加以下内容:```xml<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>```5. 配置Hadoop的HDFS文件系统。

打开Hadoop的配置文件hdfs-site.xml,并添加以下内容:```xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>```这里的dfs.replication属性指定了数据块的副本数量,可以根据实际情况进行调整。

6. 配置Hadoop的MapReduce框架。

Hadoop之WordCount详解

Hadoop之WordCount详解

Hadoop之WordCount详解花了好长时间查找资料理解、学习、总结这应该是⼀篇⽐较全⾯的MapReduce之WordCount⽂章了耐⼼看下去1,创建本地⽂件在hadoop-2.6.0⽂件夹下创建⼀个⽂件夹data,在其中创建⼀个text⽂件mkdir datacd datavi hello再在当前⽂件夹中创建⼀个apps⽂件夹,⽅便后续传jar包mkdir apps将⽂本⽂件传到HDFS的根⽬录下bin/hdfs dfs -put data/hello /2,程序打jar包并上传到apps⽬录3,执⾏Hadoop命令bin/hadoop jar apps/WordClass-***.jar /hello /out4,查看输出结果将HDFS根⽬录下的/out输出⽂件传到本地⽬录中查看,通常有两个⽂件:5,WordCount程序详解这部分是最重要的,但是也是最容易让⼈犯晕的部分,涉及到许多mapreduce的原理,但是学习就是这样,你越难吃透的东西,通常越重要先把程序贴上来:package cn.hx.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCountApp {//⾃定义的mapper,继承org.apache.hadoop.mapreduce.Mapperpublic static class MyMapper extends org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, Text, LongWritable>{@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)throws IOException, InterruptedException {String line = value.toString();//split 函数是⽤于按指定字符(串)或正则去分割某个字符串,结果以字符串数组形式返回,这⾥按照"\t"来分割text⽂件中字符,即⼀个制表符,这就是为什么我在⽂本中⽤了空格分割,导致最后的结果有很⼤的出⼊。

Hadoop上运行WordCount以及本地调试beoop

Hadoop上运行WordCount以及本地调试beoop

2. fs.ClientProtocol, 29) from 10.10.1.34:2282: error: java.io.IOException: Unknown protocol to job tracker: org.apache.hadoop.dfs.Clie
3. ntProtocol
4. java.io.IOException: Unknown protocol to job tracker: org.apache.hadoop.dfs.ClientProtocol
8.
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
9.
at ng.reflect.Method.invoke(Method.java:597)
10.
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:446)
Hadoop WordCount
beoop
By beoop on 2008 12 12
hadoop
hadoop
hadoop
Hadoop Map/Reduce
Hadoop Map/Reduce Map/Reduce job Map/Reduce
T
map task
map
reduce
Map/Reduce master JobTracker
HDFS wordcount
1. [hadoop@hadoop hadoop]$ ./bin/hadoop dfs -mkdir wordcount 2. [hadoop@hadoop hadoop]$ ./bin/hadoop dfs -mkdir wordcount/input
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop的安装与配置及示例程序wordcount的运行目录前言 (1)1 机器配置说明 (2)2 查看机器间是否能相互通信(使用ping命令) (2)3 ssh设置及关闭防火墙 (2)1)fedora装好后默认启动sshd服务,如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3)2)关闭防火墙(NameNode和DataNode都必须关闭) (3)4 安装jdk1.6(集群中机子都一样) (3)5 安装hadoop(集群中机子都一样) (4)6 配置hadoop (4)1)配置JA V A环境 (4)2)配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5)3)将NameNode上完整的hadoop拷贝到DataNode上,可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7)4)配置NameNode上的conf/masters和conf/slaves (7)7 运行hadoop (7)1)格式化文件系统 (7)2)启动hadoop (7)3)用jps命令查看进程,NameNode上的结果如下: (8)4)查看集群状态 (8)8 运行Wordcount.java程序 (8)1)先在本地磁盘上建立两个文件f1和f2 (8)2)在hdfs上建立一个input目录 (9)3)将f1和f2拷贝到hdfs的input目录下 (9)4)查看hdfs上有没有f1,f2 (9)5)执行wordcount(确保hdfs上没有output目录) (9)6)运行完成,查看结果 (9)前言最近在学习Hadoop,文章只是记录我的学习过程,难免有不足甚至是错误之处,请大家谅解并指正!Hadoop版本是最新发布的Hadoop-0.21.0版本,其中一些Hadoop命令已发生变化,为方便以后学习,这里均采用最新命令。

具体安装及配置过程如下:1 机器配置说明总共有3台机器:hzau01、hzau02、hzau03IP地址分别为:192.168.0.4、192.168.0.17、192.168.0.6操作系统为:Linux2.6.33.3-85.fc13.i686.PAEjdk版本为:jdk1.6.0_23hadoop版本为:hadoop-0.21.0hzau01作为NameNode、JobTracker,其他两台台作为DataNode、TaskTracker2 查看机器间是否能相互通信(使用ping 命令)用root登录,在NameNode上修改/etc/hosts文件,加入三台机器的IP地址和机器名,如下:192.168.0.4 hzau01192.168.0.17 hzau02192.168.0.6 hzau03设置好后验证下各机器间是否ping通,用机器名或是IP地址都可以,例如ping hzau02或ping 192.168.0.17Hadoop要求所有机器上hadoop的部署目录结构要相同并且有一个相同的用户名的帐户,我的默认路径为/home/garon3 ssh设置及关闭防火墙1)fedora装好后默认启动sshd服务,如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status如没有启动的话,先启动[root@hzau01 ~]# service sshd start建立ssh无密码登录,在NameNode上[garon@hzau01 ~]ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa(''为两个单引号)会在~/.ssh/生成两个文件:id_dsa和id_dsa.pub,这两是成对出现的,把id_dsa.pub文件追加到DataNode上的authorized_keys[garon@hzau01 ~]$ scp ~/.ssh/id_dsa.pub hzau02:/home/garon/.ssh (注意其中目标机器后面的:与要传到的文件路径之间没有空格,即sc706:与/home/hadoop/之间没有空格)scp ~/.ssh/id_dsa.pub hzau03:/home/garon/.ssh登录到DataNode上,[garon@hzau02 ~]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys ,其余一台一样,注意:追加完后必须修改NameNode和DataNode上的.ssh和authorized_keys 的权限,chmod命令,参数600,完成后测试下,例如ssh hzau02时不需要密码就可以登录,就可以知道ssh设置成功。

2)关闭防火墙(NameNode和DataNode都必须关闭)[root@hzau01 ~]# service iptables stop注意:每次重新开机启动hadoop前都必须关闭4 安装jdk1.6(集群中机子都一样)下载jdk-6u23-ea-bin-b03-linux-i586-18_oct_2010.bin,之后直接安装,我的安装路径为:/usr/java/jdk1.6.0_23,安装后添加如下语句到/etc/profile中:export JA VA_HOME="/usr/java/jdk1.6.0_23"export JRE_HOME=/usr/java/jdk1.6.0_23/jreexport CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin:$JRE_HOME/bin:$PATH5 安装hadoop(集群中机子都一样) 在官网//hadoop/core/下载hadoop-0.21.0.tar.gz [garon@hzau01 ~]$ tar xzvf hadoop-0.21.0.tar.gz将hadoop的安装路径添加到/etc/profile中:export HADOOP_HOME=/home/garon/hadoop-0.21.0export PA TH=$HADOOP_HOME/bin:$PATH为了让/etc/profile生效,source一下[garon@hzau01 ~]$ source /etc/profile 6 配置hadoop其配置文件在/conf目录下1)配置JAVA环境[garon@hzau01 ~]$$ vi ~/hadoop/hadoop-0.21.0/conf/hadoop-env.shexport JA VA_HOME=/usr/java/jdk1.6.0_232)配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件[garon@hzau01 hadoop-0.21.0]$ vi conf/core-site.xml<configuration><property><name>hadoop.tmp.dir</name><value>/home/garon/hadoopgaron</value></property><property><name></name><value>hdfs://hzau01/</value></property></configuration>[garon@hzau01 hadoop-0.21.0]$ vi conf/mapred-site.xml<configuration><property><name>mapred.jobtracker.address</name><value>hzau01:9001</value></property></configuration>[garon@hzau01 hadoop-0.21.0]$ vi conf/hdfs-site.xml<configuration><property><name>.dir</name><value>/home/garon/hadoopname</value> </property><property><name>dfs.data.dir</name><value>/home/garon/hadoopdata</value> </property><property><name>dfs.replication</name><value>1</value></property></configuration>3)将NameNode上完整的hadoop拷贝到DataNode上,可先将其进行压缩后直接scp过去或是用盘拷贝过去4)配置NameNode上的conf/masters和conf/slaves masters:192.168.0.4slaves:192.168.0.17192.168.0.67 运行hadoop1)格式化文件系统[garon@hzau01 bin]$ hdfs namenode -format注意:格式化时要防止NameNode的namespace ID与DataNode的namespace ID的不一致,因为每格式化一次会产生Name、Data、tmp等临时文件记录信息,多次格式化会产生很多,会导致ID的不同,造成hadoop不能运行2)启动hadoop[garon@hzau01 bin]$ start-dfs.sh[garon@hzau01 bin]$ start-mapred.sh3)用jps命令查看进程,NameNode上的结果如下:5334 JobTracker5215 SecondaryNameNode5449 Jps5001 NameNode4)查看集群状态[garon@hzau01 bin]$ hdfs dfsadmin -report确保运行的DataNode个数是正确的,我的是2个,这样可以查看哪个DataNode没有运行8 运行Wordcount.java程序1)先在本地磁盘上建立两个文件f1和f2[garon@hzau01 bin]$ echo ”Hello world Bye world" > ~/input/f1[garon@hzau01 bin]$ echo ”hello hadoop bye hadoop” > ~/input/f22)在hdfs上建立一个input目录[garon@hzau01 bin]$ hadoop fs -mkdir /tmp/input3)将f1和f2拷贝到hdfs的input目录下[garon@hzau01 bin]$ hadoop fs -put /home/garon/input /tmp4)查看hdfs上有没有f1,f2[garon@hzau01 bin]$ hadoop fs -ls /tmp/input5)执行wordcount(确保hdfs上没有output目录)[garon@hzau01 bin]$ hadoop jar ../hadoop-mapred-examples-0.21.0.jar wordcount /tmp/input /output6)运行完成,查看结果[garon@hzau01 bin]$ hadoop fs -cat /output/part-r-00000Bye 1Hello 1bye 1 hadoop 2 hello 1 world 2。

相关文档
最新文档