ubuntu下hadoop配置指南

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ubuntu下hadoop配置指南

目录

1.实验目的

2.实验内容(hadoop伪分布式与分布式集群环境配置)

3.运行wordcount词频统计程序

一 . 实验目的

通过学习和使用开源的Apache Hadoop工具,亲身实践云计算环境下对海量数据的处理,理解并掌握分布式的编程模式MapReduce,并能够运用MapReduce编程模式完成特定的分布式应用程序设计,用于处理实际的海量数据问题。

二 . 实验内容

1.实验环境搭建

1.1. 前期准备

操作系统:Linux Ubuntu 10.04

Java开发环境:需要JDK 6及以上,Ubuntu 10.04默认安装的OpenJDK可直接使用。不过我使用的是sun的jdk,从官方网站上下载,具体可以参考博客:ubuntu下安装JDK 并配置java环境

Hadoop开发包:试过了hadoop的各种版本,包括0.20.1,0.20.203.0和0.21.0,三个版本都可以配置成功,但是只有0.20.1这个版本的eclipse插件是可用的,其他版本的eclipse插件都出现各种问题,因此当前使用版本为hadoop-0.20.1

Eclipse:与hadoop-0.20.1的eclipse插件兼容的只有一些低版本的eclipse,这里使用eclipse-3.5.2。

1.2. 在单节点(伪分布式)环境下运行Hadoop

(1)添加hadoop用户并赋予sudo权限(可选)

为hadoop应用添加一个单独的用户,这样可以把安装过程和同一台机器上的其他软件分离开来,使得逻辑更加清晰。可以参考博客:Ubuntu-10.10如何给用户添加sudo

权限。

(2)配置SSH

无论是在单机环境还是多机环境中,Hadoop均采用SSH来访问各个节点的信息。在单机环境中,需要配置SSH 来使用户hadoop 能够访问localhost 的信息。首先需要安装openssh-server。

[sql]view plaincopyprint?

1. s udo apt-get install openssh-server

其次是配置SSH使得Hadoop应用能够实现无密码登录:

[sql]view plaincopyprint?

1. s u - hadoop

2. s sh-keygen -trsa -P ""

3. c p ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

第一条命令将当前用户切换为hadoop(如果当前用户就是hadoop,则无需输入),第二条命令将生成一个公钥和私钥对(即id_dsa和id_dsa.pub两个文件,位于~/.ssh文件夹下),第三条命令使得hadoop用户能够无需输入密码通过SSH访问localhost。这时可通过以下命令来验证安装是否成功(如果没有提示输入密码直接登录成功,则说明安装成功):

[sql]view plaincopyprint?

1. s sh localhost

(3)配置Hadoop

Hadoop的配置文件都放在/hadoop/conf这个文件夹下面,主要是四个配置文件,分别是core-site.xml,hadoop-env.sh,hdsf-site.xml和mapred-site.xml。

修改conf/hadoop-‐env.sh,设置JAVA_HOME,在该文件中找到如下行,去掉前面的注释。

[sql]view plaincopyprint?

1. # Thejava implementation to use. Required.

2. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun

修改为:

[sql]view plaincopyprint?

1. # Thejava implementation to use. Required.

2. e xport JAVA_HOME=/usr/lib/jvm/jdk1.6.0_27

修改core-site.xml内容如下:

[sql]view plaincopyprint?

1.

2.

3.

4.

5.

6.

7. hdfs://localhost:9000

8.

9.

10. hadoop.tmp.dir

11. /home/hadoop/program/tmp-${}

12.

13.

修改conf/hdfs-site.xml为

[sql]view plaincopyprint?

1.

2.

相关文档
最新文档