ubuntu下hadoop配置指南

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ubuntu下hadoop配置指南

1.实验目的

2.实验内容（hadoop伪分布式与分布式集群环境配置）

3.运行wordcount词频统计程序

一 . 实验目的

通过学习和使用开源的Apache Hadoop工具，亲身实践云计算环境下对海量数据的处理，理解并掌握分布式的编程模式MapReduce，并能够运用MapReduce编程模式完成特定的分布式应用程序设计，用于处理实际的海量数据问题。

二 . 实验内容

1．实验环境搭建

1.1. 前期准备

操作系统：Linux Ubuntu 10.04

Java开发环境：需要JDK 6及以上，Ubuntu 10.04默认安装的OpenJDK可直接使用。不过我使用的是sun的jdk，从官方网站上下载，具体可以参考博客：ubuntu下安装JDK 并配置java环境

Hadoop开发包：试过了hadoop的各种版本，包括0.20.1,0.20.203.0和0.21.0，三个版本都可以配置成功，但是只有0.20.1这个版本的eclipse插件是可用的，其他版本的eclipse插件都出现各种问题，因此当前使用版本为hadoop-0.20.1

Eclipse：与hadoop-0.20.1的eclipse插件兼容的只有一些低版本的eclipse，这里使用eclipse-3.5.2。

1.2. 在单节点（伪分布式）环境下运行Hadoop

（1）添加hadoop用户并赋予sudo权限（可选）

为hadoop应用添加一个单独的用户，这样可以把安装过程和同一台机器上的其他软件分离开来，使得逻辑更加清晰。可以参考博客：Ubuntu-10.10如何给用户添加sudo

权限。

（2）配置SSH

无论是在单机环境还是多机环境中，Hadoop均采用SSH来访问各个节点的信息。在单机环境中，需要配置SSH 来使用户hadoop 能够访问localhost 的信息。首先需要安装openssh-server。

[sql]view plaincopyprint?

1. s udo apt-get install openssh-server

其次是配置SSH使得Hadoop应用能够实现无密码登录：

[sql]view plaincopyprint?

1. s u - hadoop

2. s sh-keygen -trsa -P ""

3. c p ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

第一条命令将当前用户切换为hadoop（如果当前用户就是hadoop，则无需输入），第二条命令将生成一个公钥和私钥对（即id_dsa和id_dsa.pub两个文件，位于~/.ssh文件夹下），第三条命令使得hadoop用户能够无需输入密码通过SSH访问localhost。这时可通过以下命令来验证安装是否成功（如果没有提示输入密码直接登录成功，则说明安装成功）：

[sql]view plaincopyprint?

1. s sh localhost

（3）配置Hadoop

Hadoop的配置文件都放在/hadoop/conf这个文件夹下面，主要是四个配置文件，分别是core-site.xml,hadoop-env.sh,hdsf-site.xml和mapred-site.xml。

修改conf/hadoop-‐env.sh，设置JAVA_HOME，在该文件中找到如下行，去掉前面的注释。

将

[sql]view plaincopyprint?

1. # Thejava implementation to use. Required.

2. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun

修改为：

[sql]view plaincopyprint?

1. # Thejava implementation to use. Required.

2. e xport JAVA_HOME=/usr/lib/jvm/jdk1.6.0_27

修改core-site.xml内容如下：

[sql]view plaincopyprint?

1.

2.

3.

4.

5.

6.

7. hdfs://localhost:9000

8.

9.

10. hadoop.tmp.dir

11. /home/hadoop/program/tmp-${}

12.

13.

修改conf/hdfs-site.xml为

[sql]view plaincopyprint?

1.

2.