hadoop实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于hadoop的大规模文本处理技术实验

专业班级:软件1102

学生姓名:张国宇

学号: 201116040221

Setup Hadoop on Ubuntu 11.04 64-bit

提示:前面的putty软件安装省略;直接进入JDK的安装。

1. Install Sun JDK<安装JDK>

由于Sun JDK在ubuntu的软件中心中无法找到,我们必须使用外部的PPA。打开终端并且运行以下命令:

sudo add-apt-repository ppa:ferramroberto/java

sudo apt-get update

sudo apt-get install sun-java6-bin

sudo apt-get install sun-java6-jdk

Add JAVA_HOME variable<配置环境变量>:

先输入粘贴下面文字:

sudo vi /etc/environment

再将下面的文字输入进去:按i键添加,esc键退出,X保存退出;如下图:

export JAVA_HOME="/usr/lib/jvm/java-6-sun-1.6.0.26"

Test the success of installation in Terminal<在终端测试安装是否成功>: sudo . /etc/environment

java –version

2. Check SSH Setting<检查ssh的设置>

ssh localhost

如果出现“connection refused”,你最好重新安装ssh(如下命令可以安装):

sudo apt-get install openssh-server openssh-client

如果你没有通行证ssh到主机,执行下面的命令:

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3. Setup Hadoop<安装hadoop>

安装apache2

sudo apt-get install apache2

下载hadoop:

sudo wget /hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz 解压hadoop所下载的文件包:

tar xvfz hadoop-1.0.4.tar.gz

下载最近的一个稳定版本,解压。编辑/ hadoop-env.sh定义java_home“use/library/java-6-sun-1.6.0.26”作为hadoop的根目录:

Sudo vi conf/hadoop-env.sh

将以下内容加到文件最后:

# The java implementation to use. Required.

export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26

Pseudo-Distributed Operation (Single-Node Cluster)<伪分布式操作(单节点集群)>:

将下面中间部分插入:(得到如图:)

cat conf/core-site.xml:

hdfs://localhost:9000

cat conf/hdfs-site.xml:

dfs.replication

1

cat conf/mapred-site.xml:

mapred.job.tracker

localhost:9001

Switch to hadoop root directory and format a new distributed file system<转向根目录,格式化一个新的文件分布式系统>:

bin/hadoop namenode –format

注意:这一步一定不能掉,否则后面会出错!

You’ll get info like “Storage directory /tmp/hadoop-ubuntu/dfs/name has been successfully formatted.” Remember this path is the HDFS home

directory of namenode.(你会得到提示:你已经成功格式化。)

Start and stop hadoop daemons(启动和终止进程。):

bin/start-all.sh (start the hadoop)

bin/stop-all.sh (stop the hadoop)

Web interfaces for the NameNode and the JobTracker:

NameNode –http://localhost:50070/=> http:// [IP address|domain name]:50070

提示:如果前面没有格式化成功,这个网址会出现就不去的现象!!!如果进不去就先结束进程,重新格式化然后再开始进程。JobTracker –http://localhost:50030/=> http:// [IP address|domain name]:50030

4. Deploy An Example Map-Reduce Job<布置Ma-reduce Job的一个例子>

创建路径 "/home/ubuntu/mapreduce/wordcount/",并在该目录下放置文本文件worldcount.txt。然后将这些文件复制到HDFS目录:

bin/hadoop dfs -copyFromLocal

/home/ubuntu/mapreduce/wordcount

/tmp/hadoop-ubuntu/dfs/name/wordcount

相关文档
最新文档