hadoop系统伪分布搭建

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Mapreduce程序设计报告
姓名:
学号:
题目:Hadoop系统伪分布搭建和运行
1、实验环境
联想pc机
虚拟机:VM 10.0
操作系统:Centos 6.4
Hadoop版本:hadoop 1.2.1
Jdk版本:jdk-7u25
2、系统安装步骤:
2.1安装配置SSH
在CentOs中,已经安装ssh与sshd,可用which命令查看
打开终端,在终端中中键入:ssh -keygen -t rsa生成无密码密钥对,询问其保存路径时直接回车采用默认路径。

生成的密钥对:id_rsa和id_rsa.pub,默认存储在"/home/hadoop/.ssh"目录下。

接着将id_rsa.pub追加到授权的key里面去
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2.2 安装JDK:
打开终端,输入命令
mkdir /usr/java //建立java文件夹
//复制JDK文件夹包
cd /usr/java //进入jdk文件夹
tar –zxvf jdk-7u25-linux-x64.tar.gz //解压jdk文件
mv jdk1.7.0_25 jdk //重新命名jdk文件夹
rm –rf jdk-7u25-linux-x64.tar.gz //删除jkd压缩包
2.3配置JDK环境变量
使用root权限进行操作,输入命令:vim /etc/profile
按i进入编辑,在文件的最后,添加环境变量语句:
按esc,接着按:wq保存退出,执行命令source /etc/profile 使环境变量生效
使用命令java -version检测环境变量是否配置成功。

要是出现以上情况,说明jdk配置成功。

2.4安装Hadoop
打开终端,输入命令
cp /home/tzj/hadoop/hadoop-1.2.1.tar /usr #复制hadoop安装包到usr目录cd /usr #进入"/usr"目录
tar –zxvf hadoop-1.2.1.tar.gz #解压"hadoop-1.2.1.tar.gz"安装包
mv hadoop-1.2.1 hadoop #将"hadoop-1.2.1"文件夹重命名"hadoop"
mkdir /usr/hadoop/tmp #在hadoop文件夹下创建tmp文件夹
chown –R tzj:tzj hadoop #将文件夹"hadoop"读权限分配给hadoop用户
rm –rf hadoop-1.0.0.tar.gz #删除"hadoop-1.0.0.tar.gz"安装包
2.5hadoop配置
(1)使用root权限进行操作,输入命令:vim /etc/profile
按i进入编辑,在文件的最后,添加环境变量语句:
按esc,接着按:wq保存退出,执行命令source /etc/profile 使环境变量生效(2)配置hadoop-env.sh
在文本最后添加
# set java environment
export JAVA_HOME=/jdk1.7.0_25
(3)配置core-site.xml
在文本最后添加:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
(备注:请先在/usr/hadoop 目录下建立tmp 文件夹)
<description>A base for other temporary directories.</description> </property>
<!-- file system properties -->
<property>
<name></name>
</property>
</configuration>
(4)配置hdfs-site.xml
在文本最后添加:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
(备注:replication 是数据副本数量,默认为3,salve少于3台就会报错) </property>
<configuration>
(5)配置mapred-site.xml
在文本最后添加:
<configuration>
<property>
<name>mapred.job.tracker</name>
</property>
</configuration>
2.6启动hadoop和验证
(1)格式化hdfs文件系统
hadoop namenode -format
(2)启动hadoop
2.7启动hadoop
start-all.sh启动守护程序,使用以下方式进行验证:
(1)使用自带的JPS验证启动情况。

如果没有出现5个,则说明没有配置成功
(2)访问namenode网页查看集群:http://localhost:50070/ ;JobTracker :http://localhost:50030/
安装配置完成!
3、 运行hdfs 的基本文件命令
(1) 添加文件和目录
//添加目录
//查看hdfs文件系统上的文件
//将本地系统上的文件复制到hdfs文件系统上
(2)检索文件
//将hdfs文件系统中的文件复制到本地文件系统
//查看hdfs文件系统上的文件
(3)删除文件
4、在伪分布情况下,运行例子wordcount的程序
4.1在本地系统创建txt文件
4.2在hdfs中建立input文件夹,将文件复制到HDFS文件系统中,并查看
4.3运行自带wordcount程序
4.4查看结果,输出保存在output文件夹中,文件名为prat-r-00000
实验结果
4.5Hadoop Web作业状态查看
5、实验体会
经过又一次的hadoop伪分布搭建,我对hadoop搭建的过程又有了进一步的理解,掌握了更多的命令,也学会了处理一些问题;运行wordcount的例子让我对mapreduce有了一些基本的了解,以后我会更好地学习mapreduce。

相关文档
最新文档