云计算实验报告2

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

云计算实验报告2
太
原
科
技
大
学实验报告 2021年 10 月14
日
实验时间：16 时 00分至18 时00 分
专业
姓名
学号
班级
课程名称
实验名称 Hadoop 平台安装实验 2
同组者
指导教师
成绩
一、实验目标：
在大数据时代，存在很多开源的分布式数据采集、计算、存储技术，本实验将熟悉并搭建几种常用的大数据采集、处理分析技术环境。

实验二需要在笔记本上搭建 Hadoop 集群，实验报告根据教程对笔记本上创建虚拟机搭建 Hadoop 集群的步骤进行了说明。

包含所有需要安装的软件与服务的版本，安装路径，安装方法等。

二、实验原理：
1.单机模式：Hadoop 默认模式、即非分布式模式(本地模式)、无需进行其他配置即可运行非分布式，即 java 单进程，方便进行调试。

2.伪分布式模式：
Hadoop 在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 java进程来运行，节点既作为 NameNode 也作为DataNode，同时，读取的是 HDFS 中的文件。

3.分布式模式：使用多个节点构成集群环境来运行 Hadoop。

三、实验内容：
以伪分布式模式安装 Hadoop 平台四、实验设备：
个人笔记本电脑虚拟街软件：VMware Workstation
系统 CentOS-7-_86_64-Everything-20__3.iso 阿里云contos-7 镜像站点：centos/7/isos/_86_64/ 五、实验步骤：：
将 hadoop-2.7.3.tar.gz，拷贝到 CentOS
中的~/software 目录下 1、将 Hadoop
压缩包，解压缩到用户主目录的 dt 目录下；$ cd ~ $ mkdir dt
$ cd dt
$ tar -z_vf ~/software/hadoop-2.7.3.tar.gz
2、打开/etc/profile 配置文件，配置 hadoop 环境变量:
e_port HADOOP_HOME=/home/hduser/dt/hadoop-2.7.3
e_port PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
3、保存。

然后执行/etc/profile 文件(让配置生效)：
$ source /etc/profile 配置 Hadoop: 1、配置$HADOOP_HOME/etc/hadoop/目录中如下的配置文件：
1) hadoop-env.sh 两个文件中都做：
e_port JAVA_HOME=/usr/local/jdk1.8.0_162
2) core-site._ml
注：如果没有 hddata/tmp 目录，要先在磁盘上创建。

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:8020/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hduser/dt/hddata/tmp</value>
</property>
</configuration>
3) hdfs-site._ml
注：如果没有 hddata/name 目录和 hddata/data 目录，要先在磁盘上创建。

<configuration>
<property>
<name>.dir</name>
<value>/home/hduser/dt/hddata/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser/dt/hddata/data</value>
</property>
<!--设置 HDFS 文件系统块的复制份数，默认是 3。

伪分布模式要设为 1
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4) mapred-site._ml
注：默认没有这个文件，从 mapred-site._ml.template 复制一份并改名。

$ cp mapred-site._ml.template mapred-site._ml
# 配置内容如下：
<configuration>
<property>
<name></name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>localhost:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>localhost:19888</value>
</property>
</configuration>
5) yarn-site._ml
<configuration>
<property>
<name>yarn.nodemanager.au_-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.au_-
services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value >
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
2、格式化 hdfs(仅需执行格式化一次)。

在终端窗口，执行命令:
$ hdfs namenode -format
安装 SSH 服务，实现集群中 SSH
无密码连接(从主节点到从节点的无密码登录)：
1、在终端下，执行如下的命令：(注:CentOS 已自带 SSH 服务，略过此步)
$ sudo yum -y install ssh
sudo apt-get install ssh
$ ls -a
2、本地 SSH 登录：
$ ssh localhost
$ e_it
3、查看.ssh 目录：
$ ls -a
4、进入.ssh 目录：
$ cd .ssh
5、生成公私钥：
$ ssh-keygen -t rsa
然后一路回车
6、将公钥加入到授权文件：
$ ssh-copy-id hduser@localhost
7、测试 SSH 无密码登录：
$ ssh localhost
$ e_it
运行 pi 程序：
$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-e_les-2.7.3.jar pi 10 20
六、实验结果：
这次实验完成了 Hadoop 的安装和环境变量的配置，使得程序可以运行，为下一次的实验奠定一定的基础，HDFS 实验会进行的比较顺利。

七：心得体会
通过本次实验的实践，已经完成了 Hadoop 的安装和环境变量的配置，我一直觉得环境变量比较难配置，但这次发现用代码的配置也许会有新的感觉，也会变得容易一些，书本学习的是理论知识，我们通过实验可以把书本上的知识变成自己的。