Hadoop 搭建 - 360文档中心

合集下载

相关主题

hadoop集群部署

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验报告
（与程序设计有关）
课程名称：云计算技术提高
实验题目：Hadoop搭建
Xx xx：0000000000
x x:xx
x x：
xxxx
2021年5月21日
实验目的及要求：
开源分布式计算架构Hadoop的搭建
软硬件环境：
Vmware一台计算机
算法或原理分析（实验内容）：
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台，使用Java语言开发，具有很好的跨平台性，可以运行在商用（廉价）硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储。
三．Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件，设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二．JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表；并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境，设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后，使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态；利用systemctl stop firewalld.service关闭防火墙；最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件，利用date命令测试
配置主机IP和网关,如master 192.168.190.130;slave1 192.168.190.131;slave2 192.168.190.131
入文件配置ip映射，填写192.168.190.130 master等slave主机的映射信息。其他主机也要配置，可以通过scp将配置后的文件发生给slave结点。
四．测试
1.格式化主结点上的namenode
利用命令./bin/hdfs namenode -format
2.启动hadoop
利用命令./sbin/start-all.sh
3.测试hadoop集群
首先利用jsp命令查看各个结点的进程。是否在主结点出现SecondaryNameNode、ResourceManger、NameNode、DateNode，是否在子结点出现DateNode和NodeManager。其次是否能进入网页192.168.190.130:50070
利用hadoop jar Hadoop-mapreduce-examples-2.7.5.jar wordcount /inputdata_w/out/wordcountout01后面一个是数据来源文件，另一个是结果输出文件。最后查看输出文件的内容来检验结果 hdfs dfs -cat /output/wordcountout01/part-r-0000
4.测试hadoop集群的文件系统
创建文件夹利用命令hdfs dfs -mkdir /inputdata_w；上传txt文件利用hdfs dfs -put /home/data/book.txt /inputdata_w 将本地的book.txt文件上传到服务器的文件夹下。
5.测试hadoop自带统计单词案例
（2）JDK安装：下载JDK、配置环境变量
（3）Hadoop的安装：安装并配置环境变量、配置hadoop的配置文件，需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。
二．Hadoop集群的测试过程：
（1）测试hadoop集群启动情况
（2）测试hadoop集群的文件系统
（3）测试hadoop自带统计单词案例
程序代码或实现过程：
一．环境配置
1.配置各个虚拟机的IP和主机名
通过vi /etc/sysconfig/network-scripts/ifcfg-eth0 进入IP配置文件
结果分析：
xx
日期
双面打印
2.配置hadoop的配置文件
需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。在hadoop-env.sh和yarn-env.sh文件下需要修改的是jdk的路径，修改为绝对路径。在core-site.xml文件下配置默认FS和tem文件的位置。Slaves文件中写入三个主机名。
Hadoop由分布式文件系统HDFS、MapReduce系统、YARN作业调度和资源管理框架以及Hadoop Common通用组件模块组成。
一．Hadoop集群的搭建过程：
（1）环境设置：三台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。
配置相应IP与主机名，配置hosts文件填写主机和其他节点的IP映射。关闭防火墙并设置时间同步。并建立ssh无密码访问。