Hadoop 搭建
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告
(与程序设计有关)
课程名称:云计算技术提高
实验题目:Hadoop搭建
Xx xx:0000000000
x x:xx
x x:
xxxx
2021年5月21日
实验目的及要求:
开源分布式计算架构Hadoop的搭建
软硬件环境:
Vmware一台计算机
算法或原理分析(实验内容):
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用Java语言开发,具有很好的跨平台性,可以运行在商用(廉价)硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储。
三.Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件,设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二.JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表;并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境,设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后,使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态;利用systemctl stop firewalld.service关闭防火墙;最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件,利用date命令测试
配置主机IP和网关,如master 192.168.190.130;slave1 192.168.190.131;slave2 192.168.190.131
入文件配置ip映射,填写192.168.190.130 master等slave主机的映射信息。其他主机也要配置,可以通过scp将配置后的文件发生给slave结点。
四.测试
1.格式化主结点上的namenode
利用命令./bin/hdfs namenode -format
2.启动hadoop
利用命令./sbin/start-all.sh
3.测试hadoop集群
首先利用jsp命令查看各个结点的进程。是否在主结点出现SecondaryNameNode、ResourceManger、NameNode、DateNode,是否在子结点出现DateNode和NodeManager。其次是否能进入网页192.168.190.130:50070
利用hadoop jar Hadoop-mapreduce-examples-2.7.5.jar wordcount /inputdata_w/out/wordcountout01后面一个是数据来源文件,另一个是结果输出文件。最后查看输出文件的内容来检验结果 hdfs dfs -cat /output/wordcountout01/part-r-0000
4.测试hadoop集群的文件系统
创建文件夹利用命令hdfs dfs -mkdir /inputdata_w;上传txt文件利用hdfs dfs -put /home/data/book.txt /inputdata_w 将本地的book.txt文件上传到服务器的文件夹下。
5.测试hadoop自带统计单词案例
(2)JDK安装:下载JDK、配置环境变量
(3)Hadoop的安装:安装并配置环境变量、配置hadoop的配置文件,需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。
二.Hadoop集群的测试过程:
(1)测试hadoop集群启动情况
(2)测试hadoop集群的文件系统
(3)测试hadoop自带统计单词案例
程序代码或实现过程:
一.环境配置
1.配置各个虚拟机的IP和主机名
通过vi /etc/sysconfig/network-scripts/ifcfg-eth0 进入IP配置文件
结果分析:
xx
日期
双面打印
2.配置hadoop的配置文件
需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。在hadoop-env.sh和yarn-env.sh文件下需要修改的是jdk的路径,修改为绝对路径。在core-site.xml文件下配置默认FS和tem文件的位置。Slaves文件中写入三个主机名。
Hadoop由分布式文件系统HDFS、MapReduce系统、YARN作业调度和资源管理框架以及Hadoop Common通用组件模块组成。
一.Hadoop集群的搭建过程:
(1)环境设置:三台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。
配置相应IP与主机名,配置hosts文件填写主机和其他节点的IP映射。关闭防火墙并设置时间同步。并建立ssh无密码访问。
(与程序设计有关)
课程名称:云计算技术提高
实验题目:Hadoop搭建
Xx xx:0000000000
x x:xx
x x:
xxxx
2021年5月21日
实验目的及要求:
开源分布式计算架构Hadoop的搭建
软硬件环境:
Vmware一台计算机
算法或原理分析(实验内容):
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用Java语言开发,具有很好的跨平台性,可以运行在商用(廉价)硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储。
三.Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件,设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二.JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表;并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境,设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后,使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态;利用systemctl stop firewalld.service关闭防火墙;最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件,利用date命令测试
配置主机IP和网关,如master 192.168.190.130;slave1 192.168.190.131;slave2 192.168.190.131
入文件配置ip映射,填写192.168.190.130 master等slave主机的映射信息。其他主机也要配置,可以通过scp将配置后的文件发生给slave结点。
四.测试
1.格式化主结点上的namenode
利用命令./bin/hdfs namenode -format
2.启动hadoop
利用命令./sbin/start-all.sh
3.测试hadoop集群
首先利用jsp命令查看各个结点的进程。是否在主结点出现SecondaryNameNode、ResourceManger、NameNode、DateNode,是否在子结点出现DateNode和NodeManager。其次是否能进入网页192.168.190.130:50070
利用hadoop jar Hadoop-mapreduce-examples-2.7.5.jar wordcount /inputdata_w/out/wordcountout01后面一个是数据来源文件,另一个是结果输出文件。最后查看输出文件的内容来检验结果 hdfs dfs -cat /output/wordcountout01/part-r-0000
4.测试hadoop集群的文件系统
创建文件夹利用命令hdfs dfs -mkdir /inputdata_w;上传txt文件利用hdfs dfs -put /home/data/book.txt /inputdata_w 将本地的book.txt文件上传到服务器的文件夹下。
5.测试hadoop自带统计单词案例
(2)JDK安装:下载JDK、配置环境变量
(3)Hadoop的安装:安装并配置环境变量、配置hadoop的配置文件,需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。
二.Hadoop集群的测试过程:
(1)测试hadoop集群启动情况
(2)测试hadoop集群的文件系统
(3)测试hadoop自带统计单词案例
程序代码或实现过程:
一.环境配置
1.配置各个虚拟机的IP和主机名
通过vi /etc/sysconfig/network-scripts/ifcfg-eth0 进入IP配置文件
结果分析:
xx
日期
双面打印
2.配置hadoop的配置文件
需要配置的有hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。在hadoop-env.sh和yarn-env.sh文件下需要修改的是jdk的路径,修改为绝对路径。在core-site.xml文件下配置默认FS和tem文件的位置。Slaves文件中写入三个主机名。
Hadoop由分布式文件系统HDFS、MapReduce系统、YARN作业调度和资源管理框架以及Hadoop Common通用组件模块组成。
一.Hadoop集群的搭建过程:
(1)环境设置:三台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。
配置相应IP与主机名,配置hosts文件填写主机和其他节点的IP映射。关闭防火墙并设置时间同步。并建立ssh无密码访问。