hadoop云计算实验指导书

hadoop大数据技术实验指导书

Hadoop大数据技术实验指导书第一章实验概述1.1 实验目的本实验旨在全面了解Hadoop大数据技术的相关概念、架构和使用方法，通过实际操作掌握Hadoop大数据技术的基本应用和管理技能。

1.2 实验内容本实验内容包括Hadoop大数据技术的基本概念、HDFS分布式文件系统的搭建和管理、MapReduce分布式计算框架的使用、Hadoop 生态系统的其他相关工具等。

1.3 实验环境本实验采用Ubuntu 18.04操作系统，Hadoop版本为3.1.3，Java 版本为1.8。

1.4 实验预备知识对Linux操作系统的基本操作有一定了解，对Java编程语言有一定的基础认识，了解分布式系统和大数据概念。

第二章 Hadoop基础概念2.1 Hadoop概述Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据。

Hadoop项目由Apache软件基金会开发，主要包括Hadoop分布式文件系统（HDFS）和MapReduce分布式计算框架。

2.2 Hadoop架构Hadoop架构包括HDFS、MapReduce和YARN（资源调度和管理），HDFS负责数据的存储和管理，MapReduce负责数据的计算和处理，YARN负责集裙资源的调度和管理。

2.3 Hadoop生态系统除了HDFS和MapReduce，Hadoop生态系统还包括其他相关工具，如HBase（分布式数据库）、Hive（数据仓库）、Pig（数据分析）、Spark（内存计算框架）等。

第三章 HDFS分布式文件系统实验3.1 HDFS搭建1) 准备Hadoop安装包，解压到指定目录2) 配置hadoop-env.sh文件，设置JAVA_HOME环境变量3) 配置core-site.xml和hdfs-site.xml文件，设置Hadoop集裙的基本信息和存储路径3.2 HDFS管理1) 使用命令行工具上传、下载、删除文件2) 查看HDFS存储空间情况3) 监控HDFS集裙状态第四章 MapReduce分布式计算实验4.1 MapReduce程序编写1) 编写Map阶段的程序2) 编写Reduce阶段的程序3) 编译打包MapReduce程序4.2 MapReduce作业提交与监控1) 将MapReduce程序提交到Hadoop集裙2) 查看作业运行状态和日志3) 监控作业的运行情况第五章 Hadoop生态系统实验5.1 HBase实验1) 安装HBase并配置2) 创建HBase表并进行CRUD操作3) 监控HBase集裙状态5.2 Hive实验1) 安装Hive并配置2) 创建Hive表并进行数据查询3) 执行HiveQL语句进行数据分析5.3 Spark实验1) 安装Spark并配置2) 编写Spark应用程序3) 提交Spark应用程序到集裙运行结语通过本实验指导书的学习，相信读者对Hadoop大数据技术有了更深入的了解，掌握了HDFS的搭建与管理、MapReduce的编程与作业监控、Hadoop生态系统的应用等相关技能。

云计算技术与应用：Hadoop实验

Hadoop实践与应用主讲人：金永霞主要内容HDFS基本概念✓主从架构模型系统，一个HDFS集群由一个Master节点和多个Slave节点构成Master节点：称为NameNode，用以管理整个文件系统命名空间和客户端对文件的访问Slave节点：称为DataNode，用于真正存储数据块（Block）✓是文件存储的逻辑单元，默认块大小是64MB✓每个块建立多个副本（备份），这些副本都尽量分布在不同的DataNode节点上启动Hadoop✓在master节点上执行start-all.sh命令启动Hadoop✓分别在各个节点上执行jps命令查看进程✓在master节点上执行jps命令，可以看到有NameNode、JobTracker和SecondaryNameNode三个进程启动✓在slave节点上执行jps命令，可以看到有DataNode和TaskTracker两个进程启动关闭Hadoop✓在master节点上执行stop-all.sh命令关闭Hadoop✓hadoop fs [命令选项]✓hadoop fs [命令选项]✓hadoop fs [命令选项]✓在HDFS文件系统中建立一个目录，将本地文件系统的一个文件上传至该目录。

✓操作步骤(1) hadoop fs -mkdir test //在HDFS创建目录test(2) hadoop fs -ls // 显示HDFS目录结构(3) echo “hello hadoop”>file.txt //在本地创建一个文件(4) hadoop fs -put file.txt <HDFS目的路径> //把本地文件上传到HDFS(5) hadoop fs -ls <HDFS目的路径> //显示HDFS目录结构(6) hadoop fs -cat file.txt //查看HDFS文件内容✓在Eclipse中创建一个Java工程✓打开该工程的属性设置窗口，在左侧选择“Java构建路径”，右侧选择“库”标签栏，单击“添加外部JAR(X)”✓选择需要导入的所有jar包：包括hadoop-1.1.2文件夹下的所有jar包，以及hadoop-1.1.2/lib目录下的所有jar包✓通过.URL对象打开一个数据流✓调用IOUtils类的静态方法copyBytes()将HDFS数据流复制到标准输出流System.out中✓copyBytes（InputStream in,OutputStream out,intbuffSize,boolean close）✓参数in表示输入流，out表示输出流，buffsize表示缓冲区大小，close是布尔变量，表示复制完毕后是否关闭流✓使用URL方式只能读取数据，不能写入数据package hdfs;import .URL;import java.io.InputStream;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils;public class App1 {public static final String HDFS_PATH="hdfs://192.168.80.100:9000/Download";public static void main(String[] args)throws Exception{URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());final URL url=new URL(HDFS_PATH);final InputStream in=url.openStream();IOUtils.copyBytes(in, System.out, 1024, true);}}✓FileSystem类封装了几乎所有的文件操作，例如创建目录，显示目录列表，读写HDFS文件，对HDFS文件的上传、下载以及删除等使用FileSystem API操作文件的程序框架operator(){设置Configuration对象；获取FileSystem对象；进行文件操作；}public boolean mkdirs(Path f) throws显示目录文件列表public FileStatus[] listStatus (Path f) throws IOExcertion 创建HDFS文件public FSDataOutputStream create(Path f) throws IOExcertion 上传本地文件到HDFS文件系统public void copyFromLocalFile(Path src, Path dst) throws IOException 把HDFS文件复制到本地文件系统public void copyToLocalFile(Path src, Path dst) throws IOException 删除一个文件或目录public boolean delete(Path f, boolean recursive) throws IOExceptionimport .URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class App2 {public static final String HDFS_PATH="hdfs://192.168.80.100:9000";public static final String DIR_PATH="/dirtest";public static void main(String[] args)throws Exception{final FileSystem fs=FileSystem.get(new URI(HDFS_PATH) , new Configuration());/*调用mkdirs()方法创建目录 */fs.mkdirs(new Path(DIR_PATH));}}MapReduce计算模型✓一种并行计算模型，计算过程分为两个阶段Map：对输入的原始数据列表的每个元素进行指定的转换，一个输入的键值对<key,value>映射成同样为<key,value>形式的中间结果，并把具有相同key值的value归纳起来形成一个value列表（这个过程称为Shuffle）并传递给reduce函数 Reduce：将Map输出的数据列表按照某种方式进行合并处理，获得输出形式为<key,value>的最终处理结果MapReduce程序结构-Mapper✓典型MapReduce程序包括三个部分：Mapper、Reducer、作业执行✓Mapper：负责数据处理，将输入的一个<key,value>对映射到0个或多个中间格式的<key,value>形式✓map()方法的默认实现protected void map(KEYIN key, VALUEIN value,Context context) throws IOExcepti on, InterruptedExceptio{context.write((KEYOUT) key, (VALUEOUT) value);}MapReduce程序结构-Reducer✓Reducer：接受来自各个Mapper的输出，根据<key,value>对中的key对输入数据排序，把具有相同key的值进行归并，通过迭代处理与指定key相关联的值，生成列表<key, value>✓reduce()函数的默认实现protected void reduce(KEYIN key, Iterable<VALUEIN> values, Context co ntext ) throws IOException, InterruptedException{for(VALUEIN value: values){context.write((KEYOUT) key, (VALUEOUT) value);}}MapReduce程序结构-作业执行✓作业执行：写驱动代码让程序运行起来Configuration conf = new Configuration(); //读取Hadoop配置Job job = new Job(conf, "作业名称"); //创建一个job对象job.setJarByClass(类的名称); //如果要把程序打成jar包运行,需要这条语句job.setMapperClass(Mapper类型); //设置自定义的Mapper类job.setCombinerClass(Combiner类型); //设置Combiner类job.setReducerClass(Reducer类型); //设置自定义的Reducer类job.setOutputKeyClass(输出Key的类型); //设置输出的key类型job.setOutputValueClass(输出value的类型); //设置输出的value类型FileInputFormat.addInputPath(job,输入HDFS路径); //设置job作业执行时输入文件的路径FileOutputFormat.setOutputPath(job,输出HDFS路径); //设置job作业执行时输出文件的路径System.exit(job.waitForCompletion(true) ? 0 : 1); //设置直到作业运行结束，程序退出MapReduce应用程序实现✓分析问题，设计算法✓代码实现✓导出MapReduce程序的jar文件✓在HDFS文件系统准备程序运行所需的目录和输入文件✓使用“hadoop jar”命令运行程序✓程序运行后生成输出目录output，使用“hadoop fs -cat”命令查看运行结果MapReduce应用程序实例-单词计数✓问题描述：单词计数的目标任务是统计给定文件中所有单词的出现次数。

云计算大数据技术及应用实验指导书

云计算大数据技术及应用实验指导书《云计算，大数据技术及应用》实验指导书《云计算，大数据技术及应用》课程的实验环节意在通过实践使学生对课程内容有更加感性的认识，加深和提高对云计算的理解。

培养学生的实际动手能力，独立解决实际问题的能力，实现“做中学，学中做”的目的。

为帮助学生更好地完成实验考核和实验报告，特作如下说明和要求:(1)做好每个实验的准备工作:需要对每个要做的实验进行预习，了解相关内容、知识点和具体要求，并且复习与课程有关内容和阅读实验指导书，明确实验目的要求、实验内容和实验步骤;(2)认真完成实验的各个环节:每个学生都必须在规定时间到机房做实验，并且遵守实验室的纪律，认真做实验。

在实验中，根据所给的实验内容进行认真的分析和实施，结合课堂知识完成实验，按实验步骤认真完成每步的工作。

实验完成后要做认真的整理和总结，记录重要的结果数据;(3)完成实验报告:做完每个实验后要严格按照实验报告的格式要求，写出实验报告。

实验报告的内容有以下几个部分:实验名称、实验目的、实验内容和要求、以及实验结果。

able "as guiding ideology, conscientiously implement the party's sixteen and the fifth Plenary Session of the 16th CPC Central Committee, the eight plenary session of the two committee, the Communist Youth League XX League in the fourth Plenary Session of the 15th CPC Central Committee, two session of the five plenary meeting spirit, fully implement the实验一:Windows Azure云平台搭建和部署云平台服务一:实验目的1. 通过微软公司提供的验证码激活账号，登录微软公司的Windows Azure云计算平台;2. 把Windows Azure开发环境安装好，为以后的实验作准备;3. 在Windows Azure下开发项目并且发布;二:实验设备1. 安装Windows 7 Professional Edition or higher的计算机，推荐用个人的电脑; 2. 稳定高速的High Speed Internet;三:预习要求:1. 认真预习本实验的要求与实验任务，做好准备。

云计算Hadoop运行环境的配置实验报告

以上操作的目的，是确保每台机器除了都能够使用ip地址访问到对方外，还可以通过主
注意：另外2台也要运行此命令。

）查看证书
hadooptest身份，进入hadooptest家目录的 .ssh文件夹。

（3）新建“认证文件”，在3台机器中运行如下命令，给每台机器新建“认证文件”注意：另外2台也要运行此命令。

其次，虚拟机之间交换证书，有三种拷贝并设置证书方法：
hadoops1机器里的authorized_keys也有三份证书，内容如下：hadoops2机器里的authorized_keys也有三份证书，内容如下：
） Java环境变量配置
继续以root操作，命令行中执行命令”vi m /etc/profile”,在最下面加入以下内容，
．实验体会
通过这次的实验熟悉并了Hadoop运行环境，并学会了如何使用它。

这次实验成功完成了Hadoop 集群，3个节点之间相互ping通，并可以免密码相互登陆，完成了运行环境java安装和配置。

云计算虚拟化hadoop实验报告

云计算虚拟化hadoop实验报告云计算虚拟化Hadoop实验报告1·引言在当前云计算时代，大数据处理成为一项重要的任务，而Hadoop作为开源的大数据处理框架，具有高效、可扩展的特点，被广泛应用于各个领域。

本实验旨在通过云计算虚拟化平台搭建Hadoop实验环境，并对其进行性能测试与分析。

2·实验准备2·1 硬件环境详细描述实验所使用的硬件环境，包括计算机配置、服务器配置等。

2·2 软件环境详细描述实验所使用的软件环境，包括操作系统、虚拟化软件、Hadoop版本等。

3·实验步骤3·1 虚拟化平台搭建详细描述如何搭建云计算虚拟化平台，包括安装虚拟化软件、配置虚拟机网络等。

3·2 Hadoop集群创建详细描述如何创建Hadoop集群，包括配置HDFS、配置MapReduce等。

3·3 实验数据准备详细描述实验所使用的数据集，包括数据集来源、数据集规模等。

3·4 实验任务设计详细描述实验所设计的任务，包括任务类型、任务规模等。

3·5 实验性能测试详细描述实验的性能测试步骤，包括测试工具的选择、测试指标的定义等。

4·实验结果分析4·1 性能测试结果将实验性能测试得到的数据进行展示和分析，包括各项指标的数值、对比分析等。

4·2 结果讨论结合实验结果对Hadoop集群的性能进行讨论，包括性能瓶颈分析、优化建议等。

5·结论在本实验中，通过搭建云计算虚拟化平台并进行Hadoop性能测试，我们得出了如下结论：（根据实验结果进行总结，描述实验的结论和启示）6·附件本文档所涉及的附件包括：（列出附件的名称和描述）7·法律名词及注释7·1 云计算：一种基于互联网的计算方式，通过将大量的计算资源集中在数据中心，并按需求共享给用户，实现高效的计算和存储。

7·2 虚拟化：通过软件仿真技术，将一台物理计算机划分成多个虚拟计算机，使得多个操作系统和应用程序可以在同一台物理计算机上同时运行。

Hadoop云计算综合实训报告

Hadoop安装部署实训报告项目：《hadoop安装部署实训》班级： XXXX 姓名：XXX指导教师： XXX 时间： XXXX年 X 月 X日一. 实训目的实现Hadoop的安装和配置二. 实训中所用设备及材料PC机Vmware15虚拟机Centos6.8镜像jdk-8u111-linux-x64.tarhadoop-2.6.5.targlibc-2.17.tar三. 实训内容(操作方案、实施方法)1、修改主机名Vi /etc/sysconfig/network2、修改ip地址Vi /etc/sysconfig/network-scripts/ifcfg-eth0Service network restart3、关闭防火墙service iptables stop chkconfig iptables off4、添加主机记录Vi /etc/hosts172.16.101.85 Lhw5、关闭selinuxVi /etc/selinux/config 6、上传jdk文件7、解压jdk文件8、查看9、修改环境变量Vi /etc/profile10、重新加载验证jdk11、上传hadoop安装包新建文件夹Mkdir /bigdata解压Hadoop安装包Tar -zxvf hadoop-2.6.5.tar.gz -C/bigdata/配置Hadoop，修改其中5的配置文件进入到/bigdata/hadoop-2.6.5/etc/hadoop1、Vi hadoop-env.sh更改后配置Java环境变量，环境变量路径为jdk安装路径2、在这当中插入文档Vi core-site.xml中间插入：<configuration><property><name>fs.defaultFS</name><value>hdfs://lihongwei:9000</value></property><property><name>hadoop.tmp.dir</name><value>/bigdata/tmp</value></property></configuration>3、修改第三个配置文件Vi hdfs-site.xml中间插入:<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>：4、修改第四个配置文件复制一份模板mapred-site.xml.template（模板文件）Cp -a mapred-site.xml.template ./mapred-site.xmlVi mapred-site.xml<configuration><property><name></name><value>yarn</value></property></configuration>5、修改第五个配置文件Vi yarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value>lihongwei</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>对HDFS进行初始化（格式化HDFS）Cd /bigdata/hadoop-2.6.5/bin//hdfs namenode -format安装出现下面提示则安装成功20/02/03 01:30:34 INFO common.Storage: Storage directory /bigdata/tmp/dfs/name has been successfully formatted.使用命令验证是否安装成功运行jps命令，显示进程号安装GCCYum install gcc* -yyum install openssh-clients上传安装包解压到当前root目录tar -zxvf glibc-2.17.tar.gzcd glibc-2.17新建文件夹并进入文件夹mkdir build; cd build进行编译../configure --prefix=/usr --disable-profile --enable-add-ons --with-headers=/usr/include --with-binutils=/usr/binmake install验证：strings /lib64/libc.so.6 | grep GLIBC出现下图表示成功启动hadoop相关服务cd /bigdata/hadoop-2.6.5/sbin./start-all.sh./start-dfs.sh通过管理网面确认服务hdfs服务启动是否成功：http://172.16.101.94:50070/注：IP地址为虚拟机地址，服务端口号为：50070启动yarn服务：./start-yarn.sh通过管理网面确认服务yarn服务启动是否成功：http://172.16.101.94:8088/注：IP地址为虚拟机地址，服务端口号为：8088四．实训中的现象及结果分析（理论的应用、方法的选择及发生的问题）使用jps命令但有些进程不存在解决方案引用https:///nszkadrgg/article/details/79809669中安装ssh客户端yum install openssh-clients。

大数据haoop基础实验指导书

实验环境说明 (9)1、登录系统 (9)2、控制台证书导入 (12)初始化环境和一键部署 (17)1、初始化环境环境的目的 (17)1.1 查看3台hadoop节点的ip地址 (17)1.2 开始初始化 (19)1.3 验证是否初始化完成 (23)2、一键部署脚本的使用 (25)Hadoop3.1.0集群环境部署实验 (28)1、基础环境准备 (29)1.1 集群规划 (29)1.2 检查环境是否已经初始化 (31)2、安装hadoop3.1.0 (33)2.1 首先进入软件包目录 (33)2.2将hadoop安装包(hadoop-3.1.0.tar.gz)解压到/opt目录下 (33)2.3修改core-site.xml配置文件 (35)2.4修改hdfs-site.xml配置文件 (36)2.5修改workers配置文件 (38)2.6修改mapred-site.xml配置文件 (39)2.7修改yarn-site.xml配置文件 (40)2.8修改hadoop-env.sh配置文件 (42)2.9取消打印警告信息 (43)2.10修改start-dfs.sh和stop-dfs.sh配置文件 (44)2.11修改start-yarn.sh和stop-yarn.sh配置文件 (47)2.12同步hadoop1主节点的配置到hadoop2和hadoop3上 (50)2.13 格式化HDFS文件系统 (51)3、启动集群 (52)3.1 启动集群 (52)3.2 通过浏览器访问hadoop集群 (54)HDFS文件系统常用操作命令实验 (56)1、检查环境hadop集群环境 (57)2、HDFS基础命令 (58)2.1 -ls命令 (58)2.2 -mkdir命令 (59)2.3 -rm命令 (60)2.4 -mv命令 (60)2.5 -cp命令 (62)2.6 -get命令 (63)2.7 -put命令 (64)2.8 -df 命令 (64)2.9 -du命令 (65)2.10 -help查看帮助命令 (66)2.11 文件权限管理 (67)2.12 查看具体文件 (68)MapReduce单词统计实验 (69)1、检查环境hadoop集群环境 (70)2、Wordcount程序 (72)2.1我们在hadoop1主节点上进入hadoop安装目录下的bin目录 (72)2.2测试jar包都有哪些工具 (72)2.3查看Wordcount需要提供哪些参数 (73)2.4我们在HDFS文件系统上创建一个名为input的文件夹，并查看创建好的文件夹 (74)2.5将/root文件夹下的anaconda-ks.cfg文件复制到HDFS文件系统中的input文件夹中，并查看input中是否有该文件 (75)2.6执行单词统计程序 (75)2.7查看单词统计结果，单词统计的结果已经输出到/output文件夹中 (76)编写MapReduce单词统计实验 (77)1、检查环境hadoop集群环境 (78)2、创建项目 (80)2.1创建java maven项目 (80)2.2 配置pom.xml文件加载jar包 (87)2.3 创建WordCount类 (92)3、打包项目 (97)3.1 将java打包成jar (97)4、运行打包好的jar文件 (101)4.1检查在HDFS上面是否有input文件夹 (101)4.2将/root/anaconda-ks.cfg复制一份名为wordcount.txt并将wordcount.txt文件上传到HDFS文件系统的input文件夹中 (102)4.3执行程序 (103)4.4 查看运行结果 (104)MapReduce 二次排序实验 (105)1、检查环境hadoop集群环境 (106)2、创建项目 (108)2.1创建java maven项目 (108)2.2 配置pom.xml文件加载jar包 (114)2.3创建相关的类文件 (121)3、打包项目 (132)4、运行打包好的jar文件 (138)4.1 创建目录 (138)4.2上传测试数据 (138)4.3运行程序 (139)4.4查看运行结果 (141)MapReduce 计数器实验 (143)1、检查环境hadoop集群环境 (144)2、创建项目 (146)2.1创建java maven项目 (146)2.2 配置pom.xml文件加载jar包 (153)2.3创建Counters类 (160)3、打包项目 (166)4、运行打包好的jar文件 (170)4.1 创建目录 (170)4.2上传测试数据 (171)4.3运行程序 (171)4.4查看运行结果 (173)MapReduce Join操作实验 (175)1、检查环境hadoop集群环境 (176)2、实验介绍 (178)3、创建项目 (179)3.1创建java maven项目 (180)3.2 配置pom.xml文件加载jar包 (187)3.3创建TextPair类 (194)3.4创建MRJoin类 (199)4、打包项目 (204)5、运行打包好的jar文件 (209)5.1 创建目录 (209)5.2上传测试数据 (210)5.3运行程序 (210)4.4查看运行结果 (212)Zookeeper集群环境部署实验 (214)1、检查环境hadoop集群环境 (215)2、安装Zookeeper集群 (217)2.1 进入软件包的目录 (217)2.2 解压安装压缩包将zookeeper安装包解压缩到/opt目录下 (217)2.3进入zookeeper配置文件目录： (218)2.4将zoo_sample.cfg配置文件复制一份并重命名为zoo.cfg (218)2.5创建存放数据的文件夹 (218)2.6创建myid文件，并加入数字1 （hadoop1主节点为1、hadoop2从节点为2、hadoop3从节点为3） (219)2.7修改zoo.cfg配置文件 (220)2.8同步配置文件到hadoop2和hadoop3上 (221)2.9修改hadoop2和hadoop3上的myid (223)3、启动zookeeper集群并测试 (225)3.1分别启动hadoop1、hadoop2、hadoop3节点的zookeeper集群命 (225)3.2查看启动成功命令 (226)Zookeeper常用操作命令实验 (227)1、检查环境hadoop集群环境 (227)2、检查环境zookeeper集群环境 (229)3、Zookeeper常见命令 (230)3.1 打开客户端 (230)3.2 创建Zookeeper节点 (231)3.3 读取节点 (232)3.4 更新节点 (233)3.5 删除节点 (234)3.6 退出客户端 (234)编写Zookeeper进程协作实验 (236)1、检查环境hadoop集群环境 (236)2、检查环境zookeeper集群环境 (238)3、创建项目 (239)3.1创建java maven项目 (240)3.2 配置pom.xml文件 (247)3.3创建zookeeper类 (254)4、打包项目 (259)5、运行打包好的jar文件 (264)5.1 运行程序 (264)Hbase集群环境部署实验 (266)1、检查环境hadoop集群环境 (266)2、安装Hbase集群 (268)2.1 进入软件包的目录 (268)2.2 解压安装压缩包将hbase安装包解压缩到/opt目录下 (268)2.3进入/opt目录下 (269)2.4重命名hbase (269)2.5进入conf目录 (270)2.6修改hbase-site.xml 配置文件 (270)2.7修改regionservers (271)2.8修改hbase-env.sh (272)2.9将在配置文件同步到hadoop2和hadoop3上 (273)3、启动hbase集群 (274)Hbase常用操作命令实验 (277)1、检查hadoop集群环境 (278)2、检查Hbase集群环境 (279)3、Hbase基本操作 (280)3.1 Hbase Shell 命令 (281)3.2显示HBase Shell 帮助文档 (281)3.3 查看Hbase状态 (282)3.4 退出HBase Shell (283)4、hbase数据定义（DDL）操作 (284)4.1 创建新表 (284)4.2 列举表信息 (284)4.3 获取表描述 (285)4.4 检查表是否存在 (286)4.5 删除表 (287)5、数据管理（DML）操作 (288)5.1 在上述步骤3中删除了user表，重新创建一张user表 (288)5.2 向表中插入数据 (289)5.3 一次性扫描全表数据 (290)5.4 获取一个行数据 (291)5.5 禁用一个表 (292)5.6 删除数据 (293)通过API对Hbase增删改查实验 (297)1、检查hadoop集群环境 (298)2、检查Hbase集群环境 (299)3、创建项目 (300)3.1创建java maven项目 (301)3.2更改JDK版本 (305)3.3配置pom.xml文件 (308)3.4创建HbaseMr类 (315)Hive安装部署实验 (321)1、检查环境hadoop集群环境 (322)2、安装hive (323)2.1 进入软件包的目录 (323)2.2 解压安装压缩包将hive安装包解压缩到/opt目录下 (323)2.3进入/opt目录下 (324)2.4重命名hbase (324)2.5进入到hive的配置文件目录 (324)2.6将hive-env.sh.template配置文件复制一份并重命名为hive-env.sh (325)2.7修改hive-env.sh配置文件 (325)2.8新建一个hive-site.xml的配置文件 (326)2.9 将mysql驱动放到hive安装路径的lib目录下 (328)2.10 hive在启动前到进行元数据初始化 (328)。

虚拟化与云计算课程实验报告——Hadoop平台搭建

虚拟化与云计算实验报告目录一、实验目标 (1)二、实验内容 (1)三、实验步骤 (1)四、实验遇到的问题及其解决方法 (24)五、实验结论 (25)一、实验目的1.实验题目：配置和使用SAN存储掌握在Linux上配置iSCSI target服务的方法。

2.实验题目：Hadoop&MapReduce安装、部署、使用Hadoop-HDFS配置运行MapReduce程序，使用MapReduce编程二、实验内容1.实验题目：配置和使用SAN存储配置在Linux上iSCSI实现两台机器间的共享存储。

2.实验题目：Hadoop&MapReduce1.掌握在集群上（使用虚拟机模拟）安装部署Hadoop-HDFS的方法。

2.掌握在HDFS运行MapReduce任务的方法。

3.理解MapReduce编程模型的原理，初步使用MapReduce模型编程。

三、实验步骤及实验结果1.实验题目：配置和使用SAN存储在实验1中我作为主机提供共享存储空间，实验地点是在机房，但是由于我当时没有截图所以回寝室在自己的电脑上重做，以下为主机步骤：1.1 确定以root身份执行以下步骤sudo su –1.2 安装iSCSI Target软件1.3 修改/etc/default/iscsitargetISCSITARGET_ENABLE＝true1.4 创建共享存储共享存储可以是logical volumes, image files, hard drives , hard drive partitions or RAID devices例如使用image file的方法，创建一个10G大小的LUN：dd if=/dev/zero of=/storage/lun1.img bs=1024k count=102401.5修改/etc/iet/ietd.conf添加：Target .example:storage.lun1IncomingUser [username] [password]OutgoingUserLun 0 Path=/storage/lun1.img,Type=fileioAlias LUN1#MaxConnections 61.6 修改/etc/iet/initiators.allow如果只允许特定IP的initiator访问LUN，则如下设置.example:storage.lun1 192.168.0.100如果任意initiator均可以访问，则：ALL ALL1.6 启动/重启动iSCSI target/etc/init.d/iscsitarget start/etc/init.d/iscsitarget restart2.实验题目：Hadoop&MapReduce1.安装JDK——在实验中安装为OpenJDK 6 Runtime2.安装openssh-server，命令为：sudo apt-get install openssh-server，并检查ssh server是否已经启动：ps -e | grep ssh，如果只有ssh-agent 那ssh-server还没有启动，需要/etc/init.d/ssh start，如果看到sshd 那说明ssh-server已经启动了。

hadoop云计算实验指导书

计算机科学与技术学院网络计算设计与实现实验指导书实验一SOCKET编程【试验环境】计算机、TCP/IP协议、VS2005【实验目的】1．理解基本TCP/IP协议编程原理；2．掌握如何利用SOCKET编写网络程序；3．掌握VS2005编程环境，多线程程序设计等。

【实验要求】1．编写一个服务端的程序，接收来自客户端的访问请求，并返回相关信息；2．编写一个客户端程序，向服务端发送连接请求，并显示返回的结果；3．完善服务端程序，使它能够同时支持多个客户端的请求。

【预备知识】p ublic Socket Accept ()：为新建连接创建新的Socket。

public void Bind (EndPoint localEP)：使Socket 与一个本地终结点相关联。

public void Close ()：关闭Socket 连接并释放所有关联的资源。

public void Connect (EndPoint remoteEP)：建立与远程主机的连接。

注意这个方法有重载方法。

public void Disconnect (bool reuseSocket)：关闭套接字连接并是否允许重用套接字。

public void Listen (int backlog)：将Socket 置于侦听状态。

public int Receive (byte[] buffer)：接收来自绑定的Socket 的数据。

注意这个方法有重载方法。

public int ReceiveFrom (byte[] buffer,ref EndPoint remoteEP)：接收数据报并存储源终结点。

注意这个方法有重载方法。

public int Send (byte[] buffer)：将数据发送到连接的Socket。

注意这个方法有重载方法。

public void SendFile (string fileName)：将文件和可选数据异步发送到连接的Socket。

Hadoop实验手册

Hadoop云计算环境搭建2011-12目录1、编写目的 (1)2、概述 (1)3、虚拟机下linux系统的安装 (1)3.1 使用工具的版本 (1)3.2 创建虚拟机 (1)3.3 安装Ubuntu (2)3.4 激活root用户 (3)3.5 安装增强功能 (3)4、Ubuntu系统下相关必要软件的安装 (5)4.0 系统文件分布情况 (5)4.1 安装SSH (5)4.2 安装vim (5)4.3 安装与配置JA V A (5)5、安装Hadoop (5)5.1 安装 (5)5.2 配置JA V A与Hadoop环境 (6)6、Hadoop完全分布模式配置 (7)6.1 配置各机网络 (7)6.2 SSH配置 (9)6.3 配置Hadoop (9)6.4 Hadoop运行 (11)6.5 测试wordcount案例 (11)6.6 HDFS里的一些常用命令 (12)7、HBase完全分布模式配置 (14)7.1 安装 (14)7.2 配置HBase环境 (14)8、Hive安装与配置 (16)8.1 安装 (16)8.2 配置Hive环境 (16)1、编写目的本文的编写主要是为了记录以Hadoop为基础架构的云计算环境的搭建步骤，以及搭建过程中需要进行的配置和注意事项。

本次安装涵盖了硬件环境及其操作系统、虚拟机、虚拟机操作系统Ubuntu、jdk、ssh、hadoop、hbase等一系列软件的安装和配置。

从第8章开始为补充内容，即Hive的安装与配置。

2、概述Hadoop是一个分布式存储和分布式计算的开源实现，它采用Master/Slave 架构，即它包含一个Master节点，一个或多个Slaves节点，由Master对Slaves 进行统一管理。

为了节省硬件资源，本次安装在虚拟机上进行。

本次需要安装配置20台虚拟机，每台虚拟机的基本信息如下表：主机名设置IP设置作用安装软件NameNode01 192.168.0.2 Hadoop Master节点jdk、ssh、hadoop、hbaseDataNode01 192.168.0.11 Hadoop Slave节点Jdk、ssh、hadoop DataNode02 192.168.0.12 Hadoop Slave节点Jdk、ssh、hadoop DataNode03 192.168.0.13 Hadoop Slave节点Jdk、ssh、hadoop .... ….DataNode20 192.168.0.30 Hadoop Slave节点Jdk、ssh、hadoop 其中192.168.0.3——192.168.0.10作为备用IP，以设置SecondNameNode节点。

云计算虚拟化hadoop实验报告

四川大学计算机学院、软件学院实验报告学号: 姓名：专业：班级：9 第15 周装机的过程和下面的虚拟机装机是一样的。

2.然后我们在完成Linux下的基础软件安装的情况下进行程序的KVM虚拟机安装，首先使用如下指令：$ egrep -o '(vmx|svm)' /proc/cpuinfo检查Linux是否支持安装KVM，结果显示是可以安装的，于是我们这里使用指令：$ apt-get install qemu-kvm libvirt-bin virt-manager bridge-utils 安装KVM虚拟机，安装过程是自动完成的，如下图所示：3.经验证我们发现KVM是安装成功并且正常运行的，安装成功的验证指令为：# lsmod | grepkvm，到这里KVM的安装就基本完成了。

4.然后我们需要在KVM上创建一个虚拟机，具体操作步骤如下：在根下创建images目录，在images下创建iso和test目录。

5.之后我们使用指令：virt-install --name ubuntutest --hvm --ram 1024 --vcpus 1 --diskpath=/images/test/,size=10 --network network:default --accelerate --vnc --vncport=5911 --cdrom /images/iso/ –d创建虚拟机，至此我们基本完成了前期的基础性工作，操作流程图如下所示：虚拟机装机界面：6.虚拟机创建完成之后还可以使用# virsh list –all指令验证虚拟机是否存在，以及# virsh startVMNAME指令启动虚拟机三、SSH的创建及使用首先创建Hadoop用户组，使用指令：$ sudo addgroup hadoop,然后创建一个Hadoop用户，使用如下指令：$ sudo adduser -ingroup hadoop hadoop,并且为用户添加权限，使用如下指令：$ sudo gedit /etc/sudoers,操作截图如下所示：1.（接上）实验内容（算法、程序、步骤和方法）2.然后我们使用新增加的Hadoop用户登录Ubuntu系统，之后我们使用指令sudo apt-get installopenssh-server安装ssh，运行截图如下所示：3.ssh安装完成之后我们使用指令：sudo /etc/ssh start启动服务，并且使用指令ps -e | grep ssh查看服务是否启动正确，程序运行截图如下所示：4.然后我们设置免密码登录并生成公钥和私钥，使用如下指令：ssh-keygen -t rsa -P ""，程序运行截图如下所示：5.此时会在／home／hadoop/.ssh下生成两个文件：id_rsa和，前者为私钥，后者为公钥。

hadoop 实验用文档

hadoop 实验用文档H a d o o p实验用文档H a d o o p是一个开源的分布式计算平台，用于处理大规模数据集。

它提供了一种可靠、可扩展的方式来存储和处理大数据。

本实验用文档将带您一步一步回答有关H a d o o p的常见问题，并帮助您开始进行H a d o o p实验。

第一步：H a d o o p概述首先，让我们了解一下H a d o o p平台，以便更好地理解其工作原理和用途。

H a d o o p是由A p a c h e软件基金会开发和维护的分布式计算平台。

它由两个核心组件组成：1. H a d o o p分布式文件系统（H D F S）：它是一个分布式文件系统，用于存储大数据集。

它提供了高可靠性和容错性，通过将数据切分成多个块并在多个计算节点上存储副本来实现。

2.H a d o o p M a p R e d u c e：这是一个用于处理大规模数据集的编程模型和计算框架。

它利用并行计算将任务分解为多个小任务，并在集群中的多个节点上并行处理这些任务。

第二步：H a d o o p安装要进行H a d o o p实验，首先需要安装H a d o o p 平台。

以下是安装H a d o o p的一般步骤：1.下载H a d o o p：从A p a c h e H a d o o p官方网站下载最新的稳定版本。

2.解压缩文件：将下载的文件解压缩到任意位置。

3.配置环境变量：在系统的环境变量中设置H a d o o p的安装路径。

4.配置H a d o o p集群：编辑H a d o o p配置文件，指定分布式文件系统和计算框架的参数，如数据目录、节点地址等。

5.启动H a d o o p集群：使用启动脚本启动H a d o o p集群，确保各个节点都成功启动。

6.验证安装：运行一些简单的H a d o o p命令，如上传和下载文件，确保安装成功。

第三步：H a d o o p实验现在，您已经安装了H a d o o p平台，并准备好开始进行实验。

Hadoop云计算平台实验报告V1.1

Hadoop云计算平台实验报告V1.1目录1实验目标 (3)2实验原理 (4)2.1H ADOOP工作原理 (4)2.2实验设计 (6)2.2.1可扩展性 (6)2.2.2稳定性 (7)2.2.3可靠性 (7)3实验过程 (9)3.1实验环境 (9)3.1.1安装Linux操作系统 (10)3.1.2安装Java开发环境 (14)3.1.3安装SSH (15)3.1.4配置网络 (15)3.1.5创建SSH密钥安全联机 (19)3.1.6配置Hadoop云计算系统 (19)3.1.7配置Slaves节点 (23)3.1.8格式化Hadoop系统 (23)3.1.9启动Hadoop集群 (23)3.22．实验过程 (25)3.2.1可扩展性 (25)3.2.1.1动态扩展 (25)3.2.1.2动态缩减 (27)3.2.2稳定性 (28)3.2.3可靠性 (31)3.2.4MapReduce词频统计测试 (32)4实验总结 (35)1. 掌握Hadoop安装过程2. 理解Hadoop工作原理3. 测试Hadoop系统的可扩展性4. 测试Hadoop系统的稳定性5. 测试Hadoop系统的可靠性2.1Hadoop工作原理Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成集群上运行应用程序，为应用程序提供一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。

Hadoop框架中最核心的设计就是：MapReduce和HDFS。

MapReduce 的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。

HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算、存储提供了底层支持。

HDFS采用C/S架构，对外部客户机而言，HDFS就像一个传统的分级文件系统。

云计算-Hadoop单机及集群配置

实验报告实验名称Hadoop单机及集群配置指导教师实验类型上机实验学时 2 实验时间一、实验目的和要求实验要求：学会Hadoop单机版及集群的安装配置实验目的：1）了解Hadoop的安装及运行环境；2）掌握Hadoop的工作原理；3）在此基础上为Hadoop数据分析奠定基础二、实验环境在虚拟机上运行ubuntu系统，hadoop-1.2.1三、实验原理及内容1.安装Ubuntu2.hadoop用户组（1）创建hadoop用户组：sudo addgroup hadoop（2）创建hadoop用户：sudo adduser -ingroup hadoop hadoop（3）（3）为hadoop用户添加权限：sudo gedit /etc/sudoers，在打开的文件中添加一句hadoop ALL=（ALL：ALL）ALL，其中hadoop和ALL之间的空格使用TAB键。

（4）使用hadoop用户登录系统重新打开Ubuntu，发现登陆界面多了一个hadoop用户，用hadoop用户登录系统。

3、SSH配置（1）Ubuntu14.04已默认安装ssh的客户端，只需要安装服务器端即可，但在实际操作时，发现由于是刚安装的Ubuntu系统，该系统没有更新，还没有安装ssh，因此先使用系统更新命令sudo apt-get update更新系统。

（2）安装ssh：sudo apt-get install openssh-server。

（3）启动ssh：sudo /etc/init.d/ssh start查看服务是否正确启动：ps -e | grep ssh（4）设置免密码登录，生成私钥和公钥：ssh-keygen -t rsa -P ""（5）将公钥追加到authorized_keys（authorized_keys用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容）中：cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys（6）现在即可免密码登录：ssh localhost退出：exit4、JAVA环境配置（1）创建jvm文件夹：sudo mkdir /usr/lib/jvm（2）将下好的jdk文件解压，，并将解压后的文件夹重命名为java-7-sun，：sudo tar xzvf jdk-7u45-linux-i586.tar.gz-C /usr/lib/jvm/（由于安装的Ubuntu系统为64位的，学长提供的jdk7u79为32位的，安装之后无法使用，所以重新下载了一个jdk，由于7u79版本官网下载速度太慢，因此下载了一个7u45版本的jdk）重命名：sudo mv jdk1.7.0_45/ java-7-sun/（3）配置环境变量：sudo gedit ~/.bashrc在最后添加如下四行：export JAVA_HOME=/usr/lib/jvm/java-7-sunexport JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH（4）启用配置：source ~/.bashrc（5）配置默认JDK：sudo update-alternatives --install /usr/lib/jvm/javajava/usr/lib/jvm/java-7-Sun/bin/java 300sudo update-alternatives --install /usr/lib/jvm/javac javac/usr/lib/jvm/java-7-sun/bin/javac 300（6）测试是否已完成：java -version（sudo update-alternatives --config java可查看当前各种JDK的版本和配置）5、安装hadoop（1）将hadoop1.2.1解压至/usr/local下，并将其重命名为hadoop：sudo tar xzvf hadoop-1.2.1.tar.gz -C/usr/local重命名：sudo mv hadoop-1.2.1/ hadoop/（2）授权（读写权限）：sudo chmod 777 hadoop/（3）编辑hadoop-env.sh文件：sudo gedit /usr/local/hadoop/conf/hadoop-env.sh，增加如下三行：export JAVA_HOME=/usr/lib/jvm/java-7-sunexport HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:/usr/local/hadoop/bin如下图所示：（4）执行命令：source hadoop-env.sh（5）输入hadoop，出现如下图所示，说明hadoop命令已经可以使用：6、测试wordcount（1）创建input文件夹：sudo mkdir /usr/local/hadoop/input（2）将hadoop文件夹下的README.txt文件拷贝至input中：sudo cp README.txt input （3）执行：hadoop jar hadoop-examples-1.2.1.jar wordcount input output4.查看结果：cat output/*说明单机版的hadoop已经配置成功。

大数据haoop基础实验指导书

实验环境说明 (9)1、登录系统 (9)2、控制台证书导入 (12)初始化环境和一键部署 (17)1、初始化环境环境的目的 (17)1.1 查看3台hadoop节点的ip地址 (17)1.2 开始初始化 (19)1.3 验证是否初始化完成 (23)2、一键部署脚本的使用 (25)Hadoop3.1.0集群环境部署实验 (28)1、基础环境准备 (29)1.1 集群规划 (29)1.2 检查环境是否已经初始化 (31)2、安装hadoop3.1.0 (33)2.1 首先进入软件包目录 (33)2.2将hadoop安装包(hadoop-3.1.0.tar.gz)解压到/opt目录下 (33)2.3修改core-site.xml配置文件 (35)2.4修改hdfs-site.xml配置文件 (36)2.5修改workers配置文件 (38)2.6修改mapred-site.xml配置文件 (39)2.7修改yarn-site.xml配置文件 (40)2.8修改hadoop-env.sh配置文件 (42)2.9取消打印警告信息 (43)2.10修改start-dfs.sh和stop-dfs.sh配置文件 (44)2.11修改start-yarn.sh和stop-yarn.sh配置文件 (47)2.12同步hadoop1主节点的配置到hadoop2和hadoop3上 (50)2.13 格式化HDFS文件系统 (51)3、启动集群 (52)3.1 启动集群 (52)3.2 通过浏览器访问hadoop集群 (54)HDFS文件系统常用操作命令实验 (56)1、检查环境hadop集群环境 (57)2、HDFS基础命令 (58)2.1 -ls命令 (58)2.2 -mkdir命令 (59)2.3 -rm命令 (60)2.4 -mv命令 (60)2.5 -cp命令 (62)2.6 -get命令 (63)2.7 -put命令 (64)2.8 -df 命令 (64)2.9 -du命令 (65)2.10 -help查看帮助命令 (66)2.11 文件权限管理 (67)2.12 查看具体文件 (68)MapReduce单词统计实验 (69)1、检查环境hadoop集群环境 (70)2、Wordcount程序 (72)2.1我们在hadoop1主节点上进入hadoop安装目录下的bin目录 (72)2.2测试jar包都有哪些工具 (72)2.3查看Wordcount需要提供哪些参数 (73)2.4我们在HDFS文件系统上创建一个名为input的文件夹，并查看创建好的文件夹 (74)2.5将/root文件夹下的anaconda-ks.cfg文件复制到HDFS文件系统中的input文件夹中，并查看input中是否有该文件 (75)2.6执行单词统计程序 (75)2.7查看单词统计结果，单词统计的结果已经输出到/output文件夹中 (76)编写MapReduce单词统计实验 (77)1、检查环境hadoop集群环境 (78)2、创建项目 (80)2.1创建java maven项目 (80)2.2 配置pom.xml文件加载jar包 (87)2.3 创建WordCount类 (92)3、打包项目 (97)3.1 将java打包成jar (97)4、运行打包好的jar文件 (101)4.1检查在HDFS上面是否有input文件夹 (101)4.2将/root/anaconda-ks.cfg复制一份名为wordcount.txt并将wordcount.txt文件上传到HDFS文件系统的input文件夹中 (102)4.3执行程序 (103)4.4 查看运行结果 (104)MapReduce 二次排序实验 (105)1、检查环境hadoop集群环境 (106)2、创建项目 (108)2.1创建java maven项目 (108)2.2 配置pom.xml文件加载jar包 (114)2.3创建相关的类文件 (121)3、打包项目 (132)4、运行打包好的jar文件 (138)4.1 创建目录 (138)4.2上传测试数据 (138)4.3运行程序 (139)4.4查看运行结果 (141)MapReduce 计数器实验 (143)1、检查环境hadoop集群环境 (144)2、创建项目 (146)2.1创建java maven项目 (146)2.2 配置pom.xml文件加载jar包 (153)2.3创建Counters类 (160)3、打包项目 (166)4、运行打包好的jar文件 (170)4.1 创建目录 (170)4.2上传测试数据 (171)4.3运行程序 (171)4.4查看运行结果 (173)MapReduce Join操作实验 (175)1、检查环境hadoop集群环境 (176)2、实验介绍 (178)3、创建项目 (179)3.1创建java maven项目 (180)3.2 配置pom.xml文件加载jar包 (187)3.3创建TextPair类 (194)3.4创建MRJoin类 (199)4、打包项目 (204)5、运行打包好的jar文件 (209)5.1 创建目录 (209)5.2上传测试数据 (210)5.3运行程序 (210)4.4查看运行结果 (212)Zookeeper集群环境部署实验 (214)1、检查环境hadoop集群环境 (215)2、安装Zookeeper集群 (217)2.1 进入软件包的目录 (217)2.2 解压安装压缩包将zookeeper安装包解压缩到/opt目录下 (217)2.3进入zookeeper配置文件目录： (218)2.4将zoo_sample.cfg配置文件复制一份并重命名为zoo.cfg (218)2.5创建存放数据的文件夹 (218)2.6创建myid文件，并加入数字1 （hadoop1主节点为1、hadoop2从节点为2、hadoop3从节点为3） (219)2.7修改zoo.cfg配置文件 (220)2.8同步配置文件到hadoop2和hadoop3上 (221)2.9修改hadoop2和hadoop3上的myid (223)3、启动zookeeper集群并测试 (225)3.1分别启动hadoop1、hadoop2、hadoop3节点的zookeeper集群命 (225)3.2查看启动成功命令 (226)Zookeeper常用操作命令实验 (227)1、检查环境hadoop集群环境 (227)2、检查环境zookeeper集群环境 (229)3、Zookeeper常见命令 (230)3.1 打开客户端 (230)3.2 创建Zookeeper节点 (231)3.3 读取节点 (232)3.4 更新节点 (233)3.5 删除节点 (234)3.6 退出客户端 (234)编写Zookeeper进程协作实验 (236)1、检查环境hadoop集群环境 (236)2、检查环境zookeeper集群环境 (238)3、创建项目 (239)3.1创建java maven项目 (240)3.2 配置pom.xml文件 (247)3.3创建zookeeper类 (254)4、打包项目 (259)5、运行打包好的jar文件 (264)5.1 运行程序 (264)Hbase集群环境部署实验 (266)1、检查环境hadoop集群环境 (266)2、安装Hbase集群 (268)2.1 进入软件包的目录 (268)2.2 解压安装压缩包将hbase安装包解压缩到/opt目录下 (268)2.3进入/opt目录下 (269)2.4重命名hbase (269)2.5进入conf目录 (270)2.6修改hbase-site.xml 配置文件 (270)2.7修改regionservers (271)2.8修改hbase-env.sh (272)2.9将在配置文件同步到hadoop2和hadoop3上 (273)3、启动hbase集群 (274)Hbase常用操作命令实验 (277)1、检查hadoop集群环境 (278)2、检查Hbase集群环境 (279)3、Hbase基本操作 (280)3.1 Hbase Shell 命令 (281)3.2显示HBase Shell 帮助文档 (281)3.3 查看Hbase状态 (282)3.4 退出HBase Shell (283)4、hbase数据定义（DDL）操作 (284)4.1 创建新表 (284)4.2 列举表信息 (284)4.3 获取表描述 (285)4.4 检查表是否存在 (286)4.5 删除表 (287)5、数据管理（DML）操作 (288)5.1 在上述步骤3中删除了user表，重新创建一张user表 (288)5.2 向表中插入数据 (289)5.3 一次性扫描全表数据 (290)5.4 获取一个行数据 (291)5.5 禁用一个表 (292)5.6 删除数据 (293)通过API对Hbase增删改查实验 (297)1、检查hadoop集群环境 (298)2、检查Hbase集群环境 (299)3、创建项目 (300)3.1创建java maven项目 (301)3.2更改JDK版本 (305)3.3配置pom.xml文件 (308)3.4创建HbaseMr类 (315)Hive安装部署实验 (321)1、检查环境hadoop集群环境 (322)2、安装hive (323)2.1 进入软件包的目录 (323)2.2 解压安装压缩包将hive安装包解压缩到/opt目录下 (323)2.3进入/opt目录下 (324)2.4重命名hbase (324)2.5进入到hive的配置文件目录 (324)2.6将hive-env.sh.template配置文件复制一份并重命名为hive-env.sh (325)2.7修改hive-env.sh配置文件 (325)2.8新建一个hive-site.xml的配置文件 (326)2.9 将mysql驱动放到hive安装路径的lib目录下 (328)2.10 hive在启动前到进行元数据初始化 (328)3、检查环境hadoop集群环境 (332)2、启动Hive (333)2.1 创建表 (334)2.2 显示表 (335)2.3 显示表列 (336)2.4 更改表 (336)2.5 删除表(或列) (338)4、检查环境hadoop集群环境 (341)2、Hive分区实验 (342)2.1启动Hive (342)2.2 通过HQL语句进行实验 (343)HiveDDL操作实验 (346)1、检查环境hadoop集群环境 (347)2、DDL 操作实验 (348)2.1启动Hive (348)2.2创建数据库 (349)2.3创建表 (349)2.4导入数据 (350)2.5查看数据 (350)2.6插入数据 (350)2.7清空表数据 (352)2.8删除表 (352)2.9分区表 (352)Flume安装部署实验 (354)1、检查环境hadoop集群环境 (354)2、安装Flume (356)2.1 进入软件包的目录 (356)2.2解压安装压缩包将flume安装包解压缩到/opt目录下 (356)2.3进入/opt目录下 (357)2.4重命名flume (357)2.5进入到flume的配置文件目录 (358)2.6将flume-env.sh.template配置文件复制一份并重命名为flume-env.sh (358)2.7将flume-conf.properties.template配置文件复制一份并重命名flume-conf.properties (358)2.8修改flume-env.sh文件 (358)2.9修改flume-conf.properties配置文件 (359)3、测试Flume (361)3.1进入到flume的安装目录 (361)3.2启动flume (362)3.2测试flume (363)4、检查环境hadoop集群环境 (367)2.1进入到flume的配置文件目录 (368)2.2在conf目录下新建tail-hdfs.conf文件并添加以下配置内容 (368)2.3启动Flume 进入到flume的安装目录下 (370)2.4新打开一个终端 (371)2.4在新的终端上创建Flume监听的数据目录 (372)2.5在新的终端执行如下脚本命令会一直写数据到/home/hadoop/log/test.log中 (372)1.6 查看实验结果 (373)5、检查环境hadoop集群环境 (375)2、Flume数据采集实验 (376)2.1进入到flume的配置文件目录 (376)2.2在conf目录下新建test-flume-into-hbase.conf文件并添加以下配置内容 (376)2.3在Linux上创建Flume监听的数据目录 (377)2.4启动Flume 进入到flume的安装目录下 (378)1.5 打开另一终端执行如下命令会写数据到 (379)/home/hadoop/log/nginx.log中 (379)1.6 查看实验结果 (379)Sqoop安装部署实验 (380)1、检查环境hadoop集群环境 (381)2、安装sqoop (382)2.1 进入软件包的目录 (382)2.2 解压安装压缩包将sqoop安装包解压缩到/opt目录下 (382)2.3进入/opt目录下 (383)2.4重命名sqoop (383)2.5进入sqoop配置目录 (384)2.6将sqoop-env-template.sh配置文件复制一份并重命名为sqoop-env.sh (384)2.7修改sqoop-env.sh配置文件，在顶部加入下面代码 (384)2.8将mysql驱动放到sqoop安装路径的lib目录下 (385)2.9验证安装结果 (385)Sqoop常用命令操作实验 (387)1、检查环境hadoop集群环境 (388)2、sqoop常用命令 (389)2.1 Sqoop工具import和export使用详解 (389)Mysql数据导入HDFS实验 (394)1、检查环境hadoop集群环境 (395)2、sqoop Mysql导入HDFS (396)2.1登陆mysql (396)2.2设置test库为当前库 (397)2.3创建emp表并插入数据 (398)2.4查看emp表的结构 (399)2.5退出mysql数据库 (400)2.6使用import工具将mysql的emp表导入到HDFS中 (400)Sqoop Mysql导入HDFS (401)1.Mysql导入hdfs (402)1.1配置mysql的驱动将mysql驱动放到sqoop安装路径的lib目录下 (402)1.2执行sqoop help查看帮助，进行验证安装结果 (402)1.3数据操作先在本地mysql数据库中创建emp表并插入数据 (402)1.4导入关系表到hive (本质是先导入到hdfs上在导入到hive中) (404)Mysql数据导入HDFS实验 (406)1、检查环境hadoop集群环境 (407)2、sqoop Mysql导入HDFS (408)2.1登陆mysql (408)2.2设置test库为当前库 (409)2.3创建emp表并插入数据 (410)2.4查看emp表的结构 (411)2.5退出mysql数据库 (412)2.6使用import工具将mysql的emp表导入到HDFS中 (412)Sqoop Mysql导入Hdfs (413)1.Mysql导入hdfs (414)1.1配置mysql的驱动将mysql驱动放到sqoop安装路径的lib目录下 (414)1.2执行sqoop help查看帮助，进行验证安装结果 (414)1.3数据操作先在本地mysql数据库中创建emp表并插入数据 (414)1.4导入关系表到hive (本质是先导入到hdfs上在导入到hive中) (416)实验环境说明我们进入实验环境后可以看到这样的3台hadoop节点，分别为hadoop1-xxx、hadoop2-xxx、hadoop3-xxx，这里的hadoop1为主节点，hadoop2和hadoop3为从节点。

云计算-Hadoop单机及集群配置

实验报告实验名称Hadoop单机及集群配置指导教师实验类型上机实验学时 2 实验时间一、实验目的和要求实验要求：学会Hadoop单机版及集群的安装配置实验目的：1）了解Hadoop的安装及运行环境；2）掌握Hadoop的工作原理；3）在此基础上为Hadoop数据分析奠定基础二、实验环境在虚拟机上运行ubuntu系统，hadoop-1.2.1三、实验原理及内容1.安装Ubuntu2.hadoop用户组（1）创建hadoop用户组：sudo addgroup hadoop（2）创建hadoop用户：sudo adduser -ingroup hadoop hadoop（3）（3）为hadoop用户添加权限：sudo gedit /etc/sudoers，在打开的文件中添加一句hadoop ALL=（ALL：ALL）ALL，其中hadoop和ALL之间的空格使用TAB键。

（4）使用hadoop用户登录系统重新打开Ubuntu，发现登陆界面多了一个hadoop用户，用hadoop用户登录系统。

3、SSH配置（1）Ubuntu14.04已默认安装ssh的客户端，只需要安装服务器端即可，但在实际操作时，发现由于是刚安装的Ubuntu系统，该系统没有更新，还没有安装ssh，因此先使用系统更新命令sudo apt-get update更新系统。

（2）安装ssh：sudo apt-get install openssh-server。

（3）启动ssh：sudo /etc/init.d/ssh start查看服务是否正确启动：ps -e | grep ssh（4）设置免密码登录，生成私钥和公钥：ssh-keygen -t rsa -P ""（5）将公钥追加到authorized_keys（authorized_keys用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容）中：cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys（6）现在即可免密码登录：ssh localhost退出：exit4、JAVA环境配置（1）创建jvm文件夹：sudo mkdir /usr/lib/jvm（2）将下好的jdk文件解压，，并将解压后的文件夹重命名为java-7-sun，：sudo tar xzvf jdk-7u45-linux-i586.tar.gz-C /usr/lib/jvm/（由于安装的Ubuntu系统为64位的，学长提供的jdk7u79为32位的，安装之后无法使用，所以重新下载了一个jdk，由于7u79版本官网下载速度太慢，因此下载了一个7u45版本的jdk）重命名：sudo mv jdk1.7.0_45/ java-7-sun/（3）配置环境变量：sudo gedit ~/.bashrc在最后添加如下四行：export JAVA_HOME=/usr/lib/jvm/java-7-sunexport JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH（4）启用配置：source ~/.bashrc（5）配置默认JDK：sudo update-alternatives --install /usr/lib/jvm/javajava/usr/lib/jvm/java-7-Sun/bin/java 300sudo update-alternatives --install /usr/lib/jvm/javac javac/usr/lib/jvm/java-7-sun/bin/javac 300（6）测试是否已完成：java -version（sudo update-alternatives --config java可查看当前各种JDK的版本和配置）5、安装hadoop（1）将hadoop1.2.1解压至/usr/local下，并将其重命名为hadoop：sudo tar xzvf hadoop-1.2.1.tar.gz -C/usr/local重命名：sudo mv hadoop-1.2.1/ hadoop/（2）授权（读写权限）：sudo chmod 777 hadoop/（3）编辑hadoop-env.sh文件：sudo gedit /usr/local/hadoop/conf/hadoop-env.sh，增加如下三行：export JAVA_HOME=/usr/lib/jvm/java-7-sunexport HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:/usr/local/hadoop/bin如下图所示：（4）执行命令：source hadoop-env.sh（5）输入hadoop，出现如下图所示，说明hadoop命令已经可以使用：6、测试wordcount（1）创建input文件夹：sudo mkdir /usr/local/hadoop/input（2）将hadoop文件夹下的README.txt文件拷贝至input中：sudo cp README.txt input （3）执行：hadoop jar hadoop-examples-1.2.1.jar wordcount input output4.查看结果：cat output/*说明单机版的hadoop已经配置成功。