实验2 熟悉常用的 HDFS操作_大数据技术原理与应用（第2版）_[共2页]

合集下载

本章最后介绍了HDFS的数据读写过程以及HDFS编程实践方面的相关知识。

3.9 习题
1．试述分布式文件系统设计的需求。

2．分布式文件系统是如何实现较高水平扩展的？
3．试述HDFS中的块和普通文件系统中的块的区别。

4．试述HDFS中的名称节点和数据节点的具体功能。

5．在分布式文件系统中，中心节点的设计至关重要，请阐述HDFS是如何减轻中心节点的
负担的。

6．HDFS只设置唯一一个名称节点，在简化系统设计的同时也带来了一些明显的局限性，请
阐述局限性具体表现在哪些方面。

7．试述HDFS的冗余数据保存策略。

8．数据复制主要是在数据写入和数据恢复的时候发生，HDFS数据复制是使用流水线复制的
策略，请阐述该策略的细节。

9．试述HDFS是如何探测错误发生以及如何进行恢复的。

10．请阐述HDFS在不发生故障的情况下读文件的过程。

11．请阐述HDFS在不发生故障的情况下写文件的过程。

实验2 熟悉常用的HDFS操作
一、实验目的
（1）理解HDFS在Hadoop体系结构中的角色。

（2）熟练使用HDFS操作常用的Shell命令。

（3）熟悉HDFS操作常用的Java API。

二、实验平台
操作系统：Linux。

Hadoop版本：2.7.3或以上版本。

JDK版本：1.7或以上版本。

Java IDE：Eclipse。

三、实验内容和要求
（1）编程实现以下指定功能，并利用Hadoop提供的Shell命令完成相同的任务。

①向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追
加到原有文件末尾还是覆盖原有的文件。

②从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文
61。