Hadoop集群程序设计与开发教学大纲

合集下载

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码:1041139083课程名称(中/英文):Hadoop大数据技术/Hadoop Big Data Technology课程类别:专业必修课学分:3.5总学时:56理论学时:32实验/实践学时:24适用专业:数据科学与大数据技术适用对象:本科先修课程:JA V A程序设计、Linux基础教学环境:课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。

《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

通过学习Hadoop 平台框架,学会手动搭建Hadoop环境,掌握Hadoop平台上存储及计算的原理、结构、工作流程,掌握基础的MapReduce编程,掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程,并具备大数据的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。

课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,对Hadoop 平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,使学生在学习理论知识的同时,提高实践动手能力,做到在Hadoop的大数据平台上进行大数据项目开发。

三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容(一)初识Hadoop大数据技术1.主要内容:掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。

了解对于大数据问题,传统方法、Google的解决方案、Hadoop框架下的解决方案,重点了解Google的三篇论文。

掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景;了解本课程内容涉及到的Java语言基础;了解本课程实验涉及到的Linux基础。

大数据开发技术(Hadoop)-大纲

大数据开发技术(Hadoop)-大纲

《大数据开发技术(Hadoop)》教学大纲课程编号:071333B课程类型:□通识教育必修课□通识教育选修课□专业必修课█专业选修课□学科基础课总学时:48讲课学时:16 实验(上机)学时:32学分:3适用对象:计算机科学与技术专业,大三本科生先修课程:人工智能、面向对象程序设计、数据库原理、高性能计算一、教学目标目标是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;本课程重点让学生掌握四个方面的内容:目标1:HDFS使用操作目标2:Map/Reduce开发目标3:HBase数据库的开发目标4:Hive数据仓库开发二、教学内容及其与毕业要求的对应关系1:Hadoop大数据处理平台安装与部署目标及要求:让学生掌握Hadoop平台的安装,熟悉大数据处理的软硬件环境。

2:HDFS操作命令操作目标及要求:让学生掌握分布式文件系统HDFS的文件操作,包含导入导出文件、列表、查找、删除文件等。

3:MapReduce开发目标及要求:让学生掌握在HDFS文件系统内的Map及Reduce的Java开发,实现对指定文本文件的单词计数,将统计结果输出至控制台。

4:HBase数据库命令操作目标及要求:让学生掌握分布式文件数据库系统HBase的数据库操作,包含创建表、删除表、增加列、导入记录、删除记录等。

5:Hive数据仓库基础使用目标及要求:让学生掌握在Hive数据仓库的基本命令的操作,包含创建数据仓库、创建表、删除表、导入及导出数据,统计查询等在CLI模式下的使用操作。

三、各教学环节学时分配(黑体,小四号字)教学课时分配四、教学内容第一章大数据概述授课学时:1基本要求:1. 了解大数据概念、特征、数据计量单位以及大数据的类型;2. 了解大数据系统的设计背景、以及当前大数据系统存在的不足;3. 了解大数据系统的设计思想、设计目标和设计原则;4. 了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;第二章大数据应用开发思路和开发环境配置授课学时:1基本要求:1. 掌握大数据系统应用读写操作的开发流程;2. 掌握分析大数据开发技术及思路;3. 掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;4. 真机实操训练(实验环节1);第三章HDFS 分布式文件系统授课学时:2基本要求:1. 了解HDFS设计目标、基本概念;2. 掌握HDFS文件系统的命令操作;3. 掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开发;4. 真机实操训练(实验环节2);第四章MapReduce 分布式编程授课学时:4基本要求:1. 了解MapReduce的设计思想、基本概念;2. 了解MapReduce的系统架构、作业运行机制和关键技术;3. 掌握MapReduce的数据类型的自定义以及数据类型的使用;4. 掌握MapReduce开发,定制输入输出的数据格式;5. 掌握将HDFS文件系统中整个文件作为输入数据的开发;6. 掌握利用MapReduce完成小文件聚合成一个大文件的开发;7. 掌握压缩数据处理程序开发;8. 掌握任务组合过程,掌握迭代组合、并行组合及串行组合;9. 掌握任务的前后链式组合;10. 掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;11. 掌握Hadoop全局参数的使用,全局文件的使用;12. 掌握与关系型数据库的访问连接;13. 真机实操训练(实验环节3);第五章HBase 分布式数据库授课学时:4基本要求:1. 了解HBase分布式数据库的设计目标、基本概念;2. 了解HBase逻辑架构以及物理架构;3. 掌握HBase分布式数据库Shell命令操作;4. 掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;5. 掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;6. 真机实操训练(实验环节4);第六章Hive数据仓库开发授课学时:4基本要求:1. 了解Hive数据仓库的工作原理及特点;2. 了解Hive架构设计,包含数据类型、数据存储方式以及查询方式;3. 掌握Hive数据仓库系统的HQL语言语法;4. 掌握HQL的创建表、查看表及查询有结构,修改表以及删除表;5. 掌握利用HQL语句将HDFS的文件导入数据仓库;6. 掌握分区表、桶表、外部表的使用;7. 掌握HQL语句的联合查询、子查询、创建视图等操作;8. 掌握利用Java开发UDF自定义函数,以及自定义函数的使用;9. 掌握Java连接Hive数据仓库进行数据查询;10. 真机实操训练(实验环节5);五、考核方式、成绩评定(黑体,小四号字)考核方式:考查,采用平时成绩+期末课程设计。

Hadoop大数据开发基础教案Hadoop介绍教案

Hadoop大数据开发基础教案Hadoop介绍教案

Hadoop大数据开发基础教案Hadoop介绍教案第一章:Hadoop概述1.1 课程目标了解Hadoop的定义、发展历程及应用场景掌握Hadoop的核心组件及其作用理解Hadoop在大数据领域的优势1.2 教学内容Hadoop的定义与发展历程Hadoop的核心组件:HDFS、MapReduce、YARN Hadoop的应用场景与优势1.3 教学方法讲解与案例分析相结合互动提问,巩固知识点1.4 课后作业简述Hadoop的发展历程及其在大数据领域的优势。

第二章:HDFS(分布式文件系统)2.1 课程目标掌握HDFS的架构与工作原理了解HDFS的优势与局限性掌握HDFS的常用操作命令2.2 教学内容HDFS的架构与工作原理HDFS的优势与局限性HDFS的常用操作命令:hdfs dfs, hdfs dfsadmin2.3 教学方法讲解与实践操作相结合案例分析,理解HDFS的工作原理2.4 课后作业利用HDFS命令练习文件的与。

第三章:MapReduce编程模型3.1 课程目标掌握MapReduce的基本概念与编程模型理解MapReduce的运行原理与执行过程学会使用MapReduce解决大数据问题3.2 教学内容MapReduce的基本概念:Mapper、Reducer、Shuffle与Sort MapReduce的编程模型:Map阶段、Shuffle阶段、Reduce阶段MapReduce的运行原理与执行过程3.3 教学方法讲解与编程实践相结合剖析经典MapReduce案例,理解编程模型3.4 课后作业编写一个简单的MapReduce程序,实现单词计数功能。

第四章:YARN(资源管理器)4.1 课程目标掌握YARN的基本概念与架构了解YARN的工作原理与调度策略掌握YARN的资源管理与优化方法4.2 教学内容YARN的基本概念与架构YARN的工作原理与调度策略YARN的资源管理与优化方法4.3 教学方法讲解与案例分析相结合实操演练,掌握YARN的资源管理方法4.4 课后作业分析一个YARN集群的资源使用情况,提出优化方案。

《Hadoop》实验教学大纲(大数据)

《Hadoop》实验教学大纲(大数据)

《H a d o o p》实验教学大纲课程代码:实验学时:16先修课程:《大数据导论》一、目的要求目的:使学生能够掌握大数据平台Hadoop的基本概念,并根据Hadoop处理大批量数据集的存储与分析计算,掌握调试程序的基本技巧,初步了解大数据开发所要经历的阶段,为学生从事大数据开发和数据处理工作打下坚实的基础。

要求:熟悉Linux系统和Java se编程,根据实验内容和要求,认真完成程序编写、上机调试、运行结果分析,书写实验报告。

二、实验项目内容及学时分配实验一、Linux及虚拟机安装搭建(3学时)1.实验目的要求(1)安装VMware虚拟机;(2)通过VMware虚拟机编译、安装Linux CentOS系统。

2.实验主要内容通过在计算机系统上编译和安装Linux系统环境,为Hadoop软件安装和搭建提供工作环境。

3.实验类别:基础4.实验类型:验证5.实验要求:必做6.主要仪器:微型计算机实验二、Hadoop的安装搭建(3学时)1.实验目的要求掌握大数据核心框架Hadoop的安装和部署,包括伪分布式集群的安装部署和完全分布式的安装和部署。

2.实验主要内容通过上机在Linux系统环境进行Hadoop平台的安装和部署,完成大数据分布式处理平台的搭建。

3.实验类别:基础4.实验类型:验证5.实验要求:必做6.主要仪器:微型计算机实验三、HDFS Shell应用(3学时)1.实验目的要求(1)掌握分布式文件存储与管理系统hdfs的数据上传与下载命令;(2)掌握hdfs文件增删改查等操作命令;(3)掌握分布式系统hdfs的运行原理。

2.实验主要内容(1)hdfs hadoop put get mkdir ls 等命令的使用(2)NameNode datanode的作用及原理3.实验类别:基础4.实验类型:设计5.实验要求:必做6.主要仪器:微型计算机实验四、MapReduce编程(3学时)1.实验目的要求(1)正确使用MapReduce编程;(2)MapReduce编程的编程格式;(3)“WC”编程;2.实验主要内容(1)MapReduce固定格式语法编程,map编程、reduce编程(2)自定义函数编程,UDF、UDAF等函数编程3.实验类别:专业基础4.实验类型:设计5.实验要求:必做6.主要仪器:微型计算机实验五、MapReduce数据倾斜等优化(4学时)1.实验目的要求(1)掌握MapReduce编程的优化;(2)熟练掌握数据倾斜等MapReduce任务问题的优化。

hardoop教学大纲

hardoop教学大纲

hardoop教学大纲Hadoop教学大纲随着大数据时代的到来,Hadoop作为一种分布式计算框架,成为了处理海量数据的重要工具。

对于学习Hadoop的人来说,掌握其核心概念和技术是非常重要的。

本文将围绕Hadoop教学大纲展开,帮助读者了解Hadoop的基本知识和应用。

一、Hadoop概述1.1 Hadoop的起源和发展1.2 Hadoop的特点和优势1.3 Hadoop在大数据处理中的应用场景二、Hadoop核心组件2.1 Hadoop分布式文件系统(HDFS)2.1.1 HDFS的架构和工作原理2.1.2 HDFS的数据读写和容错机制2.2 Hadoop分布式计算框架(MapReduce)2.2.1 MapReduce的基本原理和编程模型2.2.2 MapReduce的任务调度和数据处理流程2.3 Hadoop集群管理器(YARN)2.3.1 YARN的架构和功能2.3.2 YARN的资源调度和作业管理三、Hadoop生态系统3.1 Hadoop生态系统的概述3.2 Hadoop的相关工具和组件3.2.1 Hadoop的数据导入和导出工具3.2.2 Hadoop的数据存储和查询工具3.2.3 Hadoop的数据处理和分析工具四、Hadoop的安装和配置4.1 Hadoop的安装环境和前期准备4.2 Hadoop的安装步骤和配置文件4.3 Hadoop集群的搭建和管理五、Hadoop应用开发5.1 Hadoop编程模型和API介绍5.2 Hadoop的数据输入和输出格式5.3 Hadoop的开发工具和调试技巧5.4 Hadoop的性能调优和优化策略六、Hadoop的实际应用6.1 Hadoop在互联网行业的应用案例6.2 Hadoop在金融行业的应用案例6.3 Hadoop在医疗行业的应用案例6.4 Hadoop在其他领域的应用前景七、Hadoop的未来发展7.1 Hadoop的发展趋势和挑战7.2 Hadoop与人工智能的结合7.3 Hadoop在边缘计算中的应用7.4 Hadoop生态系统的扩展和创新总结:通过本文对Hadoop教学大纲的论述,我们可以了解到Hadoop的概述、核心组件、生态系统、安装配置、应用开发以及实际应用等方面的知识。

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案(第一部分)一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法:讲解Hadoop的基本概念、架构和组件2. 实践法:引导学生动手实践,安装和配置Hadoop,了解其运行原理3. 讨论法:鼓励学生提问、发表观点,共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备:熟悉Hadoop的安装和配置,了解其运行原理2. 学生准备:具备一定的Linux操作基础,了解Java编程五、教学评价1. 课堂参与度:学生提问、回答问题的积极性2. 实践操作:学生动手实践的能力,如能够独立完成Hadoop的安装和配置3. 课后作业:学生完成课后练习的情况,如编写简单的MapReduce程序4. 综合评价:结合学生的课堂表现、实践操作和课后作业,综合评价学生的学习效果《Hadoop大数据开发实战》教学教案(第二部分)六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构(可选)2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法:讲解Hadoop生态系统组件的原理和应用2. 实践法:引导学生动手实践,使用Hadoop进行数据处理和分析3. 案例教学法:分析实际应用案例,让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备:熟悉Hadoop生态系统组件的原理和应用,具备实际操作经验2. 学生准备:掌握Hadoop的基本操作,了解Hadoop的核心组件十、教学评价1. 课堂参与度:学生提问、回答问题的积极性2. 实践操作:学生动手实践的能力,如能够独立完成数据处理和分析任务3. 案例分析:学生分析实际应用案例的能力,如能够理解Hadoop在不同领域的应用4. 课后作业:学生完成课后练习的情况,如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价:结合学生的课堂表现、实践操作、案例分析和课后作业,综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性,以及大数据处理和分析的实际应用。

《Hadoop》理论教学大纲(大数据)

《Hadoop》理论教学大纲(大数据)

《H a d o o p》理论教学大纲课程代码:总学时:32学时(其中:讲课16学时、实验16学时)先修课程:《大数据导论》一、课程的性质、目的与任务《Hadoop》是数据科学与大数据技术专业必修课程。

通过本课程的学习,应掌握大数据核心平台框架的基本知识,具有应用Hadoop平台实施海量数据存储和分析计算的能力;初步掌握大数据开发的技巧和方法,以及平台的安装、调试和测试方法;对Hadoop 平台的各种成份有较好的理解;能够根据要求编制程序解决实际问题;为后续课程的学习打下必备的基础。

二、教学基本内容与基本要求1.基本内容本课程主要内容为大数据的基本概念、分布式文件存储与管理系统HDFS、分布式文件计算引擎MapReduce、yarn等组件的原理及使用等。

2.基本要求本课程借助Hadoop平台讲授海量数据的存储与分析计算。

通过hdfs shell及MapReduce编程,使学生掌握大批量数据集读写及计算的原理、方法和技巧,具有一定的大数据开发的能力。

为后续课程的学习打下基础。

(教学要求:A—熟练掌握;B—掌握;C—了解)五、教学方法与教学手段1.教学方法:Hadoop是一门理论与实践并重的课程,因此,本课程采用理论课程教学与实验课程教学相结合的方法。

通过对知识点和典型例题的讲解分析以及上机实验的指导答疑,发挥学生思考问题的主动性和创造性,能用Hadoop框架处理大数据计算。

2.教学手段:利用多媒体、CAI课件等现代化教学手段,提高教学质量。

六、建议教材与参考书目1.参考教材:《大数据技术原理与应用(第2版)》,林子雨,人民邮电出版社,2017年1月第2版。

2.参考书目:①《大数据基础编程、实验和案例教程》,林子雨编,清华大学出版社,2017年1月第1版。

七、大纲编写的依据与说明本课程教学大纲,是根据数据科学与大数据技术专业培养目标和基本要求,结合本课程的性质,经学校教学委员会审定后编写的。

本课程着重训练学生程序设计的思想和编程技巧,培养学生初步应用大数据框架解决和处理实际问题的能力,为《数据结构》、《Python语言程序设计》、《Java程序设计》、《WEB程序设计》等后续课程打下坚实的基础。

《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群

《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群

《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(搭建Hadoop集群)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Hadoop的基本知识,“工欲善其事,必先利其器”,在深入学习Hadoop,掌握其相关应用前,需要学会搭建集群环境。

下面将带领大家从零开始搭建一个简单的Hadoop集群。

本节主要讲解安装前的准备工作。

Hadoop可以安装在Linux系统和Windows系统上使用。

由于Linux系统具备便捷性和稳定性,所以在实际开发过程中,更多的Hadoop集群是在Linux系统上运行的,本书对Linux 系统上的Hadoop集群搭建以及使用进行讲解。

2.明确学习目标(1)能够独立完成虚拟机安装(2)能够独立完成虚拟机克隆(3)能够掌握Linux系统网络配置(4)能够独立完成SSH服务配置知识讲解虚拟机安装搭建Hadoop集群需要很多台机器,这在个人开发测试和学习时,肯定是不切实际的。

所以,可以使用虚拟机软件在一台电脑中,搭建出多个Linux 虚拟机环境,来进行个人开发测试和学习。

下面就开始分步演示VMware Workstation虚拟软件工具进行Linux系统虚拟机安装配置的过程。

1.创建虚拟机2.虚拟机启动初始化具体细节参见教材2.1.1节内容。

虚拟机克隆一台搭载CentOS镜像文件的Linux 虚拟机已经安装成功,但是搭建Hadoop集群,一台虚拟机远远不能满足需求,这时需要对已安装的虚拟机进行克隆。

克隆就是复制原始虚拟机全部状态的,克隆操作一旦完成,克隆的虚拟机就可以脱离原始虚拟机独立存在,而且在克隆的虚拟机中和原始虚拟机中的操作是相对独立的,不相互影响(1)关闭虚拟机qf01,克隆虚拟机只能在虚拟机关机状态下进行。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号:3250578学分:4学分学时:72学时(其中:讲课学时36上机学时:36)先修课程:《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程:Spark,《Python编程基础》、《Python数据分析与应用》适用专业:大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程,大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤,并通过编程练习和典型应用实例加深了解;同时对Hadoop平台应用与开发的一般理论有所了解,如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统:CenterOSHadoop版本:Hadoop2.7.4开发工具:Eclipse三、课程的主要内容及基本要求第I章初识Hadoop第3章HDFS分布式文件系统本课程为考试课程,期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%)o六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为:课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课,并且会通过测试题阶段测试学生的掌握程度;上机主要是编写程序,要求学生动手完成指定的程序设计或验证。

Hadoop大数据开发实战教学大纲4

Hadoop大数据开发实战教学大纲4

Hadoop大数据开发实战课程教学大纲课程编号:201709210012学分:3学分学时:46学时(其中:讲授学时:28学时上机学时:18学时)先修课程:无后续课程:Spark开发实战适用专业:计算机相关专业开课部门:计算机系一、课程性质与目标Hadoop大数据开发实战是计算机专业学生的一门重要专业拓展选修课。

本课程中内容覆盖全面、讲解详细,其中第1章首先让读者对大数据及Hadoop 有一个总体的认识;第2 章主要讲解如何搭建Hadoop 集群;第3~第5章讲解HDFS 分布式文件系统、MapReduce 分布式计算框架以及Zookeeper 分布式协调服务;第6章讲解Hadoop 2.0 的新特性;第7~第10章主要讲解Hadoop 生态圈中的相关辅助系统,包括Hive、HBase分布式存储系统、Flume、Sqoop;第11 章讲解了综合项目——电商精准营销,该项目涵盖从前期设计到最终实施的整个过程的内容,对全书知识点进行串联和巩固,使读者融会贯通,加深对Hadoop 技术的理解。

二、课程的主要内容及基本要求第1章初识Hadoop(2学时)[知识点]➢大数据简介➢大数据技术的核心需求➢Hadoop简介➢离线数据分析流程介绍➢大数据学习流程[重点]➢Hadoop简介➢离线数据分析流程介绍➢大数据学习流程[难点]➢Hadoop简介➢离线数据分析流程介绍➢大数据学习流程[基本要求]➢了解大数据的概念➢熟悉大数据的应用场景➢了解Hadoop框架➢了解大数据的学习流程[实践与练习]完成相关习题。

第2章搭建Hadoop集群(4学时)[知识点]➢安装准备➢Linux基本命令➢Hadoop集群搭建➢Hadoop集群测试➢使用Hadoop集群[重点]➢Linux基本命令➢Hadoop集群搭建➢Hadoop集群测试➢使用Hadoop集群[难点]➢Hadoop集群搭建➢Hadoop集群测试➢使用Hadoop集群[基本要求]➢了解虚拟机的安装和克隆➢掌握Linux基本命令的用法➢熟悉Linux系统网络配置➢掌握Hadoop集群的搭建和配置方法➢熟悉Hadoop集群案例操作[实践与练习]完成相关习题。

hadoop教学大纲

hadoop教学大纲

hadoop教学大纲Hadoop教学大纲Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和分析。

它提供了一种可靠性和可扩展性的解决方案,使得处理海量数据变得更加容易和高效。

在当今数据驱动的世界中,了解和掌握Hadoop技术已经成为许多IT专业人士的必备技能。

因此,设计一份全面而有深度的Hadoop教学大纲至关重要。

第一部分:Hadoop基础在这一部分,我们将介绍Hadoop的基本概念和架构。

我们将深入了解Hadoop的核心组件,包括Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。

我们将学习如何安装和配置Hadoop集群,并了解Hadoop的工作原理和数据处理流程。

第二部分:Hadoop生态系统Hadoop作为一个生态系统,还包括许多与之相关的工具和技术。

在这一部分,我们将介绍一些常用的Hadoop生态系统组件,如Hive、Pig、HBase和Sqoop 等。

我们将学习如何使用这些工具来进行数据存储、数据处理和数据分析。

此外,我们还将介绍一些其他与Hadoop集成的技术,如Apache Spark和Apache Kafka等。

第三部分:Hadoop应用开发在这一部分,我们将学习如何使用Hadoop进行应用开发。

我们将介绍Hadoop的编程模型和API,如Hadoop Streaming、Hadoop Pipes和Hadoop Java API等。

我们将学习如何编写MapReduce程序来处理大规模数据,并了解如何优化和调试这些程序。

此外,我们还将介绍一些Hadoop应用开发的最佳实践和常见问题的解决方案。

第四部分:Hadoop集群管理和性能调优在这一部分,我们将学习如何管理和维护Hadoop集群,并进行性能调优。

我们将介绍一些常用的Hadoop集群管理工具,如Apache Ambari和Cloudera Manager等。

我们将学习如何监控和调整Hadoop集群的性能,并了解如何解决常见的性能问题。

Hadoop集群程序设计与开发教学大纲

Hadoop集群程序设计与开发教学大纲

Hadoop集群程序设计与开发教学大纲《Hadoop集群程序设计与开发》教学大纲课程名称:Hadoop集群程序设计与开发课程类别:必修适用专业:大数据技术类相关专业总学时:64学时总学分:4.0学分一、课程的性质本课程是为大数据技术类相关专业学生开设的课程。

大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。

Hadoop开源免费、社区活跃,框架具备分布式存储和计算的核心功能,并且有企业成功的案例(如如淘宝、百度等)。

本课程首先通过企业项目发展历程介绍了大数据与云计算的概念并将Hadoop在这二个领域中的作用与地位进行阐述。

通过Hadoop源码片断与理论及实操结合的模式介绍Hadoop分布式存储框架HDFS与分布式计算框架MapReduce的用法。

对于HDFS不能很好支持小条目读取的缺陷,引入HBase 框架进行应用说明。

对于MapReduce框架对于项目专业人员的技能要求门槛高,复杂业务开发周期较长的问题引入了Hive框架进行应用说明。

Hadoop与HBase和Hive结合进行项目中大数据的存取与统计计算在企业中的运用越来越广泛,学习Hadoop框架已然是进入大数据行业所必不可少的一步。

二、课程的任务通过本课程的学习,使学生对Hadoop框架有一个全面的理解,课程内容主要包括了Hadoop基本原理与架构、集群安装配置、HDFS 应用、HDFS I/O操作、MapReduce工作原理与应用编程、HBase基本应用、Hive基本应用,关键知识点配置Hadoop源码片断和实操案例进行辅助。

涉及的知识点简要精到,实践操作性强。

三、教学内容及学时安排四、考核方式突出学生解决实际问题的能力,加强过程性考核。

课程考核的成绩构成= 出勤(10%)+ 平时作业与课堂练习(30%)+ 课程设计(60%)。

五、教材与参考资料1.教材Hadoop集群程序设计与开发2.参考资料。

HADOOP课程大纲

HADOOP课程大纲
◆ 灵活运用 Hive 加速游戏数据仓库
◆ 基于Pig+OpenCV大规模图像人脸识别
模块十四
Spark原理和入门
◆ Spark原理;Spark的架构图;Spark运行模式介绍
◆ —local;—standalone;—messos;—yarn;Spark的RDD
◆ 什么是RDD;RDD的种类;—Tranformation;—Action
◆ Hadoopcore-site,hdfs-site,mapred-site 配置详解
模块五
Hadoop集群规划
◆ Hadoop 集群内存要求
◆ Hadoop集群磁盘分区
◆ 集群和网络拓扑要求
◆ 集群软件的端口配置
◆ 针对NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同组件需求推荐服务器配置
◆ 新MapReduce API
◆ MapReduce的优化
◆ MapReduce的任务调度
◆ MapReduce编程实战
◆ 如何利用其他Hadoop相关技术,包括Apache Hive, Apache Pig,Sqoop和Oozie等
◆ 满足解决实际数据分析问题的高级Hadoop API
◆ Hadoop Streaming 和 Java MapReduce Api 差异。
◆ 数据开放,数据云服务平台(DAAS)时代
◆ Hadoop平台在数据云平台(DAAS)上的天然优势
◆ 数据云平台(DAAS 平台)组成部分
◆ 互联网公共数据大云(DAAS)案例
◆ Hadoop构建构建游戏云(Web Game Daas)平台
模块二
Hadoop生态系统介绍和演示

Hadoop大数据开发基础教案Hadoop教案MapReduce入门编程教案

Hadoop大数据开发基础教案Hadoop教案MapReduce入门编程教案

Hadoop大数据开发基础教案Hadoop教案MapReduce入门编程教案第一章:Hadoop概述1.1 Hadoop简介了解Hadoop的发展历程理解Hadoop的核心价值观:可靠性、可扩展性、容错性1.2 Hadoop生态系统掌握Hadoop的主要组件:HDFS、MapReduce、YARN理解Hadoop生态系统中的其他重要组件:HBase、Hive、Pig等1.3 Hadoop安装与配置掌握Hadoop单机模式安装与配置掌握Hadoop伪分布式模式安装与配置第二章:HDFS文件系统2.1 HDFS简介理解HDFS的设计理念:大数据存储、高可靠、高吞吐掌握HDFS的基本架构:NameNode、DataNode2.2 HDFS操作命令掌握HDFS的基本操作命令:mkdir、put、get、dfsadmin等2.3 HDFS客户端编程掌握HDFS客户端API:Configuration、FileSystem、Path等第三章:MapReduce编程模型3.1 MapReduce简介理解MapReduce的设计理念:将大数据处理分解为简单的任务进行分布式计算掌握MapReduce的基本概念:Map、Shuffle、Reduce3.2 MapReduce编程步骤掌握MapReduce编程的四大步骤:编写Map函数、编写Reduce函数、设置输入输出格式、设置其他参数3.3 典型MapReduce应用掌握WordCount案例的编写与运行掌握其他典型MapReduce应用:排序、求和、最大值等第四章:YARN资源管理器4.1 YARN简介理解YARN的设计理念:高效、灵活、可扩展的资源管理掌握YARN的基本概念:ResourceManager、NodeManager、ApplicationMaster等4.2 YARN运行流程掌握YARN的运行流程:ApplicationMaster申请资源、ResourceManager 分配资源、NodeManager执行任务4.3 YARN案例实战掌握使用YARN运行WordCount案例掌握YARN调优参数设置第五章:Hadoop生态系统扩展5.1 HBase数据库理解HBase的设计理念:分布式、可扩展、高可靠的大数据存储掌握HBase的基本概念:表结构、Region、Zookeeper等5.2 Hive数据仓库理解Hive的设计理念:将SQL查询转换为MapReduce任务进行分布式计算掌握Hive的基本操作:建表、查询、数据导入导出等5.3 Pig脚本语言理解Pig的设计理念:简化MapReduce编程的复杂度掌握Pig的基本语法:LOAD、FOREACH、STORE等第六章:Hadoop生态系统工具6.1 Hadoop命令行工具掌握Hadoop命令行工具的使用:hdfs dfs, yarn命令等理解命令行工具在Hadoop生态系统中的作用6.2 Hadoop Web界面熟悉Hadoop各个组件的Web界面:NameNode, JobTracker, ResourceManager等理解Web界面在Hadoop生态系统中的作用6.3 Hadoop生态系统其他工具掌握Hadoop生态系统中的其他工具:Azkaban, Sqoop, Flume等理解这些工具在Hadoop生态系统中的作用第七章:MapReduce高级编程7.1 二次排序理解二次排序的概念和应用场景掌握MapReduce实现二次排序的编程方法7.2 数据去重理解数据去重的重要性掌握MapReduce实现数据去重的编程方法7.3 自定义分区理解自定义分区的概念和应用场景掌握MapReduce实现自定义分区的编程方法第八章:Hadoop性能优化8.1 Hadoop性能调优概述理解Hadoop性能调优的重要性掌握Hadoop性能调优的基本方法8.2 HDFS性能优化掌握HDFS性能优化的方法:数据块大小,副本系数等8.3 MapReduce性能优化掌握MapReduce性能优化的方法:JVM设置,Shuffle优化等第九章:Hadoop实战案例9.1 数据分析案例掌握使用Hadoop进行数据分析的实战案例理解案例中涉及的技术和解决问题的方法9.2 数据处理案例掌握使用Hadoop进行数据处理的实战案例理解案例中涉及的技术和解决问题的方法9.3 数据挖掘案例掌握使用Hadoop进行数据挖掘的实战案例理解案例中涉及的技术和解决问题的方法第十章:Hadoop项目实战10.1 Hadoop项目实战概述理解Hadoop项目实战的意义掌握Hadoop项目实战的基本流程10.2 Hadoop项目实战案例掌握一个完整的Hadoop项目实战案例理解案例中涉及的技术和解决问题的方法展望Hadoop在未来的发展和应用前景重点和难点解析重点环节1:Hadoop的设计理念和核心价值观需要重点关注Hadoop的设计理念和核心价值观,因为这是理解Hadoop生态系统的基础。

Hadoop大数据开发基础教案Hadoop集群的搭建及配置教案

Hadoop大数据开发基础教案Hadoop集群的搭建及配置教案

Hadoop大数据开发基础教案-Hadoop集群的搭建及配置教案教案章节一:Hadoop简介1.1 课程目标:了解Hadoop的发展历程及其在大数据领域的应用理解Hadoop的核心组件及其工作原理1.2 教学内容:Hadoop的发展历程Hadoop的核心组件(HDFS、MapReduce、YARN)Hadoop的应用场景1.3 教学方法:讲解与案例分析相结合互动提问,巩固知识点教案章节二:Hadoop环境搭建2.1 课程目标:学会使用VMware搭建Hadoop虚拟集群掌握Hadoop各节点的配置方法2.2 教学内容:VMware的安装与使用Hadoop节点的规划与创建Hadoop配置文件(hdfs-site.xml、core-site.xml、yarn-site.xml)的编写与配置2.3 教学方法:演示与实践相结合手把手教学,确保学生掌握每个步骤教案章节三:HDFS文件系统3.1 课程目标:理解HDFS的设计理念及其优势掌握HDFS的搭建与配置方法3.2 教学内容:HDFS的设计理念及其优势HDFS的架构与工作原理HDFS的搭建与配置方法3.3 教学方法:讲解与案例分析相结合互动提问,巩固知识点教案章节四:MapReduce编程模型4.1 课程目标:理解MapReduce的设计理念及其优势学会使用MapReduce解决大数据问题4.2 教学内容:MapReduce的设计理念及其优势MapReduce的编程模型(Map、Shuffle、Reduce)MapReduce的实例分析4.3 教学方法:互动提问,巩固知识点教案章节五:YARN资源管理器5.1 课程目标:理解YARN的设计理念及其优势掌握YARN的搭建与配置方法5.2 教学内容:YARN的设计理念及其优势YARN的架构与工作原理YARN的搭建与配置方法5.3 教学方法:讲解与案例分析相结合互动提问,巩固知识点教案章节六:Hadoop生态系统组件6.1 课程目标:理解Hadoop生态系统的概念及其重要性熟悉Hadoop生态系统中的常用组件6.2 教学内容:Hadoop生态系统的概念及其重要性Hadoop生态系统中的常用组件(如Hive, HBase, ZooKeeper等)各组件的作用及相互之间的关系6.3 教学方法:互动提问,巩固知识点教案章节七:Hadoop集群的调优与优化7.1 课程目标:学会对Hadoop集群进行调优与优化掌握Hadoop集群性能监控的方法7.2 教学内容:Hadoop集群调优与优化原则参数调整与优化方法(如内存、CPU、磁盘I/O等)Hadoop集群性能监控工具(如JMX、Nagios等)7.3 教学方法:讲解与案例分析相结合互动提问,巩固知识点教案章节八:Hadoop安全与权限管理8.1 课程目标:理解Hadoop安全的重要性学会对Hadoop集群进行安全配置与权限管理8.2 教学内容:Hadoop安全概述Hadoop的认证与授权机制Hadoop安全配置与权限管理方法8.3 教学方法:互动提问,巩固知识点教案章节九:Hadoop实战项目案例分析9.1 课程目标:学会运用Hadoop解决实际问题掌握Hadoop项目开发流程与技巧9.2 教学内容:真实Hadoop项目案例介绍与分析Hadoop项目开发流程(需求分析、设计、开发、测试、部署等)Hadoop项目开发技巧与最佳实践9.3 教学方法:案例分析与讨论团队协作,完成项目任务教案章节十:Hadoop的未来与发展趋势10.1 课程目标:了解Hadoop的发展现状及其在行业中的应用掌握Hadoop的未来发展趋势10.2 教学内容:Hadoop的发展现状及其在行业中的应用Hadoop的未来发展趋势(如Big Data生态系统的演进、与大数据的结合等)10.3 教学方法:讲解与案例分析相结合互动提问,巩固知识点重点和难点解析:一、Hadoop生态系统的概念及其重要性重点:理解Hadoop生态系统的概念,掌握生态系统的组成及相互之间的关系。

《Hadoop大数据开发基础》教学大纲

《Hadoop大数据开发基础》教学大纲

《Hadoop大数据开发基础》教学大纲课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:48学时(其中理论26学时,实验22学时)总学分:3.0学分一、课程的性质本课程是为大数据技术类相关专业学生开设的课程。

随着时代的发展,大数据已经成为一个耳熟能详的词汇。

与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。

Hadoop作为处理大数据的分布式存储和计算框架,得到了国内外大小型企业广泛的应用。

Hadoop是一个可以搭建在廉价服务器上的分布式集群系统架构,它具有可用性高、容错性高和可扩展性高等优点。

由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。

经过十多年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛最具有代表性的大数据技术。

因此,学习Hadoop技术是从事大数据行业工作所必不可少的一步。

二、课程的任务通过本课程的学习,使学生学会搭建Hadoop完全分布式集群,掌握HDFS的原理和基础操作,掌握MapReduce原理架构、MapReduce程序的编写。

为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。

三、课程学时分配四、教学内容及学时安排1.理论教学2.实验教学五、考核方式突出学生解决实际问题的能力,加强过程性考核。

课程考核的成绩构成= 平时作业(20%)+ 课堂参与(10%)+ 期末考核(70%),期末考试建议采用开卷形式,题应包括基本概念、基本理论、程序设计、综合应用等部分,题型可采用判断题、选择、简答、应用题等方式。

六、教材与参考资料1.教材余明辉,张良均.Hadoop大数据开发基础[M].北京:人民邮电出版社.2018.2.参考资料[1]张良均,樊哲,位文超,刘名军.Hadoop与大数据挖掘[M].北京:机械工业出版社.2015.[2]张良均,樊哲,赵云龙,李成华.Hadoop大数据分析与挖掘实战[M].北京:机械工业出版社.2015.。

Hadoop大数据开发基础教案-Hadoop集群的搭建及配置教案

Hadoop大数据开发基础教案-Hadoop集群的搭建及配置教案

第二章Hadoop集群地搭建及配置初九年级数学教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类有关专业总学时:四八学时总学分:三.零学分本章学时:一零学时一、材料清单(1)《Hadoop大数据开发基础》。

(2)配套PPT。

(3)引导提问。

(4)探究问题。

(5)拓展问题。

(6)VMware虚拟机安装包。

(7)Centos 六.八镜像。

(8)Linux jdk地安装包。

(9)Hadoop 二.六.四安装包与配置指导文件。

(10)SSH连接工具。

二、教学目地与基本要求1. 教学目地本章主要目地是为了搭建Hadoop集群环境,包括虚拟机地安装配置,JDK地安装以及Hadoop完全分布式集群地搭建。

在介绍虚拟机地安装配置过程重点介绍如何设置固定IP以及虚拟机在线安装软件。

JDK地安装不仅介绍如何在Windows下安装JDK,同时也介绍在Linux下安装JDK。

搭建Hadoop完全分布式集群地过程比较复杂,也是本章地重点,在搭建Hadoop集群地过程,详细讲解如何修改core-site.xml,hadoop-env.sh,yarn-env.sh,mapred-site.xml,yarn-site.xml,slaves,hdfs-site.xml这七个文件,以及克隆虚拟机,配置SSH免密码登录,配置时间同步服务,启动/关闭集群等。

2. 基本要求(1)掌握安装配置虚拟机。

(2)掌握如何在本地与Linux虚拟机安装JDK。

(3)掌握搭建Hadoop完全分布式集群环境。

三、问题1. 引导提问引导提问需要教师根据内容与学生实际水,提出问题,启发引导学生去解决问题,提问,从而达到理解,掌握知识,发展各种能力与提高思想觉悟地目地。

(1)Hadoop集群可以在一台电脑上搭建吗?(2)Vmware Workstation地作用是什么?(3)Hadoop集群选择搭建在Linux系统比Windows系统要好吗?2. 探究问题探究问题需要教师深入钻研地基础上精心设计,提问地角度或者在引导提问地基础上,从重点,难点问题切入,行插入式提问。

Hadoop集群程序设计与开发教学进度2

Hadoop集群程序设计与开发教学进度2

学院课程教学进度计划表(20 ~20 学年第二学期)课程名称Hadoop 集群程序设计与开发授课学时64主讲(责任)教师参与教学教师授课班级 /人数专业(教研室)填表时间专业(教研室)主任教务处编印年月一、课程教学目的本课程以任务为导向的教学模式,较为全面地介绍了 Hadoop 大数据技术的相关知识。

全书共9 章,具体内容包括 Hadoop 在项目中的应用、Hadoop 基础知识、Hadoop 开发环境配置与搭建、Hadoop 分布式文件系统(HDFS)、Hadoop 的 I/O 操作、MapReduce 编程基础、Hadoop 高级编程、HBase 和 Hive。

本课程贴合企业真实需求,沿着实际项目的开发流程,在教与练中培养学生的实践能力。

全篇倾向于理论与实践结合,基本每个关键的知识点都设有 Hadoop 源码片断,通过应用练习和操作,帮助读者巩固所学的内容。

通过创造了更加符合企业大数据应用真实场景,帮助广大学生提升对大数据专业的理解能力、操作能力和执行能力。

二、教学方法及手段本课程采用理论与实践相结合的教学方法。

在理论上,通过典型案例引入概念、原理和方法。

在实践上,由教师讲解案例背景,提供简单思路。

引导学生对案例进行针对性的分析,审理和讨论,扩展学生的思维,增加学生的兴趣。

通过学生的讨论、自主实践和练习,提高学生的判断能力,专业能力和综合素质。

要求学生自主搭建 Hadoop 集群、完成章节任务、掌握基本理论和提升专业能力。

在每章的任务教学中,可适当布置联系、组织讨论、引导提出扩展的解决方案,充分调动学生的主观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的培养目的。

三、课程考核方法突出学生解决实际问题的能力,加强过程性考核。

课程考核的成绩构成= 出勤(10%)+ 平时作业与课堂练习(30%)+ 课程设计(60%)。

《Hadoop 集群程序设计与开发》教学日历周次学时授课内容作业要求备注1 4 第 1 章初识 Hadoop2 4 第 2 章 Hadoop 基础知识3 4 第 3 章 Hadoop 开发环境配置与搭建(1)独立搭建Hadoop 实验平台4 4 第 3 章 Hadoop 开发环境配置与搭建(2)独立搭建基于Hadoop 开发环境5 4 第 4 章 Hadoop 分布式文件系统(HDFS)反复操练课上实验反复操练课上实验6 4 第 5 章 Hadoop 的 I/O 操作(1)反复操练课上实验第 5 章 Hadoop 的 I/O 操作(1)7 4第 6 章 MapReduce 编程基础(1)反复操练课上实验8 4 第 6 章 MapReduce 编程基础(2)反复操练课上实验9 4 第 6 章 MapReduce 编程基础(3)反复操练课上实验10 4 第 7 章 Hadoop 高级编程(1)反复操练课上实验11 4 第 7 章 Hadoop 高级编程(2)反复操练课上实验12 4 第 8 章 HBase(1)反复操练课上实验13 4 第 8 章 HBase(2)反复操练课上实验14 4 第 9 章 Hive(1)反复操练课上实验15 4 第 9 章 Hive(2)反复操练课上实验16 4 第 9 章 Hive 荐(3)注:教材:Hadoop 集群程序设计与开发。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《Hadoop集群程序设计与开发》教学
大纲
课程名称:Hadoop集群程序设计与开发
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时
总学分:4.0学分
一、课程的性质
本课程是为大数据技术类相关专业学生开设的课程。

大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。

Hadoop开源免费、社区活跃,框架具备分布式存储和计算的核心功能,并且有企业成功的案例(如如淘宝、百度等)。

本课程首先通过企业项目发展历程介绍了大数据与云计算的概念并将Hadoop在这二个领域中的作用与地位进行阐述。

通过Hadoop源码片断与理论及实操结合的模式介绍Hadoop分布式存储框架HDFS与分布式计算框架MapReduce的用法。

对于HDFS不能很好支持小条目读取的缺陷,引入HBase 框架进行应用说明。

对于MapReduce框架对于项目专业人员的技能要求门槛高,复杂业务开发周期较长的问题引入了Hive框架进行应用说明。

Hadoop与HBase和Hive结合进行项目中大数据的存取与统计计算在企业中的运用越来越广泛,学习Hadoop框架已然是进入大数据行业所必不可少的一步。

二、课程的任务
通过本课程的学习,使学生对Hadoop框架有一个全面的理解,课程内容主要包括了Hadoop基本原理与架构、集群安装配置、HDFS应用、HDFS I/O操作、MapReduce工作原理与应用编程、HBase基本应用、Hive基本应用,关键知识点配置Hadoop源码片断和实操案例进行辅助。

涉及的知识点简要精到,实践操作性强。

三、教学内容及学时安排
四、考核方式
突出学生解决实际问题的能力,加强过程性考核。

课程考核的成绩构成= 出勤(10%)+ 平时作业与课堂练习(30%)+ 课程设计(60%)。

五、教材与参考资料
1.教材
Hadoop集群程序设计与开发
2.参考资料。

相关文档
最新文档