《大数据技术及应用》教学大纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、课程的性质、目的和任务
《大数据技术及应用》是计算机相关专业大学本科生及研究生选修的一门专业课程,通过本课程学习,使学生能较系统地掌握大数据的基本知识、原理和方法,初步具备大数据的应用、开发的能力,为从事大数据分析、建模、可视化奠定基础。
目的是让学生了解并掌握四个领域即大数据系统的起源及系统特征;大数据系统的架构设计及功能目标设计;大数据系统程序开发;企业大数据案例分析的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;
本课程重点让学生掌握三个方面的内容:
(1)基础篇:主要包括HDFS使用操作、MapReduce开发;、HBase数据库的开发;
(2)核心篇:YARN架构、Spark集群计算、Spark机器学习、Hive数据仓库开发;
(3)应用篇:医药大数据案例分析。
三、课程教学目标
(一)总体目标
掌握大数据分析的基本理论、技术,了解大数据分析的典型应用场景、掌握如何分析数据、解决问题、完成相关研究的方法,具有创新和独立思意识。
(二)具体目标
通过本课程的学习,学生应达到如下目标:
1.知识与技能
(1)了解大数据平台搭建的步骤,掌握大数据的存储、分析的原理;
(2)了解大数据分析的典型应用场景,例如文本挖掘、Web广告、聚类、推荐系统、Web链接分析、社交网络大数据分析、频繁项集;
(3)理解大数据分析和挖掘的基本理论技术;
(4)能获取、处理、分析和应用大数据资源。
2.过程与方法
(1)经过对大数据领域的探索,学会用大数据思维认识、分析和解决问题。
3.情感与态度
(1)通过探究活动,养成认真严谨的学习态度;
(2)通过师生、生生互动交流,体验大数据的价值和魅力。
四、教学内容及教学基本要求
第一章大数据概述
(一)教学目的
通过本章的学习掌握大数据基本概念,理解大数据的处理流程,了解大数据在行业中的应用和未来趋势。
(二)教学要求
1、解释大数据基本概念;
2、分析大数据的分析处理流程;
3、知道大数据技术应用场景和前景。
(三)教学内容
第一节大数据的概述知识要点:大数据的定义和特征。
第二节大数据分析的过程、技术及工具知识要点:大数据的采集、存储方式、分析技术、展示及应用。
第三节大数据的价值和影响知识要点:大数据在各行各业的重大价值、挑战与风险。
第四节大数据的应用知识要点:电商、医疗、教育、金融、农业、旅游、
气象大数据的应用。
第五节大数据的处理流程知识要点:大数据处理流程的4个阶段——数据采集、数据处理与集成、数据分析和数据解释。
第六节大数据成为人工智能产业的燃料知识要点:人工智能与大数据的关系。
第七节大数据技术的发展前景知识要点:大数据技术不断发展,出现更多
的应用项目。
(四)教学重点与难点
1.教学重点:大数据的基本概念。
2.教学难点:大数据分析处理的流程。
第二章大数据集群系统基础
(一)教学目的
能分析大数据集群,阐明其基本原理;在虚拟化计算机系统中安装CentOS 7操作系统,通过SecureCRT/Xshell访问CentOS 7操作系统,以三台节点机搭建大数据集群环境。
(二)教学要求
1.掌握虚拟机软件VMware Workstation 10 及以上和终端仿真程序
SecureCRT/Xshell的下载、安装和使用方法;
2.掌握VMware Workstation 10中安装CentOS 7的方法;
3.理解大数据集群相关组成和技术,部署大数据集群。
(三)教学内容
第一节大数据集群系统概述知识要点:集群概念、分类、目的。
第二节Linux操作系统知识要点:Linux概念、特点、基本使用操作。
第三节虚拟化技术知识要点:虚拟化技术概念、原理、常用软件、优
缺点。
第四节CentOS大数据集群系统的组成知识要点:CentOS概念、CentOS
集群系统拓扑图。
第五节大数据集群技术的架构知识要点:大数据集群的构架组成——
硬件资源层、OS层、基础设施管理层、文件系统层、资源管理和大数
据集群层、大数据应用层。
第六节操作实践:大数据集群的部署知识要点:集群规划、网络配置、
安全配置、时间同步、SSH登录。
(四)教学重点与难点
1.教学重点:VMwareWorkstation、CentOS 7、SecureCRT的安装和使
用。
2.教学难点:大数据集群的部署。
第三章Hadoop分布式系统
(一)教学目的
Hadoop的使用需要搭建一个完整的分布式系统,在理解Hadoop工作原理的基础上配置和运行Hadoop。
(二)教学要求
1.说明Hadoop的运行原理。
2.掌握Hadoop环境的安装与配置。
(三)教学内容
第一节Hadoop概述知识要点:Hadoop概念、发展、原理及运行机制。
第二节Hadoop相关技术及生态系统知识要点:构成Hadoop生态系统
的相关技术。
第三节操作实践:Hadoop安装与配置知识要点:JDK安装、Hadoop安
装、Hadoop运行、浏览Hadoop页面。
(四)教学重点与难点
1.教学重点:Hadoop安装过程中hadoop-env.sh、yarn-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件的配置。
2.教学难点:Hadoop安装过程中参数的配置。
第四章 HDFS分布式文件系统
(一)教学目的
Hadoop采用分布式HDFS,通过本章学习掌握HDFS的基本原理,掌握HDFS 相关的操作命令,并能够应用Java对HDFS进行编程。
(二)教学要求
1.了解HDFS的特点、架构、数据读取过程、数据写入过程。
2. 掌握HDFS操作。
(三)教学内容
第一节HDFS知识要点:HDFS设计前提和设计目标、Namenode和Datanode、文件系统的名字空间、数据复制、HDFS读写流程。
第二节HDFS操作实践知识要点:HDFSShell、HDFS JavaAPI、Eclipse 开发环境、综合实例。
(四)教学重点与难点
1.教学重点:HDFS的原理、数据读写的原理。
2.教学难点:HDFS综合实例。
第五章分布式计算系统—MapReduce及其应用实例
(一)教学目的
Hadoop采用分布式计算系统MapReduce,通过本章的学习,掌握MapReduce 的基本原理、架构以及工作机制,并且掌握MapReduce的编程操作,从而运用到实处。
(二)教学要求
1.分析MapReduce的基本原理、架构以及工作机制;
2.操作MapReduce WordCount编程和MapReduce倒排索引编程,实现其应用。
(三)教学内容
第一节MapReduce简介知识要点:MapReduce架构、原理、工作机制。
第二节MapReduce操作实践知识要点:MapReduceWordCount编程实例、MapReduce倒排索引编程实例。
(四)教学重点与难点
1.教学重点:MapReduce的基本原理、架构以及工作机制等知识内容。
2.教学难点:MapReduce WordCount编程实例;MapReduce倒排索引编程实例
第六章HBase分布式数据库应用
(一)教学目的
Hbase是一个分布式的、面向列的开源数据库,通过本章的学习了解Hbase 的构建与组件并掌握Hbase的安装部署、综合操作。
(二)教学要求
1.了解Hbase的数据模型、构架与组件。
2.实践Hbase表操作编程、HBase过滤查询编程实例。
(三)教学内容
第一节HBase简介知识要点:HBase原理、构架与组件、存储。
第二节 HBase集群部署知识要点:HBase参数配置、运行与测试。
常用命令,如创建表,对表的内容进行删除、插入内容等处理。
第三节 HBase Shell操作命令知识要点:general操作、namespace操作、DDL操作、DML操作、授权。
第四节 HBase过滤器知识要点:过滤器筛选数据。
第五节 HBase编程知识要点:HBase表操作编程、HBase过滤查询编程。
(四)教学重点与难点
1.教学重点:HBASE操作、过滤。
2.教学难点:HBASE表操作编程实例、HBase过滤查询编程实例。
第七章YARN资源分配
(一)教学目的Hadoop
采用资源分配系统YARN,通过本章的学习掌握YARN的基本原理、基本架构以及应用场景。
(二)教学要求
1.通过统一资源管理和调度平台引例,对YARN有一个大概的了解;
2.分析YARN的基本原理、架构等知识;
3.操作YARN Shell实例。
(三)教学内容
第一节统一资源管理和调度平台引例知识要点:了解统一资源管理和调度平台的作用。
第二节YARN简介知识要点:YARN架构、工作流程、优势。
第三节操作实践:YARN Shell实例知识要点:YARN Shell实例的命令使用。
(四)教学重点与难点
1.教学重点:YARN的基本原理、架构及其工作流程。
2.教学难点:YARN Shell应用
第八章Spark集群计算
(一)教学目的
通过本章的学习,能够领会Spark的基本原理、架构以及相关应用,掌握Spark的核心RDD的相关编程原理及其操作。
(二)教学要求
1.领会Spark的原理、基本架构以及RDD等知识内容;
2.实践Spark RDD 编程操作以及相关算法实例。
(三)教学内容
第一节Spark简介知识要点:Spark生态系统、架构。
第二节Spark RDD知识要点:RDDs依赖关系、作业调度、内存管理、检查点支持。
第三节Spark集群部署及应用案例知识要点:Spark集群安装,特别是相关参数的部署和设置等以及经典的Spark算法实例。
(四)教学重点与难点
1.教学重点:Spark的基本原理,框架设计以及RDD工作流程。
2.教学难点:Spark编程应用,Spark算法实现。
第九章 Spark机器学习
(一)教学目的
通过本章的学习,能够掌握Spark MLlib的数据类型和常用API,以及几个机器学习分类算法及编程应用实例。
(二)教学要求
1.了解机器学习概念与步骤
2.理解Spark MLlib数据类型与API功能;
3.实践Spark MLlib编程操作以及Spark MLlib 在分类方面的应用。
(三)教学内容
第一节机器学习概述知识要点:机器学习发展、步骤。
第二节SparkMLlib概述知识要点:数据类型和基本统计API的使用。
第三节Spark实例知识要点:经典的Spark分类算法原理讲解与实现。
(四)教学重点与难点
1.教学重点:Spark的基本原理,框架设计以及工作流程,Spark集群安装
步骤。
2.教学难点:实现Spark分类算法。
第十章 Hive数据仓库应用
(一)教学目的
Hive是基于Hadoop的一个数据仓库工具,通过本章的学习掌握Hive集群的安装与部署,掌握Hive语句的操作及对数据的处理。
(二)教学要求
1、解释Hive的工作原理及构架,进行Hive的安装配置。
2、应用Hive的数据类型及存储格式。
3、操作处理Hive数据。
(三)教学内容
第一节 Hive简介知识要点:Hive工作原理与构架。
第二节 Hive集群安装与配置知识要点:Hive集群安装与部署。
第三节数据类型和文件格式知识要点:Hive的数据类型及文件存储格式。
第四节 Hive数据定义与数据操作知识要点:定义、操作Hive数据,管理数据表等。
第五节 Hive数据查询知识要点:查询操作。
第六节 Hive编程知识要点:Hive JDBC函数与实例编程
(四)教学重点与难点
1.教学重点:Hive原理及数据处理。
2.教学难点:编写Hive实例,如表、数据的命令应用。
第十一章ZooKeeper协调服务
(一)教学目的
ZooKeeper是Hadoop的分布式协调服务,通过本章的学习了解ZooKeeper架构,掌握ZooKeeper集群的安装与部署,熟悉ZooKeeper的特性。
(二)教学要求
1.了解ZooKeeper的工作原理与应用。
2. 安装与部署ZooKeeper集群。
3. 运用ZooKeeper进行操作。
(三)教学内容
第一节 ZooKeeper简介知识要点:ZooKeeper工作原理。
第二节 ZooKeeper集群部署知识要点:ZooKeeper集群的安装配置。
第三节 ZooKeeper基本命令知识要点:ZooKeeper基本操作。
第四节 ZooKeeper应用知识要点:ZooKeeper在Hadoop、Spark、Hive等开源系统中的应用。
第五节 ZooKeeper编程知识要点:ZooKeeper读写操作、集群状态监控。
(四)教学重点与难点
1.教学重点:ZooKeeper的特性及其应用。
2.教学难点:ZooKeeper集群的操作编程。
第十二章医药大数据案例分析
(一)教学目的
根据大数据系统的需求分析,在Hadoop框架下,基于Hbase数据库,综合应用各项关键技术完成大数据系统的功能。
(二)教学要求
能在Hadoop框架下,综合大数据应用系统编程的原理、技术,呈现既定的运行结果。
(三)教学内容
第一节项目概述知识要点:医药电商大数据分析平台的形成背景。
第二节功能需求知识要点:流量分析、经营状况分析、大数据可视化系统。
第三节软件关键技术知识要点:医药电商大数据分析平台的关键技术。
第四节效果展示知识要点:各类分析效果图。
第五节系统构架设计知识要点:系统的组成、协作方式、网络拓扑、建设方案。
第六节数据存储设计知识要点:设计流量数据表、订单数据表、会员评价表。
第七节数据分析知识要点:采集、分析数据。
第八节数据展示知识要点:结果数据展示代码。
(四)教学重点与难点
1.教学重点:大数据系统的需求分析、Hbase数据库的建立、程序的设计与实现。
2.教学难点:程序的设计与实现。
六、教学手段与方法
1.教学手段:本课程主要采用多媒体、课件演示、实验实训等教学手段进行教学。
2.教学方法:本课程主要采用任务驱动、案例教学、讲授与讨论相结合等教学方法进行教学。
课程内容主要按大数据处理任务进行组织,因此可以按解决相应任务所需的方法技术进行教学组织和实践。
在课程的授课过程中,对于学生难以理解的方法技术都给与案例分析,完整展现相应方法技术是如何实施和应用的。
另外,课程教学过程中,可以围绕相关大数据处理的任务组织学生进行讨论,培养学生主动学习、解决问题的能力。
七、考核方式、考核内容及成绩评定
1.考核评价方式
1)过程性考核评价方式。
本课程的过程性考核评价方式主要包括:考勤、作业、讨论、随堂提问等。
2)结果性考核评价方式。
本课程的结果性考核评价方式主要是期末考查(开卷)。
根据各章知识点,设计期末考查试卷。
2.期末考核内容
期末采取开卷考查的方式,时间为2小时(120分钟),以卷面考查成绩为依据。
考查内容要全面符合大纲要求,同时要做到体现重点,难度适中,题量适度,难度与题量应按教学要求来安排,对大纲未作教学要求的内容不纳入考试范围。
期终考查命题设计:识记部分约占20%;理解运用部分约占60%,批判与创新占20%。
具体如下:
3.成绩评定
期末总评成绩=平时成绩(占总评成绩的20%)+实验成绩(30%)+期终成绩(占总评成绩的50%)
八、课程教材
《大数据技术与应用》清华大学出版社肖政宏等主编。