(林子雨-2017新版-大数据技术原理与应用)厦门大学本科课程教学大纲

合集下载

大数据技术原理与应用-厦门大学数据库试验室

大数据技术原理与应用-厦门大学数据库试验室
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
3.1.1 Spark简介
Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过 Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算 、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也 可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
3.1 Spark概述
3.1.1 Spark简介 3.1.2 Scala简介 3.1.3 Spark与Hadoop的比较
《大数据处理技术Spark》
厦门大学计算机科学系
林子雨
ziyulin@
存储在 内存中 读取 内存 存储在 内存中
读询 1
存储在 内存中
结果 1
查询 2
结果 2
输入
...
图16-2 Hadoop与Spark的执行流程对比
林子雨 ziyulin@
(b) Spark执行流程
《大数据处理技术Spark》
厦门大学计算机科学系
3.1.3 Spark与Hadoop的对比
《大数据处理技术 厦门大学计算机科学系 Spark》
厦门大学计算机科学系
林子雨
2017ziyulin@ 年版
提纲
• • • • 3.1 Spark概述 3.2 Spark生态系统 3.3 Spark运行架构 3.4 Spark的部署和应用方式

厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践(版本号:2016年1月18日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年一月(版权所有,请勿用于商业用途)目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6作业准备 (1)6.1、Hama计算框架的安装配置 (1)6.2、用Hama计算模型实现寻找最大独立集问题算法 (3)7作业内容 (9)8实验报告 (9)附录1:任课教师介绍 (9)附录2:课程教材介绍 (10)《大数据技术原理与应用》图计算框架Hama基础操作实践上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目图计算框架Hama基础操作实践。

2作业目的旨在让学生了解Pregel图计算模型,并学会用Pregel的开源实现Hama实现一些基本操作。

3作业性质课后作业,必做,作为课堂平时成绩。

4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。

5作业提交日期与方式图计算章节内容结束后的下一周周六晚上9点之前提交。

6作业准备请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》(官网:/post/bigdata/),了解图计算的概念与意义。

6.1、Hama计算框架的安装配置A pache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。

简单说,Hama是在HDFS 上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。

(1). 安装好合适版本的jdk和hadoop,并且进行测试,保证他们能用。

(2). 下载hama安装文件,从/downloads.html处下载合适的版本,我当时下的是0.6.4版本的。

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一:熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。

.本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。

.二、实验平台●操作系统:Linux(建议Ubuntu16. 04);●Hadoop版本:2. 7. 1。

.三、实验步骤(一)熟悉常用的Linux操作●cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹●ls命令:查看文件与目录(4)查看目录“/usr”下的所有文件和目录●mkdir命令:新建目录(5)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经存在哪些目录(6)进入“/tmp”目录,创建目录“a1/a2/a3/a4”●rmdir命令:删除空的目录(7)将上面创建的目录a(在“/tmp”目录下面)删除(8)删除上面创建的目录“a1/a2/a3/a4”(在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录●cp命令:复制文件或目录(9)将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下,并重命名为bashrc1(10)在目录“/tmp”下新建目录test,再把这个目录复制到“/usr”目录下●mv命令:移动文件与目录,或更名(11)将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下(12)将“/usr”目录下的test目录重命名为test2●rm命令:移除文件或目录(13)将“/usr/test2”目录下的bashrc1文件删除(14)将“/usr”目录下的test2目录删除●cat命令:查看文件内容(15)查看当前用户主文件夹下的. bashrc文件内容●tac命令:反向查看文件内容(16)反向查看当前用户主文件夹下的. bashrc文件的内容●more命令:一页一页翻动查看(17)翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令:取出前面几行(18)查看当前用户主文件夹下. bashrc文件内容前20行(19)查看当前用户主文件夹下. bashrc文件内容,后面50行不显示,只显示前面几行●tail命令:取出后面几行(20)查看当前用户主文件夹下. bashrc文件内容最后20行(21)查看当前用户主文件夹下. bashrc文件内容,并且只列出50行以后的数据●touch命令:修改文件时间或创建新文件(22)在“/tmp”目录下创建一个空文件hello,并查看文件时间(23)修改hello文件,将文件时间整为5天前●chown命令:修改文件所有者权限(24)将hello文件所有者改为root帐号,并查看属性●find命令:文件查找(25)找出主文件夹下文件名为. bashrc的文件●tar命令:压缩命令(26)在根目录“/”下新建文件夹test,然后在根目录“/”下打包成test. tar. gz(27)把上面的test. tar. gz压缩包,解压缩到“/tmp”目录●grep命令:查找字符串(28)从“~/. bashrc”文件中查找字符串'examples'●配置环境变量(29)请在“~/. bashrc”中设置,配置Java环境变量(30)查看JAVA_HOME变量的值(二)熟悉常用的Hadoop操作(31)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop”(32)接着在HDFS的目录“/user/hadoop”下,创建test文件夹,并查看文件列表(33)将Linux系统本地的“~/. bashrc”文件上传到HDFS的test文件夹中,并查看test (34)将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二:熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色;●熟练使用HDFS操作常用的Shell命令;●熟悉HDFS操作常用的Java API。

林子雨编著《大数据导论》教案

林子雨编著《大数据导论》教案

林子雨编著《大数据导论》教案篇 1一、教学目标1. 让学生深入理解大数据的基本概念和原理,包括大数据的定义、特点、价值等。

2. 帮助学生熟练掌握大数据处理的基本技术和工具,如Hadoop、Spark 等。

3. 培养学生运用大数据思维解决实际问题的能力。

二、教学重点与难点1. 教学重点(1)大数据的核心概念和关键技术。

(2)实际案例中的大数据应用与分析。

2. 教学难点(1)如何让学生理解复杂的大数据技术原理。

(2)引导学生将大数据知识应用到实际项目中。

三、教学方法1. 讲授法:系统讲解大数据的理论知识。

2. 案例分析法:通过具体案例分析,加深学生对大数据应用的理解。

3. 实践操作法:让学生亲自动手操作大数据工具,提高实践能力。

4. 小组讨论法:组织学生进行小组讨论,促进学生之间的思想交流。

四、教学过程1. 课程导入(约15 分钟)-先向同学们提问:“大家在生活中有没有听说过大数据呀?能举个例子吗?”引导同学们思考并回答。

-接着展示一些大数据在生活中应用的场景图片,比如电商推荐、智能交通等,激发学生的兴趣。

然后说:“同学们,今天咱们就一起走进大数据的世界!”2. 背景介绍(约10 分钟)-讲解大数据产生的背景,随着信息技术的飞速发展,数据量呈爆炸式增长,传统的数据处理方式已经无法满足需求,从而引出大数据的概念。

- “同学们,大数据时代的到来,给我们的生活和工作带来了巨大的变革!”3. 作者介绍(约5 分钟)-简单介绍林子雨老师在大数据领域的研究成果和贡献,增强学生对教材的信任感。

- “林子雨老师在大数据方面可是专家哦,咱们要好好学习他编著的这本书!”4. 课文朗读(约10 分钟)-请一位同学朗读教材中的一段内容,其他同学认真倾听。

-朗读结束后,表扬这位同学:“读得真不错,声音洪亮又清晰!”5. 问题思考(约15 分钟)-提出一些问题,如“大数据与传统数据处理方式有什么区别?”“大数据的价值体现在哪些方面?”让同学们分组讨论。

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。

本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。

本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。

(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。

通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。

这些先修课程为本课程的讲授打下了基础。

本课程的后续课程包括智能机器人、模式识别等。

通过本课程可为后续课程提供理论与方法实践基础。

三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。

使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。

4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。

(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。

《大数据导论》,林子雨编著 教学大纲

《大数据导论》,林子雨编著 教学大纲

《大数据导论》,林子雨编著教学大纲本课程是一门介绍大数据概念、技术和应用的导论课程。

学生将在此课程中了解大数据的定义、特点、处理方法、分析技术和应用场景。

通过本课程的学习,学生将掌握大数据的基本概念和技术知识,以及了解大数据在不同领域的应用和发展趋势。

二、课程教学目标本课程旨在帮助学生:1.理解大数据的概念和特点;2.掌握大数据的处理方法和分析技术;3.了解大数据在不同领域的应用场景;4.了解大数据的发展趋势和未来发展方向。

三、课程内容本课程的主要内容包括以下几个方面:1.大数据概念和特点;2.大数据处理方法和技术;3.大数据分析技术和应用;4.大数据在不同领域的应用场景;5.大数据的发展趋势和未来发展方向。

四、教学方法本课程采用多种教学方法,包括讲授、互动讨论、案例分析、课程设计等,以帮助学生深入理解大数据概念、技术和应用。

五、考核方式本课程的考核方式主要包括平时成绩和期末考试成绩。

平时成绩包括课堂表现、作业完成情况等;期末考试成绩占总成绩的70%左右。

六、教材参考书目1.《大数据时代》雷颐著2.《大数据的互联世界》马化腾著3.《大数据技术与应用》吴军著4.《大数据导论》林子雨编著5.《大数据分析与挖掘技术》刘洋著七、教学进度安排第一周:课程介绍、大数据概念和特点第二周:大数据处理方法和技术第三周:大数据分析技术和应用第四周:大数据在不同领域的应用场景第五周:大数据的发展趋势和未来发展方向第六周:总结与复习八、备注本课程的教学内容和进度安排仅供参考,实际教学中可根据学生情况进行适当调整。

厦门大学-林子雨-大数据技术原理与应用-第11章大数据在互联网领域的应用-Python安装与基本使用

厦门大学-林子雨-大数据技术原理与应用-第11章大数据在互联网领域的应用-Python安装与基本使用

厦门大学计算机系研究生课程《大数据技术原理与应用》Python的安装与基本使用
Python的安装与基本使用
厦门大学计算机科学系林子雨
E-mail: ziyulin@ 个人主页:/linziyu
一、Windows上的安装与使用
访问官网下载地址:https:///download/releases/2.7.6/,请选择32位安装程序https:///ftp/python/2.7.6/python-2.7.6.msi。

下载并打开安装程序,一路点next,默认安装即可。

安装完成后,我们可以使用其提供的IDE来编写、执行代码。

在开始菜单里的“Python 2.7”下,打开IDLE (Python GUI),点击File->New File,输入如下两行代码:
# coding: utf-8
print "hello world"
接着点击File->Save,保存为hello.py,再点击Run->Run Module,即可看到运行结果。

二、Linux上的安装与使用
Linux系统默认安装了Python,可以直接使用。

通过vim或者文本编辑器写好代码后,在终端中执行python+代码文件位置即可,如假设代码文件位置为: /home/user/hello.py,则打开终端,执行如下代码就可得到运行结果:
cd /home/user
python hello.py
主讲教师:林子雨/linziyu 第1页。

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
主讲教师和助教
主讲教师:林子雨
单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站:
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
课程特色大 数 据 Fra bibliotek 门搭建起通向“大数据知识空间”的桥梁和纽带 构建知识体系、阐明基本原理 引导初级实践、了解相关应用 为学生在大数据领域“深耕细作”奠定基础、指明方向
《大数据技术原理与应用》
厦门大学计算机科学系
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
内容提要
• 本课程系统介绍了大数据相关知识,共有13章 • 系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型 MapReduce、流计算、图计算、数据可视化以及大数据 在互联网、生物医学和物流等各个领域的应用 • 在Hadoop、HDFS、HBase和MapReduce等重要章节, 安排了入门级的实践操作,让学生更好地学习和掌握大数 据关键技术
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
篇章安排
第一篇:大数据基础篇 第二篇:大数据存储篇 第三篇:大数据处理与分析篇 第四篇:大数据应用篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
第一篇:大数据基础篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

大数据技术原理与应用 课程教学大纲

大数据技术原理与应用 课程教学大纲

大数据技术原理与应用课程教学大纲课程名称:大数据技术原理与应用课程类型:专业选修课课程学时:60学时课程教学目标:本课程旨在介绍大数据技术的原理和应用,使学生了解大数据技术的基本概念、关键技术和应用场景,并具备基本的大数据技术分析和应用能力。

通过本课程的学习,学生将能够掌握大数据技术的基本原理、企业级大数据技术体系结构、大数据分析方法和工具、大数据应用案例等知识,为学生未来从事大数据相关职业提供良好的基础。

授课内容和教学安排:第一章:大数据技术概述1.1 大数据技术的定义和特点1.2 大数据对社会和企业的影响1.3 大数据技术的发展历程1.4 大数据技术体系结构和组成部分第二章:大数据存储和处理技术2.1 大数据存储技术概述2.2 关系型数据库和NoSQL数据库2.3 Hadoop分布式文件系统2.4 大数据处理技术概述2.5 大数据处理框架:Hadoop MapReduce第三章:大数据挖掘和分析技术3.1 数据挖掘概述3.2 数据预处理和特征选择3.3 分类和聚类算法3.4 关联规则挖掘和推荐系统3.5 大数据分析工具概述:Spark、Flink等第四章:大数据应用实践4.1 电商大数据分析实践4.2 社交媒体数据分析实践4.3 金融数据分析实践4.4 健康医疗数据分析实践第五章:大数据技术发展趋势和展望5.1 大数据技术的发展趋势5.2 大数据技术在人工智能和物联网中的应用5.3 大数据伦理和安全问题教学方法:本课程采用多种教学方法,包括理论讲解、实例分析、案例研究和实践操作等。

通过理论讲解,学生将了解大数据技术的基本概念和原理;通过实例分析,学生将掌握大数据技术在实际场景中的应用方法;通过案例研究,学生将学会分析和解决大数据相关问题;通过实践操作,学生将运用所学知识完成大数据分析任务。

同时,教师将引导学生参与小组讨论和项目实践,促进学生的合作能力和创新思维。

评估方式:本课程的评估方式包括平时成绩和期末考试成绩两部分。

厦门大学林子雨编著

厦门大学林子雨编著

厦门大学林子雨编著《大数据技术原理与应用》教材配套机房上机实验指南实验3第四章熟悉常用的HBase操作(版本号:2016年5月14日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年五月目录目录1实验目的 (1)2实验平台 (1)3实验内容和要求 (1)4实验报告 (2)附录1:任课教师介绍 (3)附录2:课程教材介绍 (3)附录3:中国高校大数据课程公共服务平台介绍 (4)厦门大学林子雨编著《大数据技术原理与应用》教材配套机房上机实验指南实验3第四章熟悉常用的HBase操作主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1实验目的1. 理解HBase在Hadoop体系结构中的角色;2. 熟练使用HBase操作常用的Shell命令;3. 熟悉HBase操作常用的Java API。

2实验平台操作系统:LinuxHadoop版本:2.6.0或以上版本HBase版本:1.1.2或以上版本JDK版本:1.6或以上版本Java IDE:Eclipse3实验内容和要求1.编程实现以下指定功能,并用Hadoop提供的HBase Shell命令完成相同任务:(1)列出HBase所有的表的相关信息,例如表名;(2)在终端打印出指定的表的所有记录数据;(3)向已经创建好的表添加和删除指定的列族或列;(4)清空指定的表的所有记录数据;(5)统计表的行数。

2.现有以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)同时,请编程完成以下指定功能:(1)createTable(String tableName, String[] fields)创建表,参数tableName为表的名称,字符串数组fields为存储记录各个域名称的数组。

要求当HBase已经存在名为tableName的表的时候,先删除原有的表,然后再创建新的表。

(2)addRecord(String tableName, String row, String[] fields, String[] values)向表tableName、行row(用S_Name表示)和字符串数组files指定的单元格中添加对应的数据values。

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲课程概述入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。

课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。

课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。

课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

授课目标课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。

本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析:WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程(比如Java)、数据库、操作系统参考资料林子雨.大数据技术原理与应用(第3版),人民邮电出版社,2020年9月(教材官网)。

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

厦门大学本科课程教学大纲
XMU Un dergraduate Course Syllabus
厦门大学本科课程大纲填写说明(Notes)
1. 须同时填写课程大纲中文版和英文版。

2. 课程名称必须准确、规范。

3. 课程代码:非任课教师填写。

该课程在教务系统生成后,由学院代为填写。

4. 授课对象填写专业。

5. 适用年级填写可修读本课程的时间,如本科三年级第一学期。

6. 课程类型指公共基本课程、通识教育课程、学科通修课程、专业(或专业方向)课程、
其他教学环节。

7. 课程课型指理论课、实验课、技能课、实践课。

8. 总学时二授课学时+讨论学时+实验学时+上机学时+其他学时
9. 先修课程是与该课程具有严格的前后逻辑关系,非先修课程则无法学习该课程。

10. 培养目标不少于150字。

11. 考核方式包括成绩登记方式、成绩组成、考核标准等。

成绩登记方式包括百分制、
通过/不通过等。

成绩组成指各种考核方式占比。

考核标准指衡量各项考评指标得分的基准。

12. 选用教材和主要参考书要求注明作者、书目、出版社、出版年份。

例如,“丹利维
尔:《民主、官僚制组织和公共选择》,中国青年出版社,2001年。


13. 其它信息指课堂规范要求等,如课上禁止使用手机、缺勤要求等。

14. 课程英文类别代号:。

大数据技术原理与应用

大数据技术原理与应用

图10-9 2008年世界各国GDP数据
10.2.3 地图工具
• 1. Google Fusion Tables Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图。该 工具可以让数据表呈现为图表、图形和地图,从而帮助发现一些隐藏在数 据背后的模式和趋势。 • 2. Modest Maps Modest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫 星地图的API,只有10KB大小,是目前最小的可用地图库,它也是一个开 源项目,有强大的社区支持,是在网站中整合地图应用的理想选择。 • 3. Leaflet Leaflet是一个小型化的地图框架,通过小型化和轻量化来满足移动网页的 需要。
(3)辅助理解数据
图10-5 微软“人立方”展示的人物关系图
10.1.3 可视化的重要作用
(4)增强数据吸引力
图10-6 一个可视化的图表新闻实例
10.2 可视化工具
10.2.1 入门级工具 10.2.2 信息图表工具 10.2.3 地图工具 10.2.4 时间线工具 10.2.5 高级分析工具
10.1.2 可视化的发展历程
• 20世纪50年代,随着计算机的出现和计算机图形学的发展,人们可 以利用计算机技术在电脑屏幕上绘制出各种图形图表,可视化技术开 启了全新的发展阶段。最初,可视化技术被大量应用于统计学领域, 用来绘制统计图表,比如圆环图、柱状图和饼图、直方图、时间序列 图、等高线图、散点图等,后来,又逐步应用于地理信息系统、数据 挖掘分析、商务智能工具等,有效促进了人类对不同类型数据的分析 与理解 • 随着大数据时代的到来,每时每刻都有海量数据在不断生成,需要 我们对数据进行及时、全面、快速、准确的分析,呈现数据背后的价 值,这就更需要可视化技术协助我们更好地理解和分析数据,可视化 成为大数据分析最后的一环和对用户而言最重要的一环

大数据技术原理与应用

大数据技术原理与应用
大数据技术原理与应用课程是厦门大学提供的一门慕课,系统梳理了大数据相关技术。课程首先介绍了大数据的概述,帮助学生建立起对大数据的初步认识。接着,详细讲解了大数据处理架构Hadoop,以及其中的分布式文件系统HDFS和分布式术。在数据处理方面,课程深入探讨了MapReduce编程模型和Hadoop架构的优化。同时,也介绍了数据仓库Hive、快速处理框架Spark,以及流计算和图计算等前沿技术。最后,课程还探讨了大数据在不同领域的应用场景和前景。通过学习本课程,学生将能够全面理解大数据技术的基本原理和架构,为进一步深入学习和实践应用打下坚实的基础。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

厦门大学本科课程教学大纲
XMU Undergraduate Course Syllabus
厦门大学本科课程大纲填写说明(Notes)
1.须同时填写课程大纲中文版和英文版。

2.课程名称必须准确、规范。

3.课程代码:非任课教师填写。

该课程在教务系统生成后,由学院代为填写。

4.授课对象填写专业。

5.适用年级填写可修读本课程的时间,如本科三年级第一学期。

6.课程类型指公共基本课程、通识教育课程、学科通修课程、专业(或专业方向)课程、其他教学环节。

7.课程课型指理论课、实验课、技能课、实践课。

8.总学时=授课学时+讨论学时+实验学时+上机学时+其他学时
9.先修课程是与该课程具有严格的前后逻辑关系,非先修课程则无法学习该课程。

10.培养目标不少于150字。

11.考核方式包括成绩登记方式、成绩组成、考核标准等。

成绩登记方式包括百分制、
通过/不通过等。

成绩组成指各种考核方式占比。

考核标准指衡量各项考评指标得分的基准。

12.选用教材和主要参考书要求注明作者、书目、出版社、出版年份。

例如,“丹利维
尔:《民主、官僚制组织和公共选择》,中国青年出版社,2001年。


13.其它信息指课堂规范要求等,如课上禁止使用手机、缺勤要求等。

14.课程英文类别代号:。

相关文档
最新文档