厦门大学林子雨编著

合集下载

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一:熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。

.本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。

.二、实验平台●操作系统:Linux(建议Ubuntu16. 04);●Hadoop版本:2. 7. 1。

.三、实验步骤(一)熟悉常用的Linux操作●cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹●ls命令:查看文件与目录(4)查看目录“/usr”下的所有文件和目录●mkdir命令:新建目录(5)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经存在哪些目录(6)进入“/tmp”目录,创建目录“a1/a2/a3/a4”●rmdir命令:删除空的目录(7)将上面创建的目录a(在“/tmp”目录下面)删除(8)删除上面创建的目录“a1/a2/a3/a4”(在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录●cp命令:复制文件或目录(9)将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下,并重命名为bashrc1(10)在目录“/tmp”下新建目录test,再把这个目录复制到“/usr”目录下●mv命令:移动文件与目录,或更名(11)将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下(12)将“/usr”目录下的test目录重命名为test2●rm命令:移除文件或目录(13)将“/usr/test2”目录下的bashrc1文件删除(14)将“/usr”目录下的test2目录删除●cat命令:查看文件内容(15)查看当前用户主文件夹下的. bashrc文件内容●tac命令:反向查看文件内容(16)反向查看当前用户主文件夹下的. bashrc文件的内容●more命令:一页一页翻动查看(17)翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令:取出前面几行(18)查看当前用户主文件夹下. bashrc文件内容前20行(19)查看当前用户主文件夹下. bashrc文件内容,后面50行不显示,只显示前面几行●tail命令:取出后面几行(20)查看当前用户主文件夹下. bashrc文件内容最后20行(21)查看当前用户主文件夹下. bashrc文件内容,并且只列出50行以后的数据●touch命令:修改文件时间或创建新文件(22)在“/tmp”目录下创建一个空文件hello,并查看文件时间(23)修改hello文件,将文件时间整为5天前●chown命令:修改文件所有者权限(24)将hello文件所有者改为root帐号,并查看属性●find命令:文件查找(25)找出主文件夹下文件名为. bashrc的文件●tar命令:压缩命令(26)在根目录“/”下新建文件夹test,然后在根目录“/”下打包成test. tar. gz(27)把上面的test. tar. gz压缩包,解压缩到“/tmp”目录●grep命令:查找字符串(28)从“~/. bashrc”文件中查找字符串'examples'●配置环境变量(29)请在“~/. bashrc”中设置,配置Java环境变量(30)查看JAVA_HOME变量的值(二)熟悉常用的Hadoop操作(31)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop”(32)接着在HDFS的目录“/user/hadoop”下,创建test文件夹,并查看文件列表(33)将Linux系统本地的“~/. bashrc”文件上传到HDFS的test文件夹中,并查看test (34)将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二:熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色;●熟练使用HDFS操作常用的Shell命令;●熟悉HDFS操作常用的Java API。

Chapter8-厦门大学-林子雨-大数据技术原理与应用-第八章-流计算

Chapter8-厦门大学-林子雨-大数据技术原理与应用-第八章-流计算

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.3 流计算概念
• 流计算:实时获取来自不同数据源的海量数据,经过实时 分析处理,获得有价值的信息
数据采集
实时分析处理
结果反馈
《大数据技术原理与应用》
流计算示意图
厦门大学计算机科学系
林子雨
ziyulin@
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.1 静态数据和流数据
• 近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新 的数据密集型应用——流数据,即数据以大量、快速、时变的流形式 持续到达
• 流数据具有如下特征: – 数据快速持续到达,潜在大小也许是无穷无尽的 – 数据来源众多,格式复杂 – 数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃, 要么被归档存储 – 注重数据的整体价值,不过分关注个别数据 – 数据顺序颠倒,或者不完整,系统无法控制将要处理据,包括用户的 搜索内容、用户的浏览记录等数据。采用流计算进行实时数据分析, 可以了解每个时刻的流量变化情况,甚至可以分析用户的实时浏览轨 迹,从而进行实时个性化内容推荐
• 但是,并不是每个应用场景都需要用到流计算的。流计算适合于需要 处理持续到达的流数据、对数据处理有较高实时性要求的场景
传统的数据处理流程示意图
• 传统的数据处理流程隐含了两个前提:
– 存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这 些数据在查询时可能已不具备时效性了
– 需要用户主动发出查询来获取结果
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@

厦门大学-林子雨-数据库系统原理2016版-第8章-数据库编程ppt

厦门大学-林子雨-数据库系统原理2016版-第8章-数据库编程ppt

2. 主变量
主语言向SQL语句提供参数 将SQL语句查询数据库的结果交主语言进一步处理

3. 游标
解决集合性操作语言与过程性操作语言的不匹配
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
一、SQL通信区
SQLCA: SQL Communication Area
厦门大学计算机系
林子雨
ziyulin@
2016版
C语言编写嵌入式SQL实例(5)
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
六、编译运行C程序 嵌入SQL的C应用程序具体到VC++6.0、 SQL Server2000下调试可分为五步: • (1)环境初始化 • (2)预编译 • (3)编译 • (4)链接 • (5)运行
负责控制程序流程

它们之间应该如何通信?
厦门大学计算机系 林子雨 ziyulin@ 2016版
《数据库系统原理》
嵌入式SQL语句与主语言之间的通信(续)
• 数据库工作单元与源程序工作单元之间的通信:

1. SQL通信区
向主语言传递SQL语句的执行状态信息 使主语言能够据此控制程序流程
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
游标(续)
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
四、建立和关闭数据库连接
建立数据库连接
EXEC SQL CONNECT TO target [AS connection-name] [USER user-name];

Chapter14厦门大学林子雨-大数据技术原理与应用-第十四章基于Hadoop的数据仓库Hive(

Chapter14厦门大学林子雨-大数据技术原理与应用-第十四章基于Hadoop的数据仓库Hive(
《大数据技术原理与应用》
温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字
第八讲 基于Hadoop的数据仓库Hive
(PPT版本号:2016年4月6日版本)
E-mail: 主页:
《大数据技术原理与应用》
厦2门01大6 学计算机科学系
林子雨
课堂内容与教材对应关系说明
《大数据技术原理与应用》
全方位、一站式服务
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
提纲
• 14.1 概述 • 14.2 Hive系统架构 • 14.3 Hive工作原理 • 14.4 Hive HA基本原理 • 14.5 Impala • 14.6 Hive编程实践
本PPT是如下教材的配套讲义: 21世纪高等教育计算机规划教材 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2015年8月第1版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-39287-9
第9讲-Hadoop架构再探讨
新增第15章,不在当前第1版教材中,将放入第2版教材
第10讲-流计算
第8章-流计算
第11讲-Spark
新增第16章,不在当前第1版教材中,将放入第2版教材
第12讲-图计算
第9章-图计算
第13讲-数据可视化
第10章-数据可视化
第14讲-大数据在互联网领域的应用 第11章-大数据在互联网领域的应用
厦门大学林子雨编著《大数据技术原理与应用》 2015年8月1日人民邮电出版社出版发行 第1版教材共包含13章内容
第一章 大数据概述 第二章 大数据处理架构Hadoop 第三章 分布式文件系统HDFS 第四章 分布式数据库HBase 第五章 NoSQL数据库 第六章 云数据库 第七章 MapReduce 第八章 流计算 第九章 图计算 第十章 数据可视化 第十一章 大数据在互联网领域的应用 第十二章 大数据在生物医学领域的应用(自学) 第十三章 大数据的其他应用(自学)

厦门大学计算机科学系

厦门大学计算机科学系

U = { Sno, Sdept, Mname, Cname, Grade }
《数据库系统原理》
厦门大学计算机科学系
林子雨
ziyulin@
2017版
6.1 问题的提出 • 数据依赖对关系模式的影响
学校数据库的语义: ⒈ 一个系有若干学生, 一个学生只属于一个系; ⒉ 一个系只有一名主任; ⒊ 一个学生可以选修多门课程, 每门课程有若干学生选修; ⒋ 每个学生所学的每门课程都有一个成绩。
– – – 是通过一个关系中属性间值的相等与否体现出来的数据间的相互关系 是现实世界属性间相互联系的抽象 是数据内在的性质
– 是语义的体现 3. 数据依赖的类型 – 函数依赖(Functional Dependency,简记为FD) – 多值依赖(Multivalued Dependency,简记为MVD)
– 针对具体问题,如何构造一个适合于它
的数据模式
– 数据库逻辑设计的工具──关系数据库的
规范化理论
《数据库系统原理》
厦门大学计算机科学系
林子雨
ziyulin@
2017版
6.1 问题的提出 一、概念回顾 二、关系模式的形式化定义
三、什么是数据依赖
四、关系模式的简化定义 五、数据依赖对关系模式影响
– 其他
厦门大学计算机科学系 林子雨 ziyulin@ 2017版 《数据库系统原理》
6.1 问题的提出 • 关系模式的简化表示

关系模式R(U, D, DOM, F)
简化为一个三元组: R(U, F)

当且仅当U上的一个关系r 满足F时,r称为关系模式 R(U, F)的一
个关系
《数据库系统原理》 厦门大学计算机科学系 林子雨 ziyulin@ 2017版

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
主讲教师和助教
主讲教师:林子雨
单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站:
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
课程特色大 数 据 Fra bibliotek 门搭建起通向“大数据知识空间”的桥梁和纽带 构建知识体系、阐明基本原理 引导初级实践、了解相关应用 为学生在大数据领域“深耕细作”奠定基础、指明方向
《大数据技术原理与应用》
厦门大学计算机科学系
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
内容提要
• 本课程系统介绍了大数据相关知识,共有13章 • 系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型 MapReduce、流计算、图计算、数据可视化以及大数据 在互联网、生物医学和物流等各个领域的应用 • 在Hadoop、HDFS、HBase和MapReduce等重要章节, 安排了入门级的实践操作,让学生更好地学习和掌握大数 据关键技术
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
篇章安排
第一篇:大数据基础篇 第二篇:大数据存储篇 第三篇:大数据处理与分析篇 第四篇:大数据应用篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
第一篇:大数据基础篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

Spark编程基础教学大纲

Spark编程基础教学大纲

Spark编程基础教学大纲课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib 等。

课程概述Spark是当前热门的大数据处理技术,本课程重点介绍Spark的技术原理与编程方法。

课程由全国高校知名大数据教师厦门大学林子雨老师主讲,采用林子雨等编著的《Spark编程基础(Scala版)》作为课程教材。

Spark支持采用Scala、Java、Python和R语言进行编程,本课程采用Scala语言编写Spark应用程序。

课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark 环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。

通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。

授课目标Spark是当前热门的大数据处理技术,本课程重点介绍Spark的技术原理与编程方法。

本课程采用Scala语言编写Spark应用程序。

课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。

通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。

课程大纲第1章大数据技术概述1.1 大数据时代1.2 大数据概念1.3 大数据的影响1.4 大数据关键技术1.5 大数据计算模式1.6 代表性大数据技术第1章大数据技术概述单元测验第2章Scala语言基础2.1 Scala语言概述2.2 Scala基础知识2.3 面向对象编程基础2.4 函数式编程基础第2章Scala语言基础单元测验第3章Spark的设计与运行原理3.1 Spark概述3.2 Spark生态系统3.3 Spark运行架构3.4 Spark的部署和应用方式第3章Spark的设计与运行原理单元测验第4章Spark环境搭建和使用方法4.1 安装Spark4.2 在spark-shell中运行代码4.3 开发Spark独立应用程序4.4 Spark集群环境搭建4.5 在集群上运行Spark应用程序第4章Spark环境搭建和使用方法单元测验第5章RDD编程5.1 RDD编程基础5.2键值对RDD5.3 数据读写5.4 综合案例第5章RDD编程单元测验第6章Spark SQL6.1 Spark SQL简介6.2 DataFrame6.3 从RDD转换得到DataFrame 6.4 使用Spark SQL读写数据库第6章Spark SQL单元测验第7章Spark Streaming7.1 流计算概述7.2 Spark Streaming7.3 DStream操作概述7.4 基本输入源7.5 高级数据源7.6 转换操作7.7 输出操作7.8 Structured Streaming第7章Spark Streaming单元测验第8章Spark MLlib8.1 Spark MLlib简介8.2 机器学习流水线8.3 特征抽取、转化和选择8.4 分类与回归第8章Spark MLlib单元测验预备知识本课程属于“进阶级”大数据课程,在学习本课程之前,建议首先学习由林子雨老师主讲的“入门级”大数据课程《大数据技术原理与应用》(点击这里在中国大学MOOC平台学习林子雨老师主讲的国家精品在线开放课程《大数据技术原理与应用》)。

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲课程概述入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。

课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。

课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。

课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

授课目标课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。

本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析:WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程(比如Java)、数据库、操作系统参考资料林子雨.大数据技术原理与应用(第3版),人民邮电出版社,2020年9月(教材官网)。

Chapter9厦门大学林子雨大数据技术原理与应用第九章图计算44

Chapter9厦门大学林子雨大数据技术原理与应用第九章图计算44

PPT文档演模板
•图9-3 一个简单的状态机图 Chapter9厦门大学林子雨大数据技术 原理与应用第九章图计算44
9.3.4实例
PPT文档演模板
•图9-4 一个求最大值的Pregel计算过程图
Chapter9厦门大学林子雨大数据技术 原理与应用第九章图计算44
9.4 Pregel的C++ API
•Pregel已经预先定义好一个基类——Vertex类:
template <typename VertexValue, typename EdgeValue, typename MessageValue>
class Vertex {
public:
virtual void Compute(MessageIterator* msgs) = 0;
9.大型 图会被划分成许多个分区,每个 分区都包含了一部分顶点以及以 其为起点的边
•一个顶点应该被分配到哪个分区 上,是由一个函数决定的,系统 默认函数为hash(ID) mod N,其 中,N为所有分区总数,ID是这个 顶点的标识符;当然,用户也可 以自己定义这个函数
PPT文档演模板
Chapter9厦门大学林子雨大数据技术 原理与应用第九章图计算44
9.3.2顶点之间的消息传递
•采用消息传递模型主要基于以下两个原因: •(1)消息传递具有足够的表达能力,没有必要使用远程读取或共享内存的方式 •(2)有助于提升系统整体性能
PPT文档演模板
•图9-2 纯消息传递模型图
• 在默认情况下,Pregel计算框架并不会开启Combiner功能,因为,通 常很难找到一种对所有顶点的Compute()函数都合适的Combiner

Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)解

Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)解

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
14.3 Hive工作原理
•14.3.1 •14.3.2 SQL语句转换成MapReduce作业的基本原理 Hive中SQL查询转换成MapReduce作业的过程
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
2.Hive在Facebook公司中的应用 •基于Oracle的数据仓库系统已经无法满足激增的业务需求 •Facebook公司开发了数据仓库工具Hive,并在企业内部进行了大量部署
Web Servers
Scribe Servers
Filers
Oracle RAC Hive on Hadoop cluster
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
14.1 概述
• • • • • • 14.1.1 14.1.2 14.1.3 14.1.4 14.1.5 14.1.6 数据仓库概念 传统数据仓库面临的挑战 Hive简介 Hive与Hadoop生态系统中其他组件的关系 Hive与传统数据库的对比分析 Hive在企业中的部署和应用
欢迎访问《大数据技术原理与应用》教材官方网站: /post/bigdata 欢迎访问“中国高校大数据课程公共服务平台”旗下 子栏目“大数据课程学生服务站”,为学生学习大数 据课程提供全方位、一站式免费服务: /post/4331/
1和2是uid的值 Map
Order uid orderid 1 1 2 101 102 103
orderid 103
2是表Order的标记位
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

厦门大学林子雨编著

厦门大学林子雨编著

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践(版本号:2016年1月18日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年一月(版权所有,请勿用于商业用途)目录1作业题目................................................................................................. 错误!未定义书签。

2作业目的................................................................................................. 错误!未定义书签。

3作业性质................................................................................................. 错误!未定义书签。

4作业考核方法......................................................................................... 错误!未定义书签。

5作业提交日期与方式............................................................................. 错误!未定义书签。

6作业准备................................................................................................. 错误!未定义书签。

6.1、Hama计算框架的安装配置 ...................................................... 错误!未定义书签。

Chapter10厦门大学林子雨-大数据技术原理与应用-第十章数据可视化精品PPT课件

Chapter10厦门大学林子雨-大数据技术原理与应用-第十章数据可视化精品PPT课件

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
10.1.3 可视化的重要作用
在大数据时代,可视化技术可以支持实现多种不同的目标: 《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
10.1.3 可视化的重要作用
(2)分析数据
数据 数据
可视化
图像
设置 可视化
感知和认知
知识
探索 用户
图10-4 用户参与的可视化分析过程
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
10.1.3 可视化的重要作用
(3)辅助理解数据
图10-5 微软“人立方”展示的人物关系图
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
10.1.3 可视化的重要作用
林子雨
10.2.1 入门级工具
• Excel是微软公司的办公软件Office家族的系列软件之一,可以进行 各种数据的处理、统计分析和辅助决策操作,已经广泛地应用于管理、 统计、金融等领域
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
10.2.2 信息图表工具
信息图表是信息、数据、知识等的视觉化表达,它利用人脑对于图 形信息相对于文字信息更容易理解的特点,更高效、直观、清晰地传递信 息,在计算机科学、数学以及统计学领域有着广泛的应用。
4. Tableau Tableau是桌面系统中最简单的商业智能工具软件,更适合企业和部门进 行日常数据报表和数据可视化分析工作。Tableau实现了数据运算与美观 的图表的完美结合,用户只要将大量数据拖放到数字“画布”上,转眼 间就能创建好各种图表。 5. 大数据魔镜 大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法 可以让用户真正理解探索分析数据,用户只要通过一个直观的拖放界面 就可创造交互式的图表和数据挖掘模型。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

厦门大学林子雨编著
《大数据技术原理与应用》教材配套上机练习
熟悉MongoDB的基本操作
(版本号:2016年3月14日版本)
主讲教师:林子雨
厦门大学数据库实验室
二零一六年三月
目录
目录
1作业题目 (1)
2作业目的 (1)
3作业性质 (1)
4作业考核方法 (1)
5作业提交日期与方式 (1)
6实验平台 (1)
7实验内容和要求 (1)
8实验报告 (2)
附录1:任课教师介绍 (2)
附录2:课程教材介绍 (2)
附录3:中国高校大数据课程公共服务平台介绍 (3)
厦门大学林子雨编著《大数据技术原理与应用》
教材配套上机练习
熟悉MongoDB的基本操作
上机练习说明
主讲教师:林子雨
E-mail: ziyulin@ 个人主页:/linziyu
1作业题目
熟悉MongoDB的基本操作。

2作业目的
1. 理解NoSQL数据库和关系型数据库的区别;
2. 熟练使用MongoDB操作常用的Shell命令;
3作业性质
课后作业,必做,作为课堂平时成绩。

4作业考核方法
提交上机实验报告,任课老师根据上机实验报告评定成绩。

5作业提交日期与方式
林子雨编著《大数据技术原理与应用》教材第五章NoSQL数据库内容结束后的下一周周六晚上9点之前提交。

6实验平台
操作系统:Linux
MongoDB版本:3.0以上版本
7实验内容和要求
1.根据上面给出的表格,用MongoDB设计student学生表格。

a)设计完后,用find指令浏览表的所有数据。

b)查询学号为95002 的所有信息。

给出截图。

c)删除姓名为liuchen的数据
d)将学号为95001的年龄改为22岁
8 实验报告
附录1:任课教师介绍
林子雨(1978-),男,博士,厦门大学计算机科学系助理教授,主要研究领域为
数据库,实时主动数据仓库,数据挖掘.
主讲课程:《大数据技术基础》
办公地点:厦门大学海韵园科研2号楼
E-mail: ziyulin@
个人主页:/linziyu
数据库实验室网站: 附录2:课程教材介绍
《大数据技术原理与应用——概念、存储、处理、分析与应用》,由厦门大学计算机科学系教师林子雨博士编著,是中国高校第一本系统介绍大数据知识的专业教材。

本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为读者在大数据领域“深耕细作”奠定基础、指明方向。

全书共有13章,系统地论述了大数据的基本概念、大数据处理架构Hadoop 、分布式文件系统HDFS 、分布式数据 库HBase 、NoSQL 数据库、云数据库、分布式并行编程模型MapReduce 、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领
域的应用。

在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。

本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。

欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》教材官方网站:/post/bigdata
扫一扫访问教材官网
附录3:中国高校大数据课程公共服务平台介绍
中国高校大数据课程公共服务平台,由中国高校首个“数字教师”的提出者和建设者——林子雨老师发起,由厦门大学数据库实验室全力打造,由厦门大学云计算与大数据研究中心、海峡云计算与大数据应用研究中心携手共建。

这是国内第一个服务于高校大数据课程建设的公共服务平台,旨在促进国内高校大数据课程体系建设,提高大数据课程教学水平,降低大数据课程学习门槛,提升学生课程学习效果。

平台服务对象涵盖高校、教师和学生。

平台为高校开设大数据课程提供全流程辅助,为教师开展教学工作提供一站式服务,为学生学习大数据课程提供全方位辅导。

平台重点打造“9个1工程”,即1本教材(含官网)、1个教师服务站、1个学生服务站、1个公益项目、1堂巡讲公开课、1个示范班级、1门在线课程、1个交流群(QQ群、微信群)和1个保障团队。

平台主页:/post/bigdata-teaching-platform/
扫一扫访问平台主页。

相关文档
最新文档