厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

合集下载

厦门大学林子雨编著

厦门大学林子雨编著

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习熟悉MongoDB的基本操作(版本号:2016年3月14日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年三月目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6实验平台 (1)7实验内容和要求 (1)8实验报告 (2)附录1:任课教师介绍 (2)附录2:课程教材介绍 (2)附录3:中国高校大数据课程公共服务平台介绍 (3)厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习熟悉MongoDB的基本操作上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目熟悉MongoDB的基本操作。

2作业目的1. 理解NoSQL数据库和关系型数据库的区别;2. 熟练使用MongoDB操作常用的Shell命令;3作业性质课后作业,必做,作为课堂平时成绩。

4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。

5作业提交日期与方式林子雨编著《大数据技术原理与应用》教材第五章NoSQL数据库内容结束后的下一周周六晚上9点之前提交。

6实验平台操作系统:LinuxMongoDB版本:3.0以上版本7实验内容和要求1.根据上面给出的表格,用MongoDB设计student学生表格。

a)设计完后,用find指令浏览表的所有数据。

b)查询学号为95002 的所有信息。

给出截图。

c)删除姓名为liuchen的数据d)将学号为95001的年龄改为22岁8 实验报告附录1:任课教师介绍林子雨(1978-),男,博士,厦门大学计算机科学系助理教授,主要研究领域为数据库,实时主动数据仓库,数据挖掘.主讲课程:《大数据技术基础》办公地点:厦门大学海韵园科研2号楼E-mail: ziyulin@个人主页:/linziyu数据库实验室网站: 附录2:课程教材介绍《大数据技术原理与应用——概念、存储、处理、分析与应用》,由厦门大学计算机科学系教师林子雨博士编著,是中国高校第一本系统介绍大数据知识的专业教材。

(完整版)大数据技术原理与应用林子雨版课后习题答案

(完整版)大数据技术原理与应用林子雨版课后习题答案

第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。

2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

《大数据技术原理与应用》林子雨 课后简答题答案

《大数据技术原理与应用》林子雨 课后简答题答案

《大数据技术原理与应用》林子雨课后简答题答案第一章大数据概述1. 试述大数据的四个基本特征。

数据量大:人类进入信息社会后,数据以自然方式增长,数据每两年就会增加一倍多。

数据类型繁多:大数据的数据类型非常丰富,包括结构化数据和非结构化数据,如邮件、音频、视频等,给数据处理和分析技术提出了新的挑战。

处理速度快:由于很多应用都需要基于快速生成的数据给出实时分析结果,因此新兴的大数据分析技术通常采用集群处理和独特的内部设计。

价值密度低:有价值的数据分散在海量数据中。

2. 举例说明大数据的关键技术。

大数据技术层面功能数据采集与预处理利用ETL 工具将分布在异构数据源中的数据抽到临时中间层后进行清洗、转换和集成后加载到数据仓库中,成为联机分析处理、数据挖掘的基础,也可以利用日志采集工具(如 Flume、Kafka 等)将实时采集的数据作为流计算系统的输入,进行实时处理分析。

数据存储和管理利用分布式文件系统、NoSQL 数据库等实现对数据的存储和管理。

数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析,并进行可视化呈现。

数据安全和隐私保护构建数据安全体系和隐私数据保护体系。

3. 详细阐述大数据、云计算和物联网三者之间的区别与联系区别联系大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算旨在整合和优化各种 IT 资源并通过网络以服务的方式,廉价地提供给用户;物联网的发展目标是实现“ 物物相连”,应用创新是物联网的核心。

从整体上看,大数据、云计算和物联网这三者是相辅相成的。

大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce 提供了数据分析能力。

没有这些云计算技术作为支撑,大数据分析就无从谈起。

物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一:熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。

.本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。

.二、实验平台●操作系统:Linux(建议Ubuntu16. 04);●Hadoop版本:2. 7. 1。

.三、实验步骤(一)熟悉常用的Linux操作●cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹●ls命令:查看文件与目录(4)查看目录“/usr”下的所有文件和目录●mkdir命令:新建目录(5)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经存在哪些目录(6)进入“/tmp”目录,创建目录“a1/a2/a3/a4”●rmdir命令:删除空的目录(7)将上面创建的目录a(在“/tmp”目录下面)删除(8)删除上面创建的目录“a1/a2/a3/a4”(在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录●cp命令:复制文件或目录(9)将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下,并重命名为bashrc1(10)在目录“/tmp”下新建目录test,再把这个目录复制到“/usr”目录下●mv命令:移动文件与目录,或更名(11)将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下(12)将“/usr”目录下的test目录重命名为test2●rm命令:移除文件或目录(13)将“/usr/test2”目录下的bashrc1文件删除(14)将“/usr”目录下的test2目录删除●cat命令:查看文件内容(15)查看当前用户主文件夹下的. bashrc文件内容●tac命令:反向查看文件内容(16)反向查看当前用户主文件夹下的. bashrc文件的内容●more命令:一页一页翻动查看(17)翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令:取出前面几行(18)查看当前用户主文件夹下. bashrc文件内容前20行(19)查看当前用户主文件夹下. bashrc文件内容,后面50行不显示,只显示前面几行●tail命令:取出后面几行(20)查看当前用户主文件夹下. bashrc文件内容最后20行(21)查看当前用户主文件夹下. bashrc文件内容,并且只列出50行以后的数据●touch命令:修改文件时间或创建新文件(22)在“/tmp”目录下创建一个空文件hello,并查看文件时间(23)修改hello文件,将文件时间整为5天前●chown命令:修改文件所有者权限(24)将hello文件所有者改为root帐号,并查看属性●find命令:文件查找(25)找出主文件夹下文件名为. bashrc的文件●tar命令:压缩命令(26)在根目录“/”下新建文件夹test,然后在根目录“/”下打包成test. tar. gz(27)把上面的test. tar. gz压缩包,解压缩到“/tmp”目录●grep命令:查找字符串(28)从“~/. bashrc”文件中查找字符串'examples'●配置环境变量(29)请在“~/. bashrc”中设置,配置Java环境变量(30)查看JAVA_HOME变量的值(二)熟悉常用的Hadoop操作(31)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop”(32)接着在HDFS的目录“/user/hadoop”下,创建test文件夹,并查看文件列表(33)将Linux系统本地的“~/. bashrc”文件上传到HDFS的test文件夹中,并查看test (34)将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二:熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色;●熟练使用HDFS操作常用的Shell命令;●熟悉HDFS操作常用的Java API。

大大数据技术原理与指导应用 林子雨版 课后习题问题详解

大大数据技术原理与指导应用 林子雨版 课后习题问题详解

第一章1.试述信息技术发展史上的3次信息化浪潮及具体容。

2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

厦门大学本科课程教学大纲
XMU Undergraduate Course Syllabus
厦门大学本科课程大纲填写说明(Notes)
1.须同时填写课程大纲中文版和英文版。

2.课程名称必须准确、规范。

3.课程代码:非任课教师填写。

该课程在教务系统生成后,由学院代为填写。

4.授课对象填写专业。

5.适用年级填写可修读本课程的时间,如本科三年级第一学期。

6.课程类型指公共基本课程、通识教育课程、学科通修课程、专业(或专业方向)课程、其他教学环节。

7.课程课型指理论课、实验课、技能课、实践课。

8.总学时=授课学时+讨论学时+实验学时+上机学时+其他学时
9.先修课程是与该课程具有严格的前后逻辑关系,非先修课程则无法学习该课程。

10.培养目标不少于150字。

11.考核方式包括成绩登记方式、成绩组成、考核标准等。

成绩登记方式包括百分制、
通过/不通过等。

成绩组成指各种考核方式占比。

考核标准指衡量各项考评指标得分的基准。

12.选用教材和主要参考书要求注明作者、书目、出版社、出版年份。

例如,“丹利维
尔:《民主、官僚制组织和公共选择》,中国青年出版社,2001年。


13.其它信息指课堂规范要求等,如课上禁止使用手机、缺勤要求等。

14.课程英文类别代号:。

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
主讲教师和助教
主讲教师:林子雨
单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站:
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
课程特色大 数 据 Fra bibliotek 门搭建起通向“大数据知识空间”的桥梁和纽带 构建知识体系、阐明基本原理 引导初级实践、了解相关应用 为学生在大数据领域“深耕细作”奠定基础、指明方向
《大数据技术原理与应用》
厦门大学计算机科学系
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
内容提要
• 本课程系统介绍了大数据相关知识,共有13章 • 系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型 MapReduce、流计算、图计算、数据可视化以及大数据 在互联网、生物医学和物流等各个领域的应用 • 在Hadoop、HDFS、HBase和MapReduce等重要章节, 安排了入门级的实践操作,让学生更好地学习和掌握大数 据关键技术
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
篇章安排
第一篇:大数据基础篇 第二篇:大数据存储篇 第三篇:大数据处理与分析篇 第四篇:大数据应用篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
第一篇:大数据基础篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

厦门大学林子雨编着

厦门大学林子雨编着

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习熟悉Hive的基本操作(版本号:2016年4月15日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年四月目录1作业题目................................................................................................. 错误!未定义书签。

2作业目的................................................................................................. 错误!未定义书签。

3作业性质................................................................................................. 错误!未定义书签。

4作业考核方法......................................................................................... 错误!未定义书签。

5作业提交日期与方式............................................................................. 错误!未定义书签。

6实验平台................................................................................................. 错误!未定义书签。

7实验内容和要求..................................................................................... 错误!未定义书签。

Chapter10-厦门大学-林子雨-大数据技术原理与应用-第十章-数据可视化

Chapter10-厦门大学-林子雨-大数据技术原理与应用-第十章-数据可视化

图10-7 通过浏览器在线查看Google Chart统计图表
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
10.2.2 信息图表工具
2. D3 D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的 JavaScript函数库,提供了一个D3对象,所有方法都通过这个对象调用。 D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、 树形图、圆形集群和单词云等(如图10-8所示)。
图10-7 通过浏览器在线查看Google Chart统计图表
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
10.2.2 信息图表工具
3. Visual.ly Visual.ly是一款非常流行的信息图制作工具,非常好用,不需要任何设 计相关的知识,就可以用它来快速创建自定义的、样式美观且具有强烈 视觉冲击力的信息图表。 4. Tableau Tableau是桌面系统中最简单的商业智能工具软件,更适合企业和部门进 行日常数据报表和数据可视化分析工作。Tableau实现了数据运算与美观 的图表的完美结合,用户只要将大量数据拖放到数字“画布”上,转眼 间就能创建好各种图表。 5. 大数据魔镜 大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法 可以让用户真正理解探索分析数据,用户只要通过一个直观的拖放界面 就可创造交互式的图表和数据挖掘模型。
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
10.2.4 时间线工具
时间线是表现数据在时间维度的演变的有效方式,它通过互联网技术, 依据时间顺序,把一方面或多方面的事件串联起来,形成相对完整的记录 体系,再运用图文的形式呈现给用户。时间线可以运用于不同领域,最大 的作用就是把过去的事物系统化、完整化、精确化。自2012年Facebook 在F8大会上发布了以时间线格式组织内容的功能后,时间线工具在国内外 社交网站中开始大面积流行。 图10-10显示了我国户籍制度在1994年到2014年间随时间的演变情况, 它采用了时间线表示方法。

大数据技术原理与应用-林子雨版-课后习题答案

大数据技术原理与应用-林子雨版-课后习题答案

第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。

2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

大数据技术原理与应用

大数据技术原理与应用

图10-9 2008年世界各国GDP数据
10.2.3 地图工具
• 1. Google Fusion Tables Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图。该 工具可以让数据表呈现为图表、图形和地图,从而帮助发现一些隐藏在数 据背后的模式和趋势。 • 2. Modest Maps Modest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫 星地图的API,只有10KB大小,是目前最小的可用地图库,它也是一个开 源项目,有强大的社区支持,是在网站中整合地图应用的理想选择。 • 3. Leaflet Leaflet是一个小型化的地图框架,通过小型化和轻量化来满足移动网页的 需要。
(3)辅助理解数据
图10-5 微软“人立方”展示的人物关系图
10.1.3 可视化的重要作用
(4)增强数据吸引力
图10-6 一个可视化的图表新闻实例
10.2 可视化工具
10.2.1 入门级工具 10.2.2 信息图表工具 10.2.3 地图工具 10.2.4 时间线工具 10.2.5 高级分析工具
10.1.2 可视化的发展历程
• 20世纪50年代,随着计算机的出现和计算机图形学的发展,人们可 以利用计算机技术在电脑屏幕上绘制出各种图形图表,可视化技术开 启了全新的发展阶段。最初,可视化技术被大量应用于统计学领域, 用来绘制统计图表,比如圆环图、柱状图和饼图、直方图、时间序列 图、等高线图、散点图等,后来,又逐步应用于地理信息系统、数据 挖掘分析、商务智能工具等,有效促进了人类对不同类型数据的分析 与理解 • 随着大数据时代的到来,每时每刻都有海量数据在不断生成,需要 我们对数据进行及时、全面、快速、准确的分析,呈现数据背后的价 值,这就更需要可视化技术协助我们更好地理解和分析数据,可视化 成为大数据分析最后的一环和对用户而言最重要的一环

大数据技术原理与应用 林子雨版 课后习题答案

大数据技术原理与应用 林子雨版 课后习题答案

第一章1。

试述信息技术发展史上的3次信息化浪潮及具体内容.2.试述数据产生方式经历的几个阶段答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸"的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍.5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果.7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层.11.定义并解释以下术语:云计算、物联网答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT 资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍(2016春季学期授课版本)pp

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍(2016春季学期授课版本)pp

/post/bigdata-online-course/ 支持手机浏览 随时随地手机看 在线课程视频
扫一扫手机访问在线课程
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
附录:主讲教师林子雨简介
主讲教师:林子雨 单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站: 扫一扫访问个人主页 林子雨,男,1978年出生,博士(毕业于北京大学),现为厦门大学计算机科学系助理教授(讲师), 曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国高校首个“数字教师” 提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干 成员,2013年度厦门大学奖教金获得者。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计 算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期 刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基 金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务 费项目(No.2011121049),同时,作为课题负责人完成了国家发改委城市信息化重大课题、国家物联网重 大应用示范工程区域试点泉州市工作方案、2015泉州市互联网经济调研等课题。编著出版中国高校第一 本系统介绍大数据知识的专业教材《大数据技术原理与应用》并成为畅销书籍,编著并免费网络发布40 余万字中国高校第一本闪存数据库研究专著《闪存数据库概念与技术》;主讲厦门大学计算机系本科生 课程《数据库系统原理》和研究生课程《分布式数据库》《大数据技术基础》。具有丰富的政府和企业 信息化培训经验,曾先后给中国移动通信集团公司、福州马尾区政府、福建省物联网科学研究院、石狮 市物流协会、厦门市物流协会、福建龙岩卷烟厂等多家单位和企业开展信息化培训,累计培训人数达 2000人以上。

大数据技术原理与应用林子雨课后习题答案

大数据技术原理与应用林子雨课后习题答案

大数据技术原理与应用林子雨课后习题答案第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。

2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

Chapter1厦门大学林子雨大数据技术原理与应用第一章大数据概述33

Chapter1厦门大学林子雨大数据技术原理与应用第一章大数据概述33
大数据应用渗透各行各业,数据驱动决策, 信息社会智能化程度大幅提高
PPT文档演模板
Chapter1厦门大学林子雨大数据技术 原理与应用第一章大数据概述33
1.2大数据概念
PPT文档演模板
Chapter1厦门大学林子雨大数据技术 原理与应用第一章大数据概述33
1.2.1数据量大
n根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律) n人类在最近两年产生的数据量相当于之前产生的全部数据量 n预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
Chapter1厦门大学林子雨大数据技术 原理与应用第一章大数据概述33
三种范式之后,迎来了第四种范式——数据 • 在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而
非因果”等三大显著特征,完全颠覆了传统的思维方式 • 在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用
有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技 术和新应用的不断涌现 • 在就业市场方面,大数据的兴起使得数据科学家成为热门职业 • 在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技 术相关专业的现有教学和科研体制
•本PPT是如下教材的配套讲义:
•21世纪高等教育计算机规划教材
•《大数据技术原理与应用
•——概念、存储、处理、分析与应用》
•(2015年6月第1版)
•厦门大学 林子雨 编著,人民邮电出版社
•ISBN:978-7-115-39287-9
•欢迎访问《大数据技术原理与应用》教材官方网站:
•/post/bigdata
大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据( 交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据( 淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微pter1厦门大学林子雨大数据技术

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

(林子雨_2017新版_大数据技术原理与应用)厦门大学本科课程教学大纲

厦门大学本科课程教学大纲
XMU Un dergraduate Course Syllabus
厦门大学本科课程大纲填写说明(Notes)
1. 须同时填写课程大纲中文版和英文版。

2. 课程名称必须准确、规范。

3. 课程代码:非任课教师填写。

该课程在教务系统生成后,由学院代为填写。

4. 授课对象填写专业。

5. 适用年级填写可修读本课程的时间,如本科三年级第一学期。

6. 课程类型指公共基本课程、通识教育课程、学科通修课程、专业(或专业方向)课程、
其他教学环节。

7. 课程课型指理论课、实验课、技能课、实践课。

8. 总学时二授课学时+讨论学时+实验学时+上机学时+其他学时
9. 先修课程是与该课程具有严格的前后逻辑关系,非先修课程则无法学习该课程。

10. 培养目标不少于150字。

11. 考核方式包括成绩登记方式、成绩组成、考核标准等。

成绩登记方式包括百分制、
通过/不通过等。

成绩组成指各种考核方式占比。

考核标准指衡量各项考评指标得分的基准。

12. 选用教材和主要参考书要求注明作者、书目、出版社、出版年份。

例如,“丹利维
尔:《民主、官僚制组织和公共选择》,中国青年出版社,2001年。


13. 其它信息指课堂规范要求等,如课上禁止使用手机、缺勤要求等。

14. 课程英文类别代号:。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践(版本号:2016年1月18日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年一月(版权所有,请勿用于商业用途)目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6作业准备 (1)6.1、Hama计算框架的安装配置 (1)6.2、用Hama计算模型实现寻找最大独立集问题算法 (3)7作业内容 (9)8实验报告 (9)附录1:任课教师介绍 (9)附录2:课程教材介绍 (10)《大数据技术原理与应用》图计算框架Hama基础操作实践上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目图计算框架Hama基础操作实践。

2作业目的旨在让学生了解Pregel图计算模型,并学会用Pregel的开源实现Hama实现一些基本操作。

3作业性质课后作业,必做,作为课堂平时成绩。

4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。

5作业提交日期与方式图计算章节内容结束后的下一周周六晚上9点之前提交。

6作业准备请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》(官网:/post/bigdata/),了解图计算的概念与意义。

6.1、Hama计算框架的安装配置A pache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。

简单说,Hama是在HDFS 上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。

(1). 安装好合适版本的jdk和hadoop,并且进行测试,保证他们能用。

(2). 下载hama安装文件,从/downloads.html处下载合适的版本,我当时下的是0.6.4版本的。

(3). 在用户主目录下创建合适的安装目录文件,我这里是在~下创建了hama文件夹作为安装目录,即~/hama为安装目录。

(4). 将下载好的hama-0.6.4.tar.gz拷贝到~/hama中去,并用tar zvxf hama-0.6.4.tar.gz 进行解压。

(5). 进入hama-0.6.4中的conf文件夹,修改hama-env.sh文件,在其中加入java的home路径,即加入:Export JAVA_HOME=/home/wanglianping/java/jdk.1.7.0_91( 6). 修改 hama-site.xml文件,这时hama配置的核心文件,具体内容如下:<configuration><property><name>bsp.master.address</name><value>192.168.91.128:40000</value><description>The address of the bsp master server. Either theliteral string "local" or a host:port for distributed mode</description></property><property><name></name><value>hdfs://192.168.91.128:9000/</value><description>The name of the default file system. Either the literal string"local" or a host:port for HDFS.</description></property><property><name>hama.zookeeper.quorum</name><value>192.168.91.128</value><description>Comma separated list of servers in the ZooKeeper Quorum.For example, ",,".By default this is set to localhost for local and pseudo-distributed modesof operation. For a fully-distributed setup, this should be set to a fulllist of ZooKeeper quorum servers. If HAMA_MANAGES_ZK is set in hama-env.sh this is the list of servers which we will start/stop zookeeper on.</description></property><property><name>hama.zookeeper.property.clientPort</name><value>2181</value></property></configuration>其中,bsp.master.address即bsp中的BSPMaster的地址和端口。

这个值要特别注意,是hadoop中nameNode的地址和端口,因为hama要用到hadoop的hdfs 分布式文件系统。

剩下的俩个是zookeeper的相关配置。

(7).另外,在conf文件夹下还有一个groomservers文件,这个在分布式环境下配置groomserver的地址,在单机模式下就不用配置了,里面默认值为localhost。

同时,你也可以在~/.bashrc中添加hama的环境变量,这样每次启动就不同转到相应的目录下去了。

(8). 启动hadoop,并验证是否启动成功。

命令:HADOOP_HOME/bin/start-all.sh,如果启动成功,如下:启动hama,命令:HAMA_HOME/bin/start-bspd.sh,结果如下:出现上述结果,则表明hama已经成功启动。

6.2、用Hama计算模型实现寻找最大独立集问题算法(1). 本算法参考Luby's classic parallel algorithm《a simple parallel algorithm for maximal independent set problem》,把顶点分为三类:1) S:The MIS being constructed. Starts empty and grows in iterations.2) NotInS: Vertices that have at least one edge to a vertex in S and as a result cannot be in S.3) Unknown: Vertices that do not have an edge to any vertex in S but are not yet in S. (2).Hama模型下MIS(Maximal Independent Set)算法描述。

1)初始时,把所有顶点的value值赋值为自己的vertexID,表明初始所有顶点均在UnKnown 集合中,然后把自己的VertexID发送给邻接顶点。

2) 若顶点u的VertexID比自己所有邻接顶点都小,则该顶点进入S 集合中,并发送neighbor-in-set 消息给所有邻接顶点,通知它们退出Unknown集合进入到NotInS集合中,并最后把u置为InActive状态;否则,顶点u继续保持UnKnown状态。

3) S集合中顶点的邻接顶点收到neighbor-in-set 消息,则该顶点进入NotInS,并且设置为Inactive状态。

返回继续迭代,直到UnKnown集合为空。

(3). 程序中按照顶点value取值不同来区分顶点的类别,具体如下:1) value 等于vertexID ,表示顶点在Unknown 集合中;2) value 等于-1 ,表示顶点在S 集合中3) value 等于-2 ,表示顶点在NotInS 集合中。

当所有顶点进入S或者NotInS集合中,就停止计算,表明已找到一个MIS。

源码如下:package graph.mis;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hama.HamaConfiguration;import org.apache.hama.bsp.HashPartitioner;import org.apache.hama.bsp.TextInputFormat;import org.apache.hama.bsp.TextOutputFormat;import org.apache.hama.graph.Edge;import org.apache.hama.graph.GraphJob;import org.apache.hama.graph.Vertex;import org.apache.hama.graph.VertexInputReader;public class FindMIS {public static class MISVertex extendsVertex<LongWritable, NullWritable, LongWritable> {@Overridepublic void compute(Iterator<LongWritable> messages) throws IOException {if (getSuperstepCount() == 0) {setValue(getVertexID());sendMessageT oNeighbors(getValue());} else {if(getValue().get()==-2) {voteToHalt();} else {boolean revMsg = false;while (messages.hasNext()) {revMsg = true;long msg = messages.next().get();if (msg == -2) {setValue(new LongWritable(-2));voteToHalt();return;} else if (msg < getValue().get()) {return;}}if (revMsg) {setValue(new LongWritable(-1));sendMessageT oNeighbors(new LongWritable(-2));voteToHalt();} else {sendMessageT oNeighbors(getValue());}}}}}public static class MISTextReader extendsVertexInputReader<LongWritable, Text, LongWritable, NullWritable, LongWritable> { @Overridepublic boolean parseVertex(LongWritable key, Text value,Vertex<LongWritable, NullWritable, LongWritable> vertex)throws Exception {String[] split = value.toString().split("\t");for (int i = 0; i < split.length; i++) {if (i == 0) {vertex.setVertexID(new LongWritable(Long.parseLong(split[i])));} else {vertex.addEdge(new Edge<LongWritable, NullWritable>(new LongWritable(Long.parseLong(split[i])), null));}}return true;}}public static void main(String[] args) throws IOException,InterruptedException, ClassNotFoundException {if (args.length < 2) {System.err.println("Usage: <input> <output>");System.exit(-1);}HamaConfiguration conf = new HamaConfiguration(new Configuration());GraphJob pageJob = new GraphJob(conf, FindMIS.class);pageJob.setJobName("Find a MIS");pageJob.setMaxIteration(30);pageJob.setVertexClass(MISVertex.class);pageJob.setInputPath(new Path(args[0]));pageJob.setOutputPath(new Path(args[1]));pageJob.setVertexIDClass(LongWritable.class);pageJob.setVertexValueClass(LongWritable.class);pageJob.setEdgeValueClass(NullWritable.class);pageJob.setInputKeyClass(LongWritable.class);pageJob.setInputValueClass(Text.class);pageJob.setInputFormat(T extInputFormat.class);pageJob.setVertexInputReaderClass(MISTextReader.class);pageJob.setPartitioner(HashPartitioner.class);pageJob.setOutputFormat(TextOutputFormat.class);pageJob.setOutputKeyClass(Text.class);pageJob.setOutputValueClass(LongWritable.class);pageJob.waitForCompletion(true);}}(4). 运行过程分析。

相关文档
最新文档