大数据导论复习资料

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《大数据导论》课程期末复习资料

《大数据导论》课程讲稿章节目录:

第1章大数据概述

(1)大数据的概念

(2)大数据的特征

(3)大数据的数据类型

(4)大数据的技术

(5)大数据的应用

第2章大数据采集与预处理

(1)大数据采集

(2)大数据预处理概述

(3)数据清洗

(4)数据集成

(5)数据变换

(6)数据规约

第3章大数据存储

(1)大数据存储概述

(2)数据存储介质

(3)存储系统结构

(4)云存储概述

(5)云存储技术

(6)新型数据存储系统

(7)数据仓库

第4章大数据计算平台

(1)云计算概述

(2)云计算平台

(3)MapReduce平台

(4)Hadoop平台

(5)Spark平台

第5章大数据分析与挖掘

(1)大数据分析概述

(2)大数据分析的类型及架构

(3)大数据挖掘

(4)大数据关联分析

(5)大数据分类

(6)大数据聚类

(7)大数据分析工具

第6章大数据可视化

(1)大数据可视化概述

(2)大数据可视化方法

(3)大数据可视化工具

第7章社交大数据

(1)社交大数据

(2)国内社交网络大数据的应用

(3)国外社交网络大数据的应用

第8章交通大数据

(1)交通大数据概述

(2)交通监测应用

(3)预测人类移动行为应用

第9章医疗大数据

(1)医疗大数据简介

(2)临床决策分析应用

(3)医疗数据系统分析

第10章大数据的挑战与发展趋势

(1)大数据发展面临的挑战

(2)大数据的发展趋势

一、客观部分:(单项选择、多项选择)

(一)、单项选择

1.以下不是NoSQL数据库的是()

★考核知识点:NoSQL与NewSQL主流系统

参考讲稿章节:

附(考核知识点解释):

目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable

还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等

另外,NewSQL数据库。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。

2以下不是目前主流开源分布式计算系统的是()

★考核知识点:主流开源分布式计算系统

参见讲稿章节:

附:(考核知识点解释)

由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS 分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google 内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。

Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache 基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的、复杂的大数据处理,spark常用于离线的、快速的大数据处理,而storm 常用于在线的、实时的大数据处理。

算法是一种()算法

A.关联规则

B.聚类

C.分类

D.预测

★考核知识点:大数据挖掘算法

参见讲稿章节:附:(考核知识点解释)

关联分析(Association analysis)是从有噪声的、模糊的、随机的海量数

据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关联规则学习(Association rule learning)。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。FP(Frequent Pattern)-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。

分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模型确定目标对象属于哪个预定义的目标类别。常用的分类算法有:决策树、感知机、K近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、人工神经网络等。

聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。K-MEANS(K-均值)算法是一种划分聚类方法,以k 为参数,将n 个对象分为k 个簇,以使簇(类)内具有较高的相似度,而簇间的相似度最低。

(二)、多项选择

1.大数据的特征包括()

A.体量大(Volume)

B.多样性(Variety)

C.速度快(Velocity)

D.价值高(Value)

★考核知识点:大数据的特征

参考讲稿章节:

附(考核知识点解释):

目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。

1). 体量大(Volume):数据量大是大数据的基本属性。数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,

相关文档
最新文档