大数据课堂测验

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、简述大数据的来源与数据类型

大数据的来源非常多，如信息管理系统、网络信息系统、物联网系统、科学实验系统等，其数据类型包括结构化数据、半结构化数据和非结构化数据。

2、大数据产生的三个阶段

（1）被动式生成数据

（2）主动式生成数据

（3）感知式生成数据

3、大数据处理的基本流程

1．数据抽取与集成

2．数据分析

3．数据解释

4、大数据的特征

4V1O V olume，Variety，Value，Velocity，On-Line

5、适合大数据的四层堆栈式技术架构

6、大数据的整体技术和关键技术

大数据的整体技术一般包括：数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。

7、新一代数据体系的分类

新一代数据体系中，将传统数据体系中没有考虑过的新数据源进行归纳与分类，可将其归纳到线上行为数据与内容数据两大类别。

8、EDC系统的定义

临床试验电子数据采集（Electric Data Capture，EDC）系统，在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心（Sites）直接远程收集临床试验数据的一种数据采集系统。

9、EDC系统的基本功能

数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。

10、EDC系统的优点

（1）提高了临床研究的效率，缩短了临床研究周期

（2）通过逻辑检查提高了数据质量

（3）对研究质量的监测更加方便

11、大数据采集的数据来源

大数据的三大主要来源为商业数据、互联网数据与传感器数据。

12、网络数据采集和处理的四个主要模块

网络爬虫（Spider）、数据处理（Data Process）、URL队列（URL Queue）和数据（Data）。

13、大数据集成

在大数据领域中，数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地，而将处理过程适当的分配给这些数据。这是一个并行处理的过程，当在这些分布式数据上执行请求后，需要整合并返回结果。

14、数据集成时应解决的问题

数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。

15、网络数据处理的四个模块及主要功能

分词（Words Analyze）、排重（Content Deduplicate）、整合（Integrate）和数据，如图2-17所示。

这四个模块的主要功能如下。

1）分词：对抓取到的网页内容进行切词处理。

2）排重：对众多的网页内容进行排重。

3）整合：对不同来源的数据内容进行格式上的整合。

4）数据：包含两方面的数据，Spider Data和Dp Data。

16、大数据建模概念

大数据建模是为了理解事物而对事物做出的一种抽象，是对事物的一种无歧义的书面描述。

17、大数据分析模式分类

根据实时性，可分为在线分析和离线分析

根据数据规模，可分为内存级、BI级和海量级

根据算法复杂度的分类

18、大数据建模流程

定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。

19、大数据建模应遵循的规律

以业务目标作为实现目标

业务知识是每一步的核心

做好数据预处理

试验对寻找解决方案是必要的

数据中总含有模式

数据挖掘增大对业务的认知

预测提高了信息作用能力

大数据建模的价值不在于预测的准确率

模式因业务变化而变化

20、数据可视化的概念

数据可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像，然后在屏幕上显示出来，利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。

21、数据可视化流程

22、数据可视化工具的特性

1）实时性2）简单操作3）更丰富的展现4）多种数据集成支持方式

23、数据可视化在生物领域中的应用

测序数据可视化

分子结构数据可视化

关系网络可视化

临床数据可视化

24、Hadoop优点

1）可扩展（Scalable）

2）低成本（Economical）

3）高效率（Efficient）

4）可靠（Reliable）

25、Hadoop的核心模块

HDFS、MapReduce、Common及YARN，其中HDFS提供了海量数据的存储，MapReduce提供了对数据的计算，Common为在通用硬件上搭建云计算环境提供基本的服务及接口，YARN可以控制整个集群并管理应用程序向基础计算资源的分配。

26、YARN的基本设计思想

将MapReduce中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster则负责单个应用程序的管理。

27、Hive

Hive最早是由Facebook设计，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

28、HBase

HBase即Hadoop Database，是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。

29、Avro

Avro是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。

30、Chukwa