大数据课堂测验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、简述大数据的来源与数据类型
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化
数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段
(1 )被动式生成数据
(2 )主动式生成数据
(3)感知式生成数据
3、大数据处理的基本流程
1.数据抽取与集成
2.数据分析
3.数据解释
4、大数据的特征
4V1O Volume , Variety , Value , Velocity , On-Line
5、适合大数据的四层堆栈式技术架构
6、大数据的整体技术和关键技术
大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等) 。
7、新一代数据体系的分类
新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。
8 EDC系统的定义
临床试验电子数据采集(Electric Data Capture ,EDC系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites )直接远程收集临床试验数据的一种数据采集系统。
9、EDC系统的基本功能
数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。
10、EDC系统的优点
(1 )提高了临床研究的效率,缩短了临床研究周期
(2 )通过逻辑检查提高了数据质量
(3)对研究质量的监测更加方便
11、大数据采集的数据来源
大数据的三大主要来源为商业数据、互联网数据与传感器数据。
12、网络数据采集和处理的四个主要模块
网络爬虫(Spider )、数据处理(Data Process )、URL 队列(URL Queue )和数据(Data )。
13、大数据集成
在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封 不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请 求后,需要整合并返回结果。
14、数据集成时应解决的问题
数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数 据处理移动到数据端。
15、网络数据处理的四个模块及主要功能
分词( Words Analyze )、排重( Content Deduplicate )、整合( Integrate )和数据,如图 2-17 所示。 这四个模块的主要功能如下。
21、数据可视化流程
1) 分词 对抓取到的网页内容进行切词处理。
2) 3) 排重 整合 对众多的网页内容进行排重。 对不同来源的数据内容进行格式上的整合。
包含两方面的数据, Spider Data 和 Dp Data 。
16、大数据建模概念 大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书
面描述。
17、大数据分析模式分类
4) 数据 根据实时性,可分为在线分析和离线分析
根据数据规模,可分为内存级、 BI 级和海量级 根据算法复杂度的分类
18、大数据建模流程
定义问题、数据理解、数据准备、模型建立、模型评估、
19、大数据建模应遵循的规律
模型更新与结果部署等。
以业务目标作为实现目标 业务知识是每一步的核心 做好数据预处理
试验对寻找解决方案是必要的 数据中总含有模式 数据挖掘增大对业务的认知 预测提高了信息作用能力
大数据建模的价值不在于预测的准确率 模式因业务变化而变化
20、数据可视化的概念 数据可视化技术是指运用计算机图形学和图像处理技术, 用数据分析和开发工具发现其中未知信息的交互处理的理论、
将数据转换为图形或图像,然后在屏幕上显示出来,利 方法和技术。
测序数据可视化 分子结构数据可视化 关系网络可视化 临床数据可视化
可扩展(Scalable ) 低成本(Economical )
高效率(Efficient ) 可靠(Reliable ) 25、Hadoop 的核心模块
HDFS Ma pReduce Commo 及YARN 其中HDFS 提供了海量数据的存储,
Map Reduce 提供了对数据的计算,
Common
为在通用硬件上搭建云计算环境提供基本的服务及接口, YARr 可以控制整个集群并管理应用程序向基础计算资源的分
配。
26、 YARN 的基本设计思想
将Map Reduce 中的JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程 序特有的
ApplicationMaster 。其中ResourceManager 负责整个系统的资源管理和分配,而 AppIicationMaster 则负 责单个应用程序的管理。 27、 Hive
Hive 最早是由Facebook 设计,基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类SQL 查询
功能。
28、HBase
HBase 即HadoopDatabase ,是一个分布式、面向列的开源数据库。
HBase 主要用于需要随机访问、实时读写的大
数据。
Avro 是一个数据序列化系统。类似于其他序列化机制,Avro 可以将数据结构或者对象转换成便于存储和传输的格 其设计目标是用于支
持数据密集型应用,适合大规模数据的存储与交换。
Chukwa 是开源的数据收集系统,用于监控和分析大型分布式系统的数据。 24、Hadoop 优点 1)
23) 4)
29、 Avro
式,
30、 Chukwa
31、 Pig
4)多种数据集成支持方式