大数据课堂测验2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统数据挖掘
大数据挖掘
样本数量
少量数据样本
分析与事物相关的所有数据,研究的样本数量趋近于总体数量
事物之间的关系
遵循事物之间的因果关系
寻找事物之间的相关关系
追求的目标
追求绝对的准确性
追求效率和趋势
挖掘方式
采集方法,内容分类,采信标准等都已存在即有规则,方法论完整
33、Spark的优点
轻量级快速处理
支持多语言
支持复杂查询
实时的流处理
可以与Hadoop数据整合
34、HDFS的设计目标
高效的硬件响应
流式数据访问
大规模数据集
简单的一致性模型
异构软硬件平台间的可移植性
35、HDFS架构——解释下图
答案在P107-P108
36、以一个文件File A(大小100MB)为例,说明HDFS的工作原理。
适用于廉价设备。
适合于读操作,不适合写操作。
不适用于传统关系型数据库。
54、云计算定义源自文库
云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络方便的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。
55、云计算基本特征
规模经济性
强大的虚拟化能力
高可靠性
4)可靠(Reliable)
25、Hadoop的核心模块
HDFS、MapReduce、Common及YARN,其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口,YARN可以控制整个集群并管理应用程序向基础计算资源的分配。
Neo4J
51、Bigtable
Bigtable是Google开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。
52、Bigtable数据库的架构
答案在P135.
53、Bigtable数据库特点
适合大规模海量数据,PB级数据。
分布式、并发数据处理,效率极高。
易于扩展,支持动态伸缩。
9、EDC系统的基本功能
数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。
10、EDC系统的优点
(1)提高了临床研究的效率,缩短了临床研究周期
(2)通过逻辑检查提高了数据质量
(3)对研究质量的监测更加方便
11、大数据采集的数据来源
大数据的三大主要来源为商业数据、互联网数据与传感器数据。
3.数据解释
4、大数据的特征
4V1O Volume,Variety,Value,Velocity,On-Line
5、适合大数据的四层堆栈式技术架构
6、大数据的整体技术和关键技术
大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
26、YARN的基本设计思想
将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责单个应用程序的管理。
14、数据集成时应解决的问题
数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。
15、网络数据处理的四个模块及主要功能
分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据,如图2-17所示。
存储类型
特性
典型工具
键值存储
可以通过键快速查询到值,值无需符合特定格式
Redis
列存储
可存储结构化和半结构化数据,对某些列的高频率查询具有很好的I/O优势
Bigtable、Hbase、Cassandra
文档存储
数据以文档形式存储,没有固定格式
CouchDB、MongoDB
图形存储
以图形的形式存储数据及数据之间的关系
42、MapReduce工作机制
答案在P116-P117
43、MapReduce执行流程
Map(映射)和Reduce(化简)是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。
向MapReduce框架提交一个计算作业时,它会首先进行Split(分片),将File(文件)分配为多个数据片段,保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务,然后分配到不同的结点上去执行,每一个Map任务处理输入数据中的一部分。当Map任务完成后,它会生成一些中间文件,把这些文件重新组织作为Reduce阶段的输入,该过程称为Shuffle(洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。
功能层:包括大数据集成、存储、管理和挖掘部分,各部分为大数据存储和挖掘提供相应功能。
服务层:基于Web技术和Open API技术提供大数据最终的展现服务。
62、医学大数据的种类
医院医疗大数据
区域卫生信息平台大数据
基于大量人群的医学研究或疾病监测大数据
自我量化大数据
网络大数据
生物信息大数据
63、大数据挖掘与传统数据挖掘方法的区别
12、网络数据采集和处理的四个主要模块
网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)和数据(Data)。
13、大数据集成
在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。
读操作流程
写操作流程
答案在P109-P111
37、HDFS的4类源代码
基础包
实体实现包
应用包
WebHDFS相关包
38、MapReduce
MapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。
39、HDFS接口
远程过程调用接口
与客户端相关接口
HDFS各服务器间的接口
40、HDFS和MapReduce的关系
HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。
HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。
MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作,并收集结果。
41、MapReduce技术特征
易于使用
良好的伸缩性
大规模数据处理
Avro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。
30、Chukwa
Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
31、Pig
Pig是一个对大型数据集进行分析和评估的平台。
试验对寻找解决方案是必要的
数据中总含有模式
数据挖掘增大对业务的认知
预测提高了信息作用能力
大数据建模的价值不在于预测的准确率
模式因业务变化而变化
20、数据可视化的概念
数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。
CAP,即一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)
46、大数据分区技术
通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。
47、几种常见的数据分区算法
1、简述大数据的来源与数据类型
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段
(1)被动式生成数据
(2)主动式生成数据
(3)感知式生成数据
3、大数据处理的基本流程
1.数据抽取与集成
2.数据分析
7、新一代数据体系的分类
新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。
8、EDC系统的定义
临床试验电子数据采集(Electric Data Capture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。
高可扩展性
通用性强
按需服务
价格低廉
支持快速部署业务
56、云计算服务模式
基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)是云计算的三种应用服务模式
57、云计算部署模式
公有云、私有云和混合云
58、虚拟化技术
把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的思路,在IT领域就称为虚拟化技术。
59、云计算数据中心的构成
云计算数据中心本质上由云计算平台和云计算服务构成
60、云计算安全关键技术
可信访问控制
密文检索与处理
数据存在与可使用性证明
数据隐私保护
虚拟安全技术
云资源访问控制
可信云计算
61、大数据解决方案系统架构及各层功能
平台层:其中的大数据存储平台提供大数据存储服务,大数据计算平台提供大数据计算服务,多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。
44、Common
Common为Hadoop的其他模块提供了一些常用工具程序包,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务,同时为软件开发提供了API。
45、大数据的一致性策略
27、Hive
Hive最早是由Facebook设计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
28、HBase
HBase即Hadoop Database,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。
29、Avro
这四个模块的主要功能如下。
1)分词:对抓取到的网页内容进行切词处理。
2)排重:对众多的网页内容进行排重。
3)整合:对不同来源的数据内容进行格式上的整合。
4)数据:包含两方面的数据,Spider Data和Dp Data。
16、大数据建模概念
大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。
17、大数据分析模式分类
根据实时性,可分为在线分析和离线分析
根据数据规模,可分为内存级、BI级和海量级
根据算法复杂度的分类
18、大数据建模流程
定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。
19、大数据建模应遵循的规律
以业务目标作为实现目标
业务知识是每一步的核心
做好数据预处理
32、Spark原理
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
21、数据可视化流程
22、数据可视化工具的特性
1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式
23、数据可视化在生物领域中的应用
测序数据可视化
分子结构数据可视化
关系网络可视化
临床数据可视化
24、Hadoop优点
1)可扩展(Scalable)
2)低成本(Economical)
3)高效率(Efficient)
范围分区
列表分区
哈希分区
48、分布式环境下的数据缓存技术特点
高性能
动态扩展性
高可用性
易用性
49、NoSQL数据库种类
键值(Key-Value)存储
列存储(Column-Oriented)
文档(Document-Oriented)存储
图形存储(Graph-Oriented)。
50、四种类型NoSQL的特点及典型产品
大数据挖掘
样本数量
少量数据样本
分析与事物相关的所有数据,研究的样本数量趋近于总体数量
事物之间的关系
遵循事物之间的因果关系
寻找事物之间的相关关系
追求的目标
追求绝对的准确性
追求效率和趋势
挖掘方式
采集方法,内容分类,采信标准等都已存在即有规则,方法论完整
33、Spark的优点
轻量级快速处理
支持多语言
支持复杂查询
实时的流处理
可以与Hadoop数据整合
34、HDFS的设计目标
高效的硬件响应
流式数据访问
大规模数据集
简单的一致性模型
异构软硬件平台间的可移植性
35、HDFS架构——解释下图
答案在P107-P108
36、以一个文件File A(大小100MB)为例,说明HDFS的工作原理。
适用于廉价设备。
适合于读操作,不适合写操作。
不适用于传统关系型数据库。
54、云计算定义源自文库
云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络方便的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。
55、云计算基本特征
规模经济性
强大的虚拟化能力
高可靠性
4)可靠(Reliable)
25、Hadoop的核心模块
HDFS、MapReduce、Common及YARN,其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口,YARN可以控制整个集群并管理应用程序向基础计算资源的分配。
Neo4J
51、Bigtable
Bigtable是Google开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。
52、Bigtable数据库的架构
答案在P135.
53、Bigtable数据库特点
适合大规模海量数据,PB级数据。
分布式、并发数据处理,效率极高。
易于扩展,支持动态伸缩。
9、EDC系统的基本功能
数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。
10、EDC系统的优点
(1)提高了临床研究的效率,缩短了临床研究周期
(2)通过逻辑检查提高了数据质量
(3)对研究质量的监测更加方便
11、大数据采集的数据来源
大数据的三大主要来源为商业数据、互联网数据与传感器数据。
3.数据解释
4、大数据的特征
4V1O Volume,Variety,Value,Velocity,On-Line
5、适合大数据的四层堆栈式技术架构
6、大数据的整体技术和关键技术
大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
26、YARN的基本设计思想
将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责单个应用程序的管理。
14、数据集成时应解决的问题
数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。
15、网络数据处理的四个模块及主要功能
分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据,如图2-17所示。
存储类型
特性
典型工具
键值存储
可以通过键快速查询到值,值无需符合特定格式
Redis
列存储
可存储结构化和半结构化数据,对某些列的高频率查询具有很好的I/O优势
Bigtable、Hbase、Cassandra
文档存储
数据以文档形式存储,没有固定格式
CouchDB、MongoDB
图形存储
以图形的形式存储数据及数据之间的关系
42、MapReduce工作机制
答案在P116-P117
43、MapReduce执行流程
Map(映射)和Reduce(化简)是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。
向MapReduce框架提交一个计算作业时,它会首先进行Split(分片),将File(文件)分配为多个数据片段,保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务,然后分配到不同的结点上去执行,每一个Map任务处理输入数据中的一部分。当Map任务完成后,它会生成一些中间文件,把这些文件重新组织作为Reduce阶段的输入,该过程称为Shuffle(洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。
功能层:包括大数据集成、存储、管理和挖掘部分,各部分为大数据存储和挖掘提供相应功能。
服务层:基于Web技术和Open API技术提供大数据最终的展现服务。
62、医学大数据的种类
医院医疗大数据
区域卫生信息平台大数据
基于大量人群的医学研究或疾病监测大数据
自我量化大数据
网络大数据
生物信息大数据
63、大数据挖掘与传统数据挖掘方法的区别
12、网络数据采集和处理的四个主要模块
网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)和数据(Data)。
13、大数据集成
在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。
读操作流程
写操作流程
答案在P109-P111
37、HDFS的4类源代码
基础包
实体实现包
应用包
WebHDFS相关包
38、MapReduce
MapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。
39、HDFS接口
远程过程调用接口
与客户端相关接口
HDFS各服务器间的接口
40、HDFS和MapReduce的关系
HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。
HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。
MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作,并收集结果。
41、MapReduce技术特征
易于使用
良好的伸缩性
大规模数据处理
Avro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。
30、Chukwa
Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
31、Pig
Pig是一个对大型数据集进行分析和评估的平台。
试验对寻找解决方案是必要的
数据中总含有模式
数据挖掘增大对业务的认知
预测提高了信息作用能力
大数据建模的价值不在于预测的准确率
模式因业务变化而变化
20、数据可视化的概念
数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。
CAP,即一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)
46、大数据分区技术
通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。
47、几种常见的数据分区算法
1、简述大数据的来源与数据类型
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段
(1)被动式生成数据
(2)主动式生成数据
(3)感知式生成数据
3、大数据处理的基本流程
1.数据抽取与集成
2.数据分析
7、新一代数据体系的分类
新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。
8、EDC系统的定义
临床试验电子数据采集(Electric Data Capture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。
高可扩展性
通用性强
按需服务
价格低廉
支持快速部署业务
56、云计算服务模式
基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)是云计算的三种应用服务模式
57、云计算部署模式
公有云、私有云和混合云
58、虚拟化技术
把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的思路,在IT领域就称为虚拟化技术。
59、云计算数据中心的构成
云计算数据中心本质上由云计算平台和云计算服务构成
60、云计算安全关键技术
可信访问控制
密文检索与处理
数据存在与可使用性证明
数据隐私保护
虚拟安全技术
云资源访问控制
可信云计算
61、大数据解决方案系统架构及各层功能
平台层:其中的大数据存储平台提供大数据存储服务,大数据计算平台提供大数据计算服务,多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。
44、Common
Common为Hadoop的其他模块提供了一些常用工具程序包,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务,同时为软件开发提供了API。
45、大数据的一致性策略
27、Hive
Hive最早是由Facebook设计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
28、HBase
HBase即Hadoop Database,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。
29、Avro
这四个模块的主要功能如下。
1)分词:对抓取到的网页内容进行切词处理。
2)排重:对众多的网页内容进行排重。
3)整合:对不同来源的数据内容进行格式上的整合。
4)数据:包含两方面的数据,Spider Data和Dp Data。
16、大数据建模概念
大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。
17、大数据分析模式分类
根据实时性,可分为在线分析和离线分析
根据数据规模,可分为内存级、BI级和海量级
根据算法复杂度的分类
18、大数据建模流程
定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。
19、大数据建模应遵循的规律
以业务目标作为实现目标
业务知识是每一步的核心
做好数据预处理
32、Spark原理
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
21、数据可视化流程
22、数据可视化工具的特性
1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式
23、数据可视化在生物领域中的应用
测序数据可视化
分子结构数据可视化
关系网络可视化
临床数据可视化
24、Hadoop优点
1)可扩展(Scalable)
2)低成本(Economical)
3)高效率(Efficient)
范围分区
列表分区
哈希分区
48、分布式环境下的数据缓存技术特点
高性能
动态扩展性
高可用性
易用性
49、NoSQL数据库种类
键值(Key-Value)存储
列存储(Column-Oriented)
文档(Document-Oriented)存储
图形存储(Graph-Oriented)。
50、四种类型NoSQL的特点及典型产品