王珊《数据库系统概论》章节题库(大数据管理)【圣才出品】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第14章大数据管理

1.什么是大数据,简述大数据的分类与基本特征。

答:(1)定义

大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。

专家给出的定义:大数据通常被认为是PB(103TB)或EB(1EB=106TB)或更高数量级的数据,包括结构化的、半结构化的和非结构化的数据。其规模或复杂程度超出了传统数据库和软件技术所能管理和处理的数据集范围。

(2)分类

①海量交易数据(企业OLTP应用)

海量交易数据的应用特点是数据海量、读写操作比较简单、访问和更新频繁、一次交易的数据量大大,但要求支持事务ACID特性。对数据的完整性及安全性要求高,必须保证强一致性。

②海量交互数据(社交网、传感器、全球定位系统、Web信息)

海量交互数据的应用特点是实时交互性强,但不要求支持事务特性。其数据的典型特点是类型多样异构、不完备、噪音大、数据增长快,不要求具有强一致性。

③海量处理数据(企业OLAP应用)

海量处理数据的应用特点是面向海量数据分析,计算复杂,往往涉及多次迭代完成,追求数据分析的高效率,但不要求支持事务特性。

(3)大数据的特征

①巨量

大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。

②多样

大数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。

③快变

大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方而指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。

④价值

大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。

2.分析传统RDBMS在大数据时代的局限性。

答:关系数据库在大数据时代丧失了互联网搜索这个机会,其主要原因是关系数据库管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的需求,关系数据管理模型追求的是高度的一致性和正确性,面向超大数据的分析需求。

3.什么是NoSQL,试述NoSQL系统在人数据库发展中的作用。

答:(1)NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统,它有两种解释:一种是Non-Relational,即非关系数据库;另一种是Not Only SQL,即数据管理技术不仅仅是SQL。NoSQL系统支持的数据模型通常分为:Key-Value模型、BigTable 模型、文档(document)。

(2)NoSQL系统为了提高存储能力和并发读写能力采用了极其简单的数据模型,支

持简单的查询操作,而将复杂操作留给应用层实现。该系统对数据进行划分,对各个数据分区进行备份,以应对结点可能的失败,提高系统可用性;通过大量结点的并行处理获得高性能,采用的是横向扩展的方式(scale out)。

4.什么是NewSQL,查询相关资料,分析NewSQL是如何融合NoSQL和RDBMS 两者的优势的。

答:(1)NewSQL系统是融合了NoSQL系统和传统数据库事务管理功能的新型数据库系统。

(2)NewSQL将SQL和NoSQL的优势结合起来,充分利用计算机硬件的新技术、新结构,研究与开发了若干创新的实现技术。

5.描述MapReduce的计算过程。分析MapReduce技术作为大数据分析平台的优势和不足。

答:(1)MapReduce技术主要应用于大规模廉价集群上的大数据并行处理,是以key/value的分布式存储系统为基础,通过元数据集中存储、数据以chunk为单位分布存储和数据chunk冗余复制来保证其高可用性。

(2)优势:MapReduce是一种并行编程模型。其处理模式以离线式批量处理为主。

(3)MapReduce存在如下不足:

①基于MapReduce的应用软件较少,许多数据分析功能需要用户自行开发,从而导致使用成本增加;

②程序与数据缺乏独立性;

③在同等硬件条件下,MapReduce的性能远低于并行数据库;

④MapReduce处理连接的性能尤其不尽如人意。

6.简述大数据的应用。

答:(1)感知现在预测未来——互联网文本大数据管理与挖掘

互联网文本大数据管理的特点如下:

①互联网文本大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。

②实时、深入分析互联网文本大数据,帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来,体现了第四范式数据密集型科学发现的研究方式和思维方式。

③互联网文本大数据管理对大数据系统和技术的挑战是全面的、跨学科跨领域的,需要创新,也要继承传统数据管理技术和数据仓库分析技术的精华。

(2)数据服务实时推荐——基于大数据分析的用户建模

这一类大数据应用的特点如下:

①模型的建立来自对大数据的分析结果,通俗地讲是“用数据说话”。建模的过程是动态的,随着实际对象的变化,模型也在变化。

②数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析,体现了大数据上不同层次的分析:流分析、SQL分析、深度分析的需求。

③用户模型本身也是大数据,维度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需要的高并发数据更新与读取。

相关文档
最新文档