林子雨大数据技术原理与应用答案(全)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

林子雨大数据技术原理及应用课后题答案
大数据第一章大数据概述课后题 (1)
大数据第二章大数据处理架构Hadoop课后题 (5)
大数据第三章Hadoop分布式文件系统课后题 (10)
大数据第四章分布式数据库HBase课后题 (16)
大数据第五章NoSQl数据库课后题 (22)
大数据第六章云数据库课后作题 (28)
大数据第七章MapReduce课后题 (34)
大数据第八章流计算课后题 (41)
大数据第九章图计算课后题 (50)
大数据第十章数据可视化课后题 (53)
大数据第一章课后题
——大数据概述
1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

第一次信息化浪潮1980年前后个人计算机开始普及，计算机走入企业和千家万户。

代表企业：Intel，AMD，IBM，苹果，微软，联想，戴尔，惠普等。

第二次信息化浪潮1995年前后进入互联网时代。

代表企业：雅虎，谷歌阿里巴巴，百度，腾讯。

第三次信息浪潮2010年前后，云计算大数据，物联网快速发展，即将涌现一批新的市场标杆企业。

2.试述数据产生方式经历的几个阶段。

经历了三个阶段:
运营式系统阶段数据伴随一定的运营活动而产生并记录在数据库。

用户原创内容阶段Web2.0时代。

感知式系统阶段物联网中的设备每时每刻自动产生大量数据。

3.试述大数据的4个基本特征。

数据量大（Volume）
据类型繁多（Variety）
处理速度快（Velocity）
价值密度低（Value）
4.试述大数据时代的“数据爆炸”特性。

大数据摩尔定律：人类社会产生的数据一直都在以每年50%的速度增长，即每两年就增加一倍。

5.科学研究经历了那四个阶段？
实验比萨斜塔实验
理论采用各种数学，几何，物理等理论，构建问题模型和解决方案。

例如：牛一，牛二，牛三定律。

计算设计算法并编写相应程序输入计算机运行。

数据以数据为中心，从数据中发现问题解决问题。

6.试述大数据对思维方式的重要影响。

全样而非抽样
效率而非精确
相关而非因果
7.大数据决策与传统的基于数据仓库的决策有什么区别？
数据仓库以关系数据库为基础，在数据类型和数据量方面存在较大限制。

大数据决策面向类型繁多的，非结构化的海量数据进行决策分析。

8.举例说明大数据的具体应用。

汽车行业大数据和物联网技术无人汽车
互联网行业分析客户行为，进行商品推介和有针对性的广告投放。

城市管理智能交通环保检测城市规划和智能安防
生物医学流行病预测智慧医疗健康管理解读DNA
个人生活分析个人生活行为习惯，提供周到的个性化服务
9.举例说明大数据的关键技术
数据采集
数据存储和管理
数据处理分析
数据安全与隐私保护
10.大数据产业包含哪些层面？
IT基础设施层
数据源层
数据管理层
数据分析层
数据平台层
数据应用层
11.定义并解释一下术语：云计算，物联网。

云计算实现了通过网络提供可伸缩的廉价的分布式计算力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。

物联网：物物相连的互联网，利用局部网络或者互联网等通信技术把传感器，控制器，机器，人员和物等通过新的方式连在一起，形成人与物，物与物相连，实现信息化和远程管理控制。

12.详细阐述大数据，云计算和物联网三者之间的区别和联系。

大数据、云计算和物联网的区别
大数据侧重于海量数据的存储、处理与分析，从海量数据中发现价值，服务于生产和生活;云计算本质上旨在整合和优化各种IT资源，并通过网络以服务的方式廉价提供给用户;
物联网的发展目标是实现物物相连，应用创新是物联网发展的核心。

大数据、云计算和物联网的联系
从整体上看，大数据、云计算和物联网这三者是相辅相成的。

大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式和数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力，分布式并行处理框架MapReduce提供了海量数据分析能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。

反之，大数据为云计算提供了“用武之地”，没有大数据这个“练兵场”，云计算技术再先进，也不能发挥它的应用价值。

物联网的传感器源源不断产生的大量数据，构成了大数据的重要来源，没有物联网的飞速发展，就不会带来数据产生方式的变革，即由人工产生阶段向自动产生阶段，大数据时代也不会这么快就到来。

同时，物联网需要借助于云计算和大数据技术、实现物联网大数据的存储、分析和处理。

云计算、大数据和物联网，三者会继续相互促进、相互影响，更好地服务于社会生产和生活的各个领域。

大数据第二章课后题答案
——大数据处理架构Hadoop
1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。

Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。

①Hadoop 的核心是分布式文件系统( Hadoop Ditributed File
System,HDFS )和MapReduce。

②HDFS是对谷歌文件系统( Google File System, GFS )的开源实现，是面
向普通硬件环境的分布式文件系统，具有较高的读写速度、很好的容错
性和可伸缩性，支持大规模数据的分布式存储，其冗余数据存储的方式
很好地保证了数据的安全性。

③MapReduce 是针对谷歌MapReduce的开源实现，允许用户在不了
解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据，可保证分析和处理数据的高效性。

2.试述Hadoop具有哪些特性。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性。

①高可靠性。

采用冗余数据存储方式，即使一个副本发生故障，其他副本
也可以保证正常对外提供服务。

②高效性。

作为并行分布式计算平台，Hadoop采用分布式存储和分布式
处理两大核心技术，能够高效地处理PB级数据。

③高可扩展性。

Hadoop的设计目标是可以高效稳定地运行在廉价的计算
机集群上，可以扩展到数以千计的计算机节点。

④高容错性。

采用冗余数据存储方式，自动保存数据的多个副本，并且能
够自动将失败的任务进行重新分配。

⑤成本低。

Hadoop采用廉价的计算机集群，成本比较低，普通用户也很
容易用自己的PC搭建Hadoop运行环境。

⑥运行在Linux平台上。

Hadoop是基于Java语言开发的，可以较好地
运行在Linux平台上。

⑦支持多种编程语言。

Hadoop 上的应用程序也可以使用其他语言编写，
如C++。

3.试述Hadoop在各个领域的应用情况。

互联网领域是Hadoop应用的主要阵地。

①雅虎将Hadoop主要用于支持广告系统与网页搜索。

②Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等
方面。

③淘宝Hadoop集群服务于阿里巴巴集团各部门，数据来源于各部门产品
的线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据，每天在
Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推
荐系统、排行榜等。

④百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、
商业分析、在线数据反馈、网页聚类等。

4.试述Hadoop的项目结构以及每个部分的具体功能。

Hadoop项目结构
各部分具体功能：
①Common。

Common为Hadoop其他子项目提供支持的常用工具，
主要包括文件系统、RPC（Remote Procedure Call）和串行化库。

②Avro。

Avro Avro是Hadoop的一一个子项目，也是Apache中的一
个独立项目。

Avro是一个用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用( Remote Procedure Call, RPC )的功能和简单的动态语言集成功能。

Avro 可以将数据结构或对象转化成便于存储和传输的格式，节约数据存储空间和网络传输带宽, Hadoop的其他子项目(如HBase和Hive )的客户端与服务端之间的数据传输都采用了Avro。

③HDFS。

HDFS是针对GFS的开源实现。

具有处理强大数据、流式处理、
可以运行在廉价的商用服务器上等优点。

④HBase。

HBase是针对谷歌的BigTable的开源实现。

一般采用HDFS作
为其底层数据存储，基于列的存储，具有强大的非结构化数据存储能力。

具有良好的横向扩展能力。

⑤MapReduce。

MapReduce是一种编程模型，用于大规模数据集（大
于1TB）的并行运算。

允许用户在不了解分布式系统底层细节的情况下开发并行应用程序，并将其运行于廉价计算机集群上，完成海量数据的处理。

⑥Zookeeper。

Zookeeper是针对谷歌Chubby的-一个开源实现，是高
效和可靠的协同工作系统，提供分布式锁之类的基本服务( 如统一命名
服务、状态同步服务、集群管理、分布式应用配置项的管理等),用于构
建分布式应用，减轻分布式应用程序所承担的协调任务。

⑦Hive。

Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop
文件中的数据集进行数据整理、特殊查询和分析存储，十分适合数据仓
库的统计分析。

⑧Pig。

Pig是一种数据流语言和运行环境，适合于使用Hadoop和
MapReduce平台来查询大型半结构化数据集。

Pig大大简化了
Hadoop常见的工作任务，它在MapReduce的基础上创建了更简单
的过程语言抽象，为Hadoop应用程序提供了一种更加接近结构化查询
语言(SQL)的接口。

⑨Sqoop。

Sqoop可以改进数据的互操作性，主要用来在Hadoop 和关
系数据库之间交换数据。

通过Sqoop，可以方便地将数据从MySQL、
Oracle 、PostgreSQL 等关系数据库中导人Hadoop (可以导人HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库，使得传统关
系数据库和Hadoop之间的数据迁移变得非常方便。

⑩Chukwa。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保
存在HDFS中供Hadoop进行各种MapReduce操作。

5.路径JAVA_ HOME是在哪一个配置文件中进行设置的?
在安装Hadoop的文件夹下的“conf”目录下配置。

6.所有节点的HDFS路径是通过来设置的，请问它是在哪个
配置文件中设置的？
在安装目录下的HDFS core-site.xml 配置文件中配置。

是文件系统的名字。

通常是NameNode的hostname 与port，需要在每一个需要访问集群的机器上指定，包括集群中的节点7.试列举单机模式和伪分布模式的异同点。

相同点：运行机器数相同。

单机模式与伪分布式都是在一台单机上运行。

不同点：
①运行模式不同:单机模式是Hadoop的默认模式，即在一台单机上运行,
没有分布式文件系统，直接读写本地操作系统的文件系统。

伪分布模式
但用不同的Java进程模仿分布式运行中的各类结点。

②启动进程不同：单机模式下，Hadoop不会启动NameNode、
DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。

伪分布式模式下，Hadoop
启动NameNode、DataNode、JobTracker、TaskTracker这些守护
进程都在同一台机器上运行，是相互独立的Java进程。

③配置文件处理方式不同：单机模式下，不对配置文件进行修改。

伪分布
式模式下，修改3个配置文件：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）。

④节点交互不同：单机模式因为不需要与其他节点交互，单机模式就不使
用HDFS，也不加载任何Hadoop的守护进程。

该模式主要用于开发调
试MapReduce程序的应用逻辑。

伪分布模式在单机模式之上增加了代
码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守
护进程交互。

8.Hadoop伪分布式运行启动后所具有的进程都有哪些?
Hadoop伪分布式运行启动后所具有的进程有：NameNode、DataNode、JobTracker、TaskTracker。

9.如果具备集群实验条件，请尝试按照Hadoop官方文档搭建全分布式的
Hadoop集群环境。

略。

大数据第三章课后作业
——Hadoop分布式文件系统
1.试述分布式文件系统设计的需求。

2.分布式文件系统是如何实现较高水平的扩展的？
分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。

3.试述HDFS中的块和普通文件系统中的块的区别。

HDFS中的块比普通文件系统中的块大很多。

且在HDFS中如果一个文件小于数据块的大小，它并不占用整个数据存储块的空间。

4.试述HDFS中的名称节点和数据节点的具体功能。

名称节点：负责文件和目录的创建删除和重命名等，管理数据节点和文件块的映射关系。

数据节点：负责数据的存储和读取。

5.在分布式文件系统中，中心节点的设计至关重要，请阐述HDFS是如何减轻
中心节点的负担的。

名称节点不参与数据的传输。

6.HDFS只设置唯一一个名称节点，在简化系统的同时也带来了一些明显的局
限性，请阐述局限性具体表现在哪些方面。

1）命名空间的限制：
名称节点是保存在内存中，因此名称节点能够容纳对象（文件，块）的个数受到内存空间大小的限制
2）性能的瓶颈
整个分布式文件系统的吞吐量受限于单个名称节点的吞吐量
3）隔离问题
由于集群中只有一个名称节点，只有一个命名空间，因此无法为不同应用程序进行隔离
4）集群的可用性
一旦唯一的名称节点发生故障，会导致整个集群不可用
7.试述HDFS的冗余数据保存策略。

HDFS采用多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分不到不同的数据节点上。

8.数据复制主要是在数据写入和数据恢复的时候发生，HDFS数据复制是使用
流水线复制的策略，请阐述该策略的细节。

这个文件首先被写入本地，被切分成若干个块，每个块向HDFS集群中名称节点发起写请求，名称节点会将各个数据节点的使用情况，选择一个数据节点列表返回给客户端，当第一个数据节点接收块的时候，写入本地，并且向第二数据节点发起连接请求，把自己的接收的块传给第二个数据节点，依次类推，列表中的对个数据节点形成一条数据复制的流水线。

最后数据写完后，数据复制同时完成。

9.试述HDFS是如何探测错误发生以及如何进行恢复的。

（1）名称节点出错：
1）把名称节点的元数据信息同步存储到其他文件系统；
2）可以把第二名称节点作为不就措施
一般会把两者结合使用，其他文件系统的元数据信息放到第二名称节点进行恢复，并把第二名称节点作为名称节点使用（这样做仍然会有一部分数据丢失）
（2）数据节点出错：
数据节点定期向名称节点发送心跳信息，向名称节点报告状态，如果名称节点没有收到某些数据节点时，这时名称节点将这些数据节点标记为宕机，由于这些数据节点不可用导致一些数据块的副本数据量小于冗余因子时，就会启动数据冗余复制，生成新的副本
（3）数据出错：
网络传输和磁盘错误等因数都会造成数据的错误，客户端读取数据后，会采用md5对数据块进行校验，以正确读取到正确的数据。

如果校验出错，客户端就会请求到另外一个数据节点读取该文件块，并向名称节点报告这个文件错误，名称节点会定期检查并重新复制这个块
10.请阐述HDFS在不发生故障的情况下读文件的过程。

1）使用HDFS提供供的客户端Client，向远程的Namenode发起RPC请求；
2）Namenode会视情况返回文件的部分或者全部block列表，对于每个block，Namenode都会返回有该block拷贝的DataNode地址；
3）客户端Client会选取离客户端最近的DataNode来读取block；如果客户端本身就是DataNode，那么将从本地直接获取数据；
4）读取完当前block的数据后，关闭当前的DataNode链接，并为读取下一个block寻找最佳的DataNode；
5）当读完列表block后，且文件读取还没有结束，客户端会继续向Namenode获取下一批的block列表；
6）读取完一个block都会进行checksum验证，如果读取datanode 时出现错误，客户端会通知Namenode，然后再从下一个拥有该block 拷贝的datanode继续读。

11.请阐述HDFS在不发生故障的情况下写文件的过程。

1）使用HDFS提供的客户端Client，向远程的Namenode发起RPC 请求
2）Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；
3）当客户端开始写入文件的时候，客户端会将文件切分成多个packets，并在内部以数据队列“data queue（数据队列）”的形式管理这些packets，并向Namenode申请blocks，获取用来存储replicas 的合适的datanode列表，列表的大小根据Namenode中replication 的设定而定；
4）开始以pipeline（管道）的形式将packet写入所有的replicas 中。

开发库把packet以流的方式写入第一个datanode，该datanode 把该packet存储之后，再将其传递给在此pipeline中的下一个datanode，直到最后一个datanode，这种写数据的方式呈流水线的形式。

5）最后一个datanode成功存储之后会返回一个ack packet（确认队列），在pipeline里传递至客户端，在客户端的开发库内部维护着”
ack queue”，成功收到datanode返回的ack packet后会从”ack queue”移除相应的packet。

6）如果传输过程中，有某个datanode出现了故障，那么当前的pipeline会被关闭，出现故障的datanode会从当前的pipeline中移除，剩余的block会继续剩下的datanode中继续以pipeline的形式传输，同时Namenode会分配一个新的datanode，保持replicas设定的数量。

7）客户端完成数据的写入后，会对数据流调用close()方法，关闭数据流；
8）只要写入了dfs.replication.min的复本数（默认为1），写操作就会成功，并且这个块可以在集群中异步复制，直到达到其目标复本数（dfs．replication的默认值为3），因为namenode已经知道文件由哪些块组成，所以它在返回成功前只需要等待数据块进行最小量的复制。

大数据技术原理与应用第四章课后作业
——分布式数据库HBase 1.试述在Hadoop体系架构中HBase与其他组成部分的相互关系。

HBase利用Hadoop MapReduce来处理HBase中的海量数据，实现高性能计算；利用Zookeeper作为协同服务，实现稳定服务和失败恢复；使用HDFS作为高可靠的底层存储，利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能，Pig和Hive为HBase提供了高层语言支持，HBase 是BigTable的开源实现。

2.请阐述HBase和BigTable的底层技术的对应关系。

3.请阐述HBase和传统关系数据库的区别。

主要体现在6个方面。

4.HBase有哪些类型的访问接口？
HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。

5.请以实例说明HBase数据模型。

6.分别解释HBase中行键、列键和时间戳的概念。

①行键标识行。

行键可以是任意字符串，行键保存为字节数组。

②列族。

HBase的基本的访问控制单元，需在表创建时就定义好。

③时间戳。

每个单元格都保存着同一份数据的多个版本，这些版本采用时
间戳进行索引。

7.请举个实例来阐述HBase的概念视图和物理视图的不同。

数据概念试图
数据物理视图
8.试述HBase各功能组件及其作用。

①库函数：链接到每个客户端；
②一个Master主服务器：主服务器Master主要负责表和Region的管理
工作；
③③许多个Region服务器：Region服务器是HBase中最核心的模块，
负责存储和维护分配给自己的Region，并响应用户的读写请求
9.请阐述HBase的数据分区机制。

每个行区间构成一个分区，被称为“Region”,分发到不同的Region服务器上。

10.HBase中的分区是如何定位的？
通过构建的映射表的每个条目包含两项内容，一个是Regionde 标识符，另一个是Region服务器标识，这个条目就标识Region和Region服务器之间的对应关系，从而就可以知道某个Region被保存在哪个Region服务器中。

11.试述HBase的三层结构中各层次的名称和作用。

12.请阐述HBase的三层结构下，客户端是如何访问到数据的。

首先访问Zookeeper，获取-ROOT表的位置信息，然后访问-Root-表，获得.MATA.表的信息，接着访问.MATA.表，找到所需的Region具体位于哪个Region服务器，最后才会到该Region服务器读取数据。

13.试述HBase系统基本架构以及每个组成部分的作用。

（1）客户端
客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位
置信息，用来加快后续数据访问过程
（2）Zookeeper服务器
Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯一一个Master在运行，这就避免了Master的“单点失效”问题
（3）Master
主服务器Master主要负责表和Region的管理工作：管理用户对表的增加、删除、修改、查询等操作；实现不同Region服务器之间的负载均衡；在Region 分裂或合并后，负责重新调整Region的分布；对发生故障失效的Region服务器上的Region进行迁移
（4）Region服务器
Region服务器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求
14.请阐述Region服务器向HDFS文件系统中读写数据的基本原理。

Region服务器内部管理一系列Region对象和一个HLog文件，其中，HLog 是磁盘上面的记录文件，它记录着所有的更新操作。

每个Region对象又是由多个Store组成的，每个Store对象了表中的一个列族的存储。

每个Store又包含了MemStore和若干个StoreFile，其中，MemStore是在内存中的缓存。

15.试述HStore的工作原理。

每个Store对应了表中的一个列族的存储。

每个Store包括一个MenStore 缓存和若干个StoreFile文件。

MenStore是排序的内存缓冲区，当用户写入数据时，系统首先把数据放入MenStore缓存，当MemStore缓存满时，就会刷新到磁盘中的一个StoreFile文件中，当单个StoreFile文件大小超过一定阈值时，
就会触发文件分裂操作。

16.试述HLog的工作原理。

HBase系统为每个Region服务器配置了一个HLog文件，它是一种预写式日志（Write Ahead Log），用户更新数据必须首先写入日志后，才能写入MemStore缓存，并且，直到MemStore缓存内容对应的日志已经写入磁盘，该缓存内容才能被刷写到磁盘。

17.在HBase中，每个Region服务器维护一个HLog，而不是为每个Region
都单独维护一个HLog。

请说明这种做法的优点和缺点。

优点：多个Region对象的更新操作所发生的日志修改，只需要不断把日志记录追加到单个日志文件中，不需要同时打开、写入到多个日志文件中。

缺点：如果一个Region服务器发生故障，为了恢复其上次的Region对象，需要将Region服务器上的对象，需要将Region服务器上的HLog按照其所属的Region对象进行拆分，然后分发到其他Region服务器上执行恢复操作。

18.当一台Region服务器意外终止时，Master如何发现这种意外终止情况？为
了恢复这台发生意外的Region服务器上的Region，Master应该做出那些处理（包括如何使用HLog进行恢复）？
Zookeeper会实时监测每个Region服务器的状态，当某个Region服务器发生故障时，Zookeeper会通知Master。

Master首先会处理该故障Region服务器上面遗留的HLog文件，这个遗留的HLog文件中包含了来自多个Region对象的日志记录。

系统会根据每条日志记录所属的Region对象对HLog数据进行拆分，分别放到相应Region对象的目录下，然后，再将失效的Region重新分配到可用的
Region服务器中，并把与该Region对象相关的HLog日志记录也发送给相应的Region服务器。

Region服务器领取到分配给自己的Region对象以及与之相关的HLog日志记录以后，会重新做一遍日志记录中的各种操作，把日志记录中的数据写入到MemStore缓存中，然后，刷新到磁盘的StoreFile文件中，完成数据恢复。

大数据技术与原理第五章课后作业
——NoSQl数据库1. 如何准确理解NoSQL的含义？
NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类统称，它采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。

2. 试述关系数据库在哪些方面无法满足Web 2.0应用的需求。

主要表现在以下几个方面：
（1）无法满足海量数据的管理需求
（2）无法满足数据高并发的需求
（3）无法满足高可扩展性和高可用性的需求
3. 为什么说关系数据库的一些关键特性在Web 2.0时代成为“鸡
肋”？
（1）Web2.0网站系统通常不要求严格的数据库事务
（2）Web2.0不要求严格的读写实时性。