第3章大数据存储与计算

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、分析意义大等特点，所以要为了分析而存储，而不是为了存储而存储，即存储工作是分析的前置工作。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。
3.1.1 大数据如何存储
3. 半结构化数据存储
• 半结构化数据是指数据中既有结构化数据，也有非结构化数据，比如，摄像头回转给后端的数据中有位置、时间等结构化数据，还有图片等非结构化数据。这些数据是以数据流的形式传递的，所以半结构化数据也叫流数据。对流数据进行处理的系统叫做数据流系统。
第3章大数据存储与计算
提纲
3.1 大数据存储 3.2 HDFS文件系统 3.3 NoSQL数据库 3.4 Hbase数据库 3.5 大数据处理 3.6 分布式计算 3.7 MapReduce模型 3.8 Spark通用计算框架
《大数据导论》
3. 1 大数据存储
• Big Data（大数据技术）作为一个专有名词成为热点，主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互，要处理的数据量实在是太大、增长太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求。
2. 延迟问题
• “大数据”应用存在实时性问题，特别是涉及与网上交易或者金融类相关的应用。为了应对这样的挑战，各种模式的固态存储设备应运而生，小到简单地在服务器内部做高速缓存，大到通过高性能闪存存储的全固态介质可扩展存储系统，以及自动、智能地对热点数据进行读/写高速缓存的系列产品。
3. 安全问题
2. 非结构化数据存储
• 常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等，和结构化数据相比，这些数据是未被抽象出有价值信息的数据，需要经过二次加工才能得到其有价值信息。由于非结构化数据的生产不受格式约束、不受主题约束，人人随时都可以根据自己的视角和观点进行创作生产，所以数据量比结构化数据大。
2）历史数据与当前数据的期限如何界定；
3）历史数据应如何存储；
4）历史数据的二次增值如何解决。
3.1.1 大数据如何存储
1. 结构化数据存储
• 问题1和问题2可以一起处理。导致系统处理速度越来越慢的原因除了传统的技术架构和当初建设系统的技术滞后于业务发展之外，最主要的是对于系统作用的定位问题。从过去30年管理信息系统发展的历史来看，随着信息技术的发展和信息系统领域的不断细分，可将信息系统分为两类，一类是基于目前的数据生产管理信息系统，一类是基于历史的数据应用管理信息系统。
• 问题3和问题4可以放在一起处理。由于历史数据量规模庞大，相对稳态，其存储和加工处理与数据生产管理系统的思路应有很大的不同。结构化数据存储是为了分析而存储，采用分布式方式，其目标有两个：一是在海量的数据库中快速查询历史数据，二是在海量的数据库中进行有价值信息的分析和挖掘。
3.1.1 大数据如何存储
1ቤተ መጻሕፍቲ ባይዱ 结构化数据存储
• 结构化数据通常是人们所熟悉的数据库中的数据，它本身就是一种对现实已发生事项的关键要素进行抽取的有价信息。现在各类企业和组织都有自己的管理信息系统，随着时间的推移，数据库中积累的结构化数据越来越多，一些问题显现出来，这些问题可以分为四类：
1）历史数据和当前数据都存在一个数据库中，导致系统处理速度越来越慢；
• 在这种情况下，传统的常规技术针对大数据存储要求，采取了一些新存储架构和方法，主要包括DAS/NAS/SAN存储结构。但基于存储设备的性能、成本等问题的考虑，架构基于大规模分布式计算（MPP）的GFS/HDFS分布式文件系统、各种NoSQL分布式存储方案等应运而生。
3.1.1 大数据如何存储
• 数据流的特点是数据不是永久存储在数据库中的静态数据，而是瞬时处理的源源不断的连续数据流。在大量的数据流应用系统中，数据流来自于地理上不同位置的数据源，非常适合分布式查询处理。
3.1.2 大数据存储的问题
1. 容量问题
• 要求数据容量通常可达PB级，因此，海量数据存储系统一定要有相应等级的扩展能力。同时存储系统的扩展一定要简便，可以通过增加模块或磁盘组来增加容量，扩展时甚至不需要停机。
3.1.2 大数据存储的问题
5. 数据的积累 • 任何数据都是历史记录的一部分，而且数据的分析大多是基于时间段进行的。要实现长期的数
据保存，就要求存储厂商开发出能够持续进行数据一致性检测和保持长期高可用特性的产品，同时还要满足数据直接在原位更新的功能需求。 6. 灵活性 • 大数据存储系统的基础设施规模通常很大，因此必须经过仔细设计才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，数据会同时保存在多个部署站点，已不需要再做数据迁移。一个大型的数据存储基础设施投入使用后就很难再调整，因此它必须能适应不同应用类型和数据场景。 7. 应用感知 • 最早的一批大数据用户已经开发出针对应用的定制化的基础设施，在主流存储系统领域，应用感知技术的使用越来越普遍，它是改善系统效率和性能的重要手段， 8. 针对小用户 • 依赖大数据的不仅仅是特殊的大型用户群体，作为一种商业需求，小型企业也将会用到大数据。目前一些存储厂商已经在开发一些小型的“大数据”存储系统，以吸引那些对成本比较敏感的用户。
• 某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性要求。同时，大数据分析往往需要多类数据的相互参考，因此，会催生出一些新的、需考虑的安全问题。
4. 成本问题
• 对于需要使用大数据环境的企业来说，成本控制是关键问题。想控制成本，就意味着让每一台设备实现更高效率，同时尽量减少昂贵的部件。目前，重复数据删除技术已进入主存储市场。
3.2 HDFS文件系统
3.2.1 相关概念
1．存储块
• HDFS使用Block（存储块）对文件的存储进行操作，Block是HDFS的基本存储单元，在 Hadoop1.x中默认大小是64M，Hadoop2.x中大小默认为128M，一个文件被分成多个块，以块作为存储单位块的大小远远大于普通文件系统，可以最小化寻址开销。

第3章 大数据存储与计算

第3章大数据存储与计算