云计算——分布式存储PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019/9/19
13
(1)SAN(Storage Area Network)
• 通过将磁盘存储系统和服 务器直接相连的方式提供 一个易扩展、高可靠的存 储环境,高可靠的光纤通 道交换机和光纤通道网络 协议保证各个设备间链接 的可靠性和高效性。设备 间的连接接口主要是采用 FC或者SCSI。
2019/9/19
2019/9/19
5.1.3 分布式存储的发展历史
1.20世纪80年代的代表:AFS、NFS、Coda (1) AFS:1983年CMU和IBM共同合作开发了Andrew文件系 统(Andrew File System,AFS) (2) NFS:1985年,Sun公司基于UDP开发了网络共享文件 系统(Network File System, NFS) (3) Coda:1987年,CMU在基于AFS的基础上开发了Coda 文件系统
图5.3 SAN网络结构
14
(2) NAS(Network Attached Storage)
• 通过基于TCP/IP的各种上 层应用在各工作站和服 务器之间进行文件访问, 直接在工作站客户端和 NAS文件共享设备之间建 立连接,NAS隐藏了文件 系统的底层实现,注重 上层的文件服务实现, 具有良好的扩展性
• 分布式键值系统是分布式表系统的一种简化,一般用作缓存, 比如Memcache。
• 从数据结构的角度看,分布式键值系统支持将数据分布到集 群中的多个存储节点。
• 一致性散列是分布式键值系统中常用的数据分布技术,由于 在众多系统中被采用而变得非常有名。
2019/9/19
7
3 分布式表系统
• 分布式表系统主要用于存储半结构化数据。
2019/9/19
12
5.1.3 分布式存储的发展历史
3.20世纪末的代表: (1) SAN(Storage Area Network) (2) NAS(Network Attached Storage) (3) GPFS (General Parallel File System) (4) GFS (Google File System) (5) HDFS (Hadoop Distributed File System)
• 与分布式键值系统相比,分布式表系统不仅仅支持简单的 CRUD操作,而且支持扫描某个主键范围。
• 分布式表系统以表格为单位组织数据,每个表格包括很多行, 通过主键标识一行,支持根据主键的CRUD功能以及范围查 找功能。
• 典型的分布式表系统包括Google Bigtable、Microsoft Azure Table Storage、Amazon DynamoDB等。
2019/9/19
11
5.1.3 分布式存储的发展历史
2.20世纪90年代的代表:XFS、Tiger Shark、SFS
XFS:加州大学伯克利分校(UC Berkeley)开发了XFS文件系统,克服了 以往分布式文件系统只适用于局域网而不适用于广域网和大数据存储的 问题,提出了广域网进行缓存较少网络流量设计思想,采用层次命名结 构,减少Cache一致性状态和无效写回Cache一致性协议,从而减少了网 络负载,在当时获得了一定的成功。
• 随着大数据时代的到来,为了解决关系数据库面临的可扩展性、 高并发以及性能方面的问题,各种各样的非关系数据库不断涌现, 这类被称为NoSQL的系统,可以理解为“Not Only SQL”的含义。
2019/9/19
9
5.1.3 分布式存储的发展历史
2019/9/19
图5.2 分布式文件系统的发展
10
• 正因为数据类型的多样性,不同的分布式存储系统适合处理不同类 型的数据,因此可以将分布式存储系统分为四类: 1. 分布式文件系统 2. 分布式键值(Key-Value)系统 3. 分布式表系统 4. 分布式数据库
2019/9/19
5
1. 分布式文件系统
• 分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件。
• 分布式存储系统包括以下几个特性:
– 高性能 – 可扩展 – 低成本 – 易用性
• 分布式存储系统的技术挑战包括:数据和状态信息的持久化、
数据的自动迁移、系统的自动容错、并发读写的数据的一致性
2019/等9/19方面。
4
5.1.2 分布式存储分类
• 分布式存储面临的应用场景和数据需求都比较复杂,根据数据类型, 可以将其分为非结构化数据、结构化数据、半结构化数据三类。
2019/9/19
Machine Learning
Data engineering
2
5.1 分布式存储的基础
5.1.1 基本概念 5.1.2 分布式存储分类 5.1.3 分布式存储的发展历史
2019/9/19
3
5.1.1 基本概念
• 分布式存储系统的定义:分布式存储系统是将为数众多的普通 计算机或服务器通过网络进行连接,同时对外提供一个整体的 存储服务。
2019/9/图19 5.1 数据块与Blob对象、定长块、大文件之间的关系
6
2 分布式键值(Key-Value)系统
• 分布式键值系统用于存储关系简单的半结构化数据,它提供 基于主键的CRUD(Create/Read/ Update/Delete)功能,即根 据主键创建、读取、更新或者删除一条键值记录。典型的系 统有Amazon Dynamo。
云计算原理与实践
Principles and Practice of Cloud Computing
2019/9/19
1
Outline
• 5.1 分布式存储的基础
• 5.2 文件存储
Domain expertise
• 5.3 从单机存储系统到分布式存储系统
• 5.4 实践:分布式存储系统Ceph
Mathematics
Leabharlann Baidu
2019/9/19
8
4 分布式数据库
• 分布式数据库是从传统的基于单机的关系型数据库扩展而来,用 于存储大规模的结构化数据。
• 分布式数据库采用二维表格组织数据,提供经典的SQL关系查询语 言,支持嵌套子查询、多表关联等复杂操作,并提供数据库事务 以及并发控制。
• 关系数据库是目前为止最为成熟的存储技术,功能丰富,有完善 的商业关系数据库软件的支持。