分布式对象存储技术和应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
主流网络存储结构的问题
存储区域网(SAN):
高性能 容错性 安全共享?
附网存储(NAS):
扩展性 共享 性能?
对象存储体系结构提供了一个带有NAS系统的传统的文件 共享和管理特征的单系统映象(single-system-image)文 件系统,并改进了SAN的资源整合和可扩展的性能
10
必然趋势
23
4.元数据服务器 4.元数据服务器 (Metadata Server)
为客户端提供元数据,主要是文件的逻辑视图, 为客户端提供元数据,主要是文件的逻辑视图,包 括文件与目录的组织关系、 括文件与目录的组织关系、每个文件所对应的 OSD等。 等
24
4.元数据服务器 4.元数据服务器 (Metadata Server)
开销高、带宽低、延迟大, 不利于高性能集群中应用
对象
块存储设备 +文件系统 +定位逻辑 +应用程序
支持高并行性、可伸缩 处于发展阶段,相应的硬件、 的数据访问, 管理性好、 软件支持有待进一步完善 安全性高、适合高性能 集群使用
27
对象存储的特性(总结) 对象存储的特性(总结)
性能优势 存储设备的智能化 数据的共享更容易 管理更方便 更好的安全性
传统块存储与对象存储
13
对象存储结构
传统的访问层次和虚拟数据访问模型
14
对象存储设备(OSD) 对象存储设备(OSD)
对象是数据存储的基本单元 提供类似文件的访问接口 Seagate OSD设备 设备 CPU+磁盘 磁盘+NIC 磁盘
15
对象存储系统组成
对象(Object)
包含了文件数据以及相关的属性信息, 包含了文件数据以及相关的属性信息,可以进行自我管理
6
对象存储
对象(Object)
基本存储单元
名字空间:对象 名字空间:对象ID 数据 元数据
包含了文件数据以及相关的属性信息, 包含了文件数据以及相关的属性信息, 可以进行自我管理
元数据类似于inode,描述了对象在磁盘上 , 元数据类似于 的块分布
源自文库属性
根据需要而定义 E.g. 多媒体对象的延迟和吞吐请求
26
对象存储与传统存储的对比
存储接口 块 级 存 储 存储系统 优点 如: SAN , 提供高性能 的随机I/O和数据吞吐 率 缺点 可扩展性和可管理性较差、 价格较高、不能满足成千上 万CPU 规模的系统
块
块存储设备
文 件 储 存 对 象 存 储
文件
块存储设备 +文件系统
如:NAS, 扩展性好、易 于管理、价格便宜
22
文件系统读访问实例: 文件系统读访问实例:
1) 客户端应用发出读请求; 2) 文件系统向元数据服务器发送请求,获取要读取的数据 所在的OSD; 3) 然后直接向每个OSD发送数据读取请求; 4) OSD得到请求以后,判断要读取的Object,并根据此 Object要求的认证方式,对客户端进行认证,如果此客 户端得到授权,则将Object的数据返回给客户端; 5) 文件系统收到OSD返回的数据以后,读操作完成。
3
目录
研究总体思路 分布式对象存储技术解析 支撑云相关工作汇报 公众服务云相关工作汇报 下一步工作建议
4
分布式
CAP理论: 理论: 理论 · C: Consistency 一致性 · A: Availability 可用性 指的是快速获 可用性(指的是快速获 取数据) 取数据 · P: Tolerance of network Partition 分 区容忍性(分布式 分布式) 区容忍性 分布式
在传统的文件系统中, 在传统的文件系统中,元数据由本机或者文件服务器负责 维护,每次对数据块的操作都要获取元数据。 维护,每次对数据块的操作都要获取元数据。 在对象存储系统中,由于每次操作只有一次对元数据的访 问,具体的数据传输都由OSD和客户端通过直接连接进行, 大大减少了元数据的操作,降低了元数据服务器的负担, 从而为系统的扩展提供了可能性。
28
总结: 总结:关于分布式对象存储
对象存储是一个分布式系统,对象特别适用于那些需要无限规模的应 用 对象存储技术非常适用于PB级存储应用,尤其是视频和影像对象的 存储 。 对象存储可以完成文件系统存储所无法完成的工作。 对象存储可以完成文件系统存储所无法完成的工作。它可以用来储存 大量非结构化数据,而那正是当今世界上需要储存的大多数数据( 大量非结构化数据,而那正是当今世界上需要储存的大多数数据(在 未来的十年里,需要储存的数据数量将增加50倍 未来的十年里,需要储存的数据数量将增加 倍,模块存储系统根本 无法储存那么多的数据 ) 分布式文件系统是实现非结构化数据存储的主要技术,说到分布式文 件系统就不得不提GFS(Google File System) ,以及 以及HDFS( ( Hadoop Distributed File System) )
25
4.元数据服务器 4.元数据服务器 (Metadata Server)
特点
客户端采用Cache来缓存数据
当多个客户端同时访问某些数据时,MDS提供 分布的锁机制来确保Cache的一致性。
为客户端提供认证
为了增强系统的安全性,MDS为客户端提供 为了增强系统的安全性, 为客户端提供 认证方式。 将依据MDS的认证来决定是 认证方式。OSD将依据 将依据 的认证来决定是 否为客户端提供服务。 否为客户端提供服务。
8
网络存储需要解决的主要问题
随着网络技术的发展,网络化存储逐渐成为主流技术。其 需要解决的主要问题如下:
提供高性能存储,在I/O级和数据吞吐率方面能满足成百上千台集 群服务器访问请求; 提供安全的共享数据访问,便于集群应用程序的编写和存储的负 载均衡; 提供强大的容错能力,确保存储系统的高可用性。
CAP原理告诉我们,这三个因素最多只 能满足两个,不可能三者兼顾。对于分 布式存储系统而言,分区容忍性是基本 需求,因此只有CP和AP两种选择。CP 模式保证分布在网络上不同节点数据的 一致性,但对可用性支持不足;AP模式主 要实现”最终一致性”来确保可用性和 分区容忍性,但弱化了一致性需求。分 布式存储系统,它们的基本实现都是非 结构化P2P存储系统,通过一个服务器充 当索引服务器,然后节点之间相互通信 。
5
对象
谈到“面向对象”这个词,人们一定会马上联想到计算机程序设计中的 面向对象,在编程中它的本质是把数据和处理数据的过程当成一个整 体——对象;而我们今天要谈的面向对象存储技术,本质上也是把待处 理的数据当成一个整体——对象,但是却不能把它等同于前者。 每个Object是数据和数据属性集的综合体。数据属性可以根据应用的需 是数据和数据属性集的综合体。 每个 是数据和数据属性集的综合体 求进行设置,包括数据分布、服务质量等。在传统的存储中, 求进行设置,包括数据分布、服务质量等。在传统的存储中,块设备要 记录每个存储数据块在设备上的位置。 维护自己的属性, 记录每个存储数据块在设备上的位置。Object维护自己的属性,从而简 维护自己的属性 化了存储系统的管理任务,增加了灵活性。 的大小可以不同, 化了存储系统的管理任务,增加了灵活性。Object的大小可以不同,可 的大小可以不同 以包含整个数据结构,如文件、数据库表项等。 以包含整个数据结构,如文件、数据库表项等。 因此,对象是数据存储的基本单元 因此,对象是数据存储的基本单元
• OSD(Object-based Storage Device) (
– 一个智能设备,是Object的集合
• 文件系统
– 文件系统运行在客户端上,将应用程序的文件系统请 求传输到MDS和OSD上
• 元数据服务器 元数据服务器(Metadata Server,MDS) ,
– 系统提供元数据、Cache一致性等服务
19
OSD的主要功能 OSD的主要功能
数据存储和安全访问
OSD使用Object对所保存的数据进行管理。它将数据存放到磁盘的 磁道和扇区,将若干磁道和扇区组合起来构成Object,并且通过 此Object向外界提供对数据的访问。每个Object同传统的文件相 似,使用同文件类似的访问接口,包括Open、Read、Write等。但 是两者并不相同,每个Object可能包括若干个文件,也可能是某 个文件的一部分,且是独立于操作系统的。除了具体的用户数据 外,OSD还记录了每个Object的属性信息,主要是物理视图信息。 将这些信息放到OSD上,大大减轻了元数据服务器的负担,增强了 整个存储系统的并行访问性能和可扩展性。
对象存储体系结构提供了一个带有NAS系统的传统的文件 共享和管理特征的单系统映象(single-system-image)文 件系统,并改进了SAN的资源整合和可扩展的性能 目前对象存储系统已成为Linux集群系统高性能存储系统的 研究热点,如Panasas公司的Object Base Storage Cluster Panasas Object System系统和Cluster File Systems公司的Lustre等。 对象存储:块和文件之外的存储形式
分布式对象存储技术和应用
2011.10
目录
研究总体思路 分布式对象技术解析 支撑云相关工作汇报 公众服务云相关工作汇报 下一步工作建议
2
研究思路概述
What:首先搞清楚是什么
分布式存储、对象存储技术核心实质
Why :然后追寻为什么
技术产生原因背景,旨在解决何种问题
How :最后落实怎么做
技术架构、技术方案,以及具体应用案例;
17
对象分类
18
2、OSD(Object-based Storage Device) OSD(Object每个OSD都是一个智能设备,具有自己的存储介质、处理 每个 都是一个智能设备,具有自己的存储介质、 都是一个智能设备 内存以及网络系统等,负责管理本地的Object,是对 器、内存以及网络系统等,负责管理本地的 , 象存储系统的核心。 同块设备的不同不在于存储介质, 象存储系统的核心。OSD同块设备的不同不在于存储介质, 同块设备的不同不在于存储介质 而在于两者提供的访问接口。 而在于两者提供的访问接口。
20
21
3、文件系统
文件系统对用户的文件操作进行解释,并在元数据服务器和 OSD间通信,完成所请求的操作。
现有的应用对数据的访问大部分都是通过POSIX文件方式进行的, 对象存储系统提供给用户的也是标准的POSIX文件访问接口。 接口具有和通用文件系统相同的访问方式,同时为了提高性能, 也具有对数据的Cache功能和文件的条带功能。 同时,文件系统必须维护不同客户端上Cache的一致性,保证文 件系统的数据一致
11
研究总体思路 分布式对象存储技术解析 分布式对象存储技术必然性 分布式对象存储技术结构 应用案例
12
对象存储结构
对象存储(Object-Based Storage, OBS)综合了NAS和SAN的优点,同时具有 SAN的高速直接访问和NAS的数据共享等优势,提供了具有高性能、高可靠性、 跨平台以及安全的数据共享的存储体系结构。
因此,对象存储就是实现对象具有高性能、高可靠性、 因此,对象存储就是实现对象具有高性能、高可靠性、跨 对象具有高性能 平台以及安全的数据共享的存储体系, 平台以及安全的数据共享的存储体系,是块和文件之外的 存储形式
7
目录
研究总体思路 研究总体思路 分布式对象存储技术解析 分布式对象存储技术必然性 公众服务云相关工作汇报 下一步工作建议
• 网络连接
16
1. 对象(Object) 对象(Object)
对象存储的基本单元。每个 对象存储的基本单元。每个Object是数据和数据属性集的综 是数据和数据属性集的综 合体。数据属性可以根据应用的需求进行设置, 合体。数据属性可以根据应用的需求进行设置,包括数据 分布、服务质量等。在传统的存储中, 分布、服务质量等。在传统的存储中,块设备要记录每个 存储数据块在设备上的位置。 维护自己的属性, 存储数据块在设备上的位置。Object维护自己的属性,从 维护自己的属性 而简化了存储系统的管理任务,增加了灵活性。 而简化了存储系统的管理任务,增加了灵活性。Object的 的 大小可以不同,可以包含整个数据结构,如文件、 大小可以不同,可以包含整个数据结构,如文件、数据库 表项等。 表项等。