主流云存储系统竞争分析报告
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
对称架构
去中心化架构 典型系统
Dynamo(亚马逊) Cassandra(Facebook) Nuclear(人人网) Swift(OpenStack) Ceph(源于高校科研项目) Tair(淘宝) GlusterFS S3(亚马逊) Voldemort(Linkedin) beansDB(豆瓣)
可行系统
10
调研总结
不同的应用场景,不同的性能考量,不同的存储架构,似乎没有一种通 用的方法解决所有问题,一切都应取决于支撑的业务需求是怎么样的。 相对于专用系统,通用系统难以达到预期的效果,同时增加了开发和调 优方面的复杂性。 中心化架构与对称架构并不是完全对立的,两者都可能存储大文件和小 文件,区别只是相对而言的。在大数据存储、分析领域,中心化架构较 多,HDFS仍然被广泛使用或模仿。而在互联网应用中(电子商务、社 交网络、APP),以中小文件的存储为主,对称架构较多,Dynamo和 BigTable的设计理念被广泛地参考。 大多数系统都抛弃了目录结构。因为目录树的开销非常大,去掉之后, 集群的性能和扩展性被极大地提高。 疑惑在于,像阿里云这种开放云存储服务,如何同时解决大文件和小文 件的存储需求。
2
分布式存储系统
简介
分布式存储系统
企业内部系统(GFS、Dynamo、Nuclear等),用以支持企业的各 种前端业务系统。 开放云存储服务(S3、阿里云、Dropbox、金山快盘等),开发者可 基于其进行应用与系统开发,专心于业务逻辑。 开源项目(Hadoop、FastDFS、OpenStack、Ceph等)。
5
Leabharlann Baidu
目录
中心化架构
HDFS(雅虎) TFS(淘宝) FastDFS
对称架构
Dynamo(亚马逊) Swift(OpenStack) Ceph(源于高校科研项目) Tair(淘宝) GlusterFS
6
调研总结
7
调研总结
每个流行的云存储系统都有自己的侧重点 可选的架构很多,关键是要针对特定的应用场景
主流云存储系统竞争分析报告
简介
NAS & SAN系统
软硬件结合的系统 基于特殊硬件,价格昂贵 主要依靠特殊硬件保证性能与可靠性 现已原生支持Hadoop 硬件厂商设计制造 EMC、IBM、HP、Dell、NetApp… 中间件系统 基于普通硬件,性价比高 主要依靠集群扩展保证性能与可靠性 互联网公司 & 开源项目 Google、亚马逊、雅虎、Facebook、淘宝、人人网…
12
Thank You!
HDFS
雅虎,开源 (中心化架构)
14
简介
HDFS是Mater/Slave架构,集群包含一个NameNode和多 个DataNode。从最终用户的角度来看,它和传统的文件系统 一样,可以通过目录路径对文件执行CRUD(Create、Read 、Update和Delete)操作。 NameNode是主服务器(单节点)
8
调研总结
离线型数据分析系统
数据总量大,单个文件大,更注重系统吞吐率,而非低延迟。 为适应流行的MapReduce模型,需要文件分块,并配合上层逻辑, 采用大块顺序读写的方式提升性能。
线上服务系统
根据服务类型而采用差异化的存储方式。 针对语音视频等大文件,可能会采用与离线系统相同的方式,文件分 块顺序读写,从而达到更高的传输速度。由于文件数量相对较少,有 可能完全实现传统文件系统的目录结构与权限等功能。 电子商务、社交网络等应用场景,多为小文件(小图片与小视频、记 录与评价信息等),文件数量庞大,增长快速,用户基数大,实时性 要求高,读写随机性强,对性能与扩展性的要求很高。
11
调研总结
云存储系统的架构大同小异,成功的关键在于细节:操作系统级优化、 文件系统级优化、优秀的代码实现、稳定性…… 关注个性化: 策略、代码和性能的优化。 数据分布方案 & 副本分布方案,文件去重。 模块化 & 插件化,可热拔插 & 动态替换。 抽象的存储引擎层,灵活地切换持久化存储或缓存。 融合SSD与机械硬盘,权衡性能与成本。 底层文件系统的选择与优化。 文件分块/聚合,增量同步,标准化接口(RESTfull、POSIX)。 系统部署与扩展的便捷性,自动化程度。 分布式环境下特别需要关注一致性问题,权衡性能与一致性等级。并发 操作、各种版本冲突、机器故障、机器恢复、数据迁移与用户访问并存 ……集群状态不断变化,如何确保一致性约束。
系统规模大小 业务类型与压力 实时 / 非实时 大文件 / 中等文件 / 小文件 连续读写 / 随机读写 吞吐率 / 低延迟 强一致性 / 弱一致性 性能 & 可靠性 扩展性 & 单节点问题 是否要求目录结构 可配置 & 快速部署 大数据离线/在线分析 电子商务 社交网络 网络硬盘 邮件服务 图片服务 语音视频服务 虚拟机调度与镜像存储 开放云存储平台
架构分类
中心化架构 对称架构
3
中心化架构
Master/Slave架构 典型系统
GFS(Google) CloudStore Gfarm PVFS Lustre(SUN) MapR TFS(淘宝) FastDFS HDFS(雅虎) MooseFS PNFS OrangeFS
9
调研总结
应用场景
大数据离线/在线分析 电子商务 社交网络 网络硬盘 邮件服务 图片服务 语音视频服务 虚拟机调度 和镜像存储 HDFS、Swift、GlusterFS TFS、FastDFS、Dynamo、Swift、Tair TFS、FastDFS、Dynamo、Swift、Tair HDFS、FastDFS、Swift、GlusterFS TFS、FastDFS、Dynamo、Swift、Tair TFS、FastDFS、Dynamo、Swift、Tair HDFS、FastDFS、Swift、GlusterFS HDFS、Swift、GlusterFS