大数据存储管理系统面临挑战的探讨

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1) 大数据的存储及处理不仅在于规模之大,更加 要求其传输及处理的响应速度快(Velocity)。
相对于以往较小规模的数据处理,在数据中心处理 大规模数据时,需要服务集群有很高的吞吐量才能够让 巨量的数据在应用开发人员“可接受“的时间内完成任 务。这不仅是对于各种应用层面的计算性能要求,更加 是对大数据存储管理系统的读写吞吐量的要求。例如个 人用户在网站选购自己感兴趣的货物,网站则根据用户 的购买或者浏览网页行为实时进行相关广告的推荐,这 需要应用的实时反馈;又例如电子商务网站的数据分析 师根据购物者在当季搜索较为热门的关键词,为商家提 供推荐的货物关键字,面对每日上亿的访问记录要求机 器学习算法在几天内给出较为准确的推荐,否则就丢失 了其失效性;更或者是出租车行驶在城市的道路上,通 过GPS反馈的信息及监控设备实时路况信息,大数据处 理系统需要不断地给出较为便捷路径的选择。这些都要 求大数据的应用层可以最快的速度,最高的带宽从存储 介质中获得相关海量的数据。另外一方面,海量数据存 储管理系统与传统的数据库管理系统,或者基于磁带的 备份系统之间也在发生数据交换,虽然这种交换实时性
Keywords Big Data Traditional Storage Storage Management Distributed
0 引言
随着互联网的不断扩张和云计算技术的进一步推 广,海量的数据在个人、企业、研究机构等源源不断地 产生。这些数据为日常生活提供了便利,信息网站可以 推送用户定制的新闻,购物网站可以预先提供用户想买 的物品,人们可以随时随地分享。但是如何有效、快 速、可靠地存取这些日益增长的海量数据成了关键的问 题。传统的存储解决方案能提供数据的可靠性和绝对的 安全性,但是面对海量的数据及其各种不同的需求,传 统的解决方案日益面临越来越多的问难,比如数据量的 指数级增长对不断扩容的存储空间提出要求,实时分析
2 大数据存储与应用的特点分析
“大数据”是由数量巨大、结构复杂、类型众多数据 构成的数据集合,是基于云计算的数据处理与应用模 式,通过数据的整合共享,交叉复用形成的智力资源和 知识服务能力。其常见特点可以概括为3V:Volume、 Velocity、Variety(规模大、速度快、多样性)[1]。
大数据具有数据规模大(Volume)且增长速度快 的特性,其数据规模已经从PB级别增长到EB级别,并 且仍在不断地根据实际应用的需求和企业的再发展继续 扩容,飞速向着ZB(ZETA-BYTE)的规模进军。以国
无论是大数据存储系统还是传统的存储系统,容量
规划都是一个重要的问题,容量规划一是要满足现有的
3 传统存储在大数据应用中面临的挑战
作为数据存取的载体,大数据存储管理系统与传统 的存储系统仍然具有许多相似的特性,例如安全性、可 用性、可靠性、可扩性及高效性。
1) 安全性(Security) 虽然大数据的存储访问是位于企业的数据中心内 部,对于外部用户已经具有防火墙隔离功能,但是对于 企业内部来说不同部门的数据也并非完全可以共享的, 例如人事部门对于企业内部工资的管理,或者金融企业 历史交易数据等。为每一个部门建立一个大数据的存储 管理平台并不现实,较为实用的方法是类似于传统的数 据库访问,所有部门共享一个大数据存储池,通过添加 必要的访问控制来实现数据访问的安全性。 2) 可用性(Availability)和可靠性(Reliability) 数据的准确性是作为存储管理系统最为基础的要
1 大数据定义及其广泛应用与典型架构
越来越多的人可以通过网络获得包括架构 ( I A A S ) 、 平 台 ( PA A S ) 以 及 软 件 ( S A A S ) 等 服 务,云计算为终端用户提供了便捷而人性化的服务,大 大地降低他们的使用成本,优化了用户体验,更拓展了 互联网企业自身的营收业务。例如购物网站通过记录每 位访问用户在其网站上每一次的鼠标点击操作来预测用 户的喜好, 并由后台计算产生相关产品的购物推荐,提 高了广告产品推广的针对性同时也完善了个人用户的购
(2) 大数据由于其来源的不同,具有数据多样性的 特点。
所谓多样性,一是指数据结构化程度,二是指存储 格式,三是存储介质多样性。对于传统的数据库,其存 储的数据都是结构化数据,格式规整,相反大数据来源 于日志、历史数据、用户行为记录等等,有的是结构化 数据,而更多的是半结构化或者非结构化数据,这也正 是传统数据库存储技术无法适应大数据存储的重要原因 之一。所谓存储格式,也正是由于其数据来源不同,应 用算法繁多,数据结构化程度不同,其格式也多种多 样。例如有的是以文本文件格式存储,有的则是网页文 件,有的是一些被序列化后的比特流文件等等。所谓存 储介质多样性是指硬件的兼容,大数据应用需要满足不 同的响应速度需求,因此其数据管理提倡分层管理机 制,例如较为实时或者流数据的响应可以直接从内存或 者Flash(SSD)中存取,而离线的批处理可以建立在 带有多块磁盘的存储服务器上,有的可以存放在传统的 SAN或者NAS网络存储设备上,而备份数据甚至可以存 放在磁带机上。因而大数据的存储或者处理系统必须对 多种数据及软硬件平台有较好的兼容性来适应各种应用 算法或者数据提取转换与加载(ETL)。
上拥有两份备份在不同的节点上,不同的机架上也有相
应的备份,从而达到数据丢失的自动还原功能实现数据
的可用性。而为了达到数据备份的一致性,在数据备份
创建的过程中也有相应的备份点及重传机制作为保障。
从技术方法上来说,两者是十分相似的,甚至在大数据
领域所采用的方法较之传统的存储系统技术更为简朴。 3) 可扩性(Scalability)
软件工程 34
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
物体验。随着成千上万的终端用户的并行访问,仅用户 行为的跟踪就会产生巨量的数据,这些数据的处理与存 储对于互联网企业的传统数据仓库来说带来了新的问题 和挑战,从而“大数据”的概念应运而生。所谓大数据或 称巨量资料、海量资料,指的是所涉及的资料量规模巨 大到无法透过目前主流软件工具,在合理时间内达到撷 取、管理、处理、并整理成为帮助企业经营决策更积极 目的的资讯[1]。
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
大数据存储管理系统面临挑战的探讨
曹刚
(易安信信息技术研发(上海)有限公司 200433)
摘 要 日益发展的大数据研究和应用对大级别数据的存取、分析和再处理提出越来越高的要求,本文根据大数据存 储的定义和特点,主要探讨了稳定可靠的传统存储管理模式在大数据应用中面临的挑战,并对传统存储管理模式能否满 足大数据管理的需求进行了分析,同时介绍了业界较为知名的几个大数据存储管理系统的实际解决方案及其优缺点。
作者简介:曹刚,男,1981年11月生,硕士,研发工程师,主要从 事及研究领域:存储系统数据保护和有效性项目设计和开发, Email:gang.cao@emc.com。
海量的数据对存储计算能力提出要求。一方面传统的存 储解决方案正在改变,比如多级存储来不断适应大数据 存储管理系统的特点和要求,另一方面全新的存储解决 方案正日渐成熟,来有效满足大数据的发展需求。
SQL
手机
网络
社交网络
日志 传感器
数据提取转换和加载 ETL



大数据处理






大数据存储管理


数据输出
交互反馈
数据流结果 数据输出
离线数据报表
数据备份
图1 典型的大数据存储管理及处理系统架构
内最大的电子商务企业淘宝为例,根据淘宝网的数据显 示,至2011年底,淘宝网最高单日独立用户访问量超过 1.2亿人,比2010年同期增长120%,注册用户数量超过 4亿,在线商品数量达到8亿,页面浏览量达到20亿规 模,淘宝网每天产生4亿条产品信息,每天活跃数据量 已经超过50TB[2]。所以大数据的存储或者处理系统不仅 能够满足当前数据规模需求,更需要有很强的可扩展性 以满足快速增长的需求。
大数据自诞生以来其规模也在不断地发生改变,从 开 始 P B ( P E TA - B Y T E ) 级 别 正 快 速 地 发 展 到 E B (EXA-BYTE)级别,大数据规模的不断快速扩张是因 为其广泛的数据源,这些数据有的正如前面例子所提到 的,是每天线上跟踪用户日常行为所产生,或者是网络 中手机和传感器数据采集而来;有的则是企业自身多年 以来信息积累而成,例如金融行业历史数据来引导未来 的投资方向,又如最大的电子商务网站淘宝根据其历史 记录推出的数据魔方服务产品来帮助商家指定营销手 段;有的是服务系统日志收集而来,例如从网络服务器 的工作日志或者数据库日志中提取到。这些各种各样的 数据来自不同的设备或者应用,其格式也不尽相同,被 实时或事后采集并保存到大数据存储管理系统中,根据 不同的应用需求被大数据处理系统进行离线或实时或交 互式的处理,之后可能的用途包括:①成为最终的数据 报表反馈给应用开发人员或数据分析师;②成为快速查 询或者计算的结果反馈给前端应用服务;③成为更新后 的数据表格传送到数据库中以供查询;④被压缩成备份 数据存放到大数据存储集群中。大数据的存储与处理典 型架构(如图1)已经逐渐取代传统的数据仓库成为数 据中心核心部件,发挥着云计算时代重要的作用,并且 使得数据中心发生着巨大的变化,迎接新的挑战。
Abstract Nowadays there emerges Big Data phenomenon in research and real world applications. Along with the fast growing of data in different types, Big Data requires much more on its storage layer, especially for the data keeping and accessing, analysis and management. The traditional high reliable and stable storage system might hardly meet these requirements any more. According to the key properties of Big Data, this article not only explores the concrete challenges, but also illustrates several popular Big Data software solutions.
关键词 大数据 传统存储 存储管理 分布式 doi: 10.3969/j.issn.1674-7933.2013.06.004
Discussion of Challenges from the Big Data Storage Management System
CAO Gang
(EMC Information Technology Research & Development (Shanghai) Co., Ltd. Shanghai 200433, China)
求,对于大数据的存储来说,其准确性的要求可能没有
传统数据库这么高,因为其数据规模庞大可以容忍较少
量的数据错误,但是数据准确性依然是不能忽视的重要
特性。传统的存储是通过冗余备份(例如磁盘阵列)、
定期/强制写入磁盘、双控制器来确保数据的准确性,而
在大数据存储系统中则是通过其中较为简单的多副本
Fra Baidu bibliotek
(即冗余备份)方式做到容错的,一般来说同一个机架
35 软件工程
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
不高可以离线完成,但是由于数据规模的庞大,较低的 数据传输带宽也会降低数据传输的效率,而造成数据迁 移瓶颈。因此大数据的存储与处理的速度或是带宽是其 性能上的重要指标。
相关文档
最新文档