2013-05-05内存计算-大数据的处理机遇与挑战

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专栏
第 9 卷 第 4 期 2013 年 4 月
内存计算: 大数据处理的机遇与挑战
关键词 :内存计算 大数据
金 海 廖小飞 叶晨成 华中科技大学
学术界和工业界的热门话题 级到千万亿字节 (PB) 级甚至到 以计算为中心的技术难以满足大
只用了 5 年时间就从云计算转到 十万亿亿字节 (ZB) 级别 ;种类 数据的应用需求,因此,整个 IT
略地位。让数据“说话”,已经 速度 (velocity),大数据处理的速 为新内存体系的一部分,而非作
成为这个时代最重要的 IT 命题 度问题愈发突出,时效性难以保 为 虚 拟 内 存 交 换 区 域 的 外 存 补
之一。
证。总体来看,大数据处理的挑 充,计算不仅存在于传统的内存
让数据“说话”并不是一个 战实质上是由信息化设施的处理 上,也在新型存储级内存上发生。
新命题。在过去的研究和历史实 能力与数据处理的问题规模之间
践中,人们从体系结构、编程模 的矛盾引起的。大数据所表现出 问题与机遇
型、算法设计、并行处理、存储 的增量速度快、时间局部性低等特
机制等多个方面提出了许多真知 点,客观上加剧了矛盾的演化,使
为大数据处理量身定制一套
灼见。但是,这些体系、策略和 得以计算为中心的传统模式面临 合适的计算架构并非易事。当前
映在编程模型上。由磁盘引发的
I/O 瓶颈问题被解决,内存计算
模式中的编程模型对数据传输的 用户 处理被弱化,从而使得整个模型 程序
多核 内存增大
更加集中于解决数据处理问题。
内存
此外由于 SCM 的 I/O 延迟远小
于磁盘,传统模型中磁盘与内存 的数据一致性等问题不复存在, 编程模型也因此有相应改变。总 体而言,内存计算模式下的编程
能简单方便地在分布式系统上获 成本的下降,一场围绕存储和内
内存计算是以大数据为中
得很好的可扩展性和容错性。然 存体系结构的变革悄然来临,吸 心,通过对体系结构及编程模型
而 MapReduce 需要从磁盘获取数 引了诸如 IBM、英特尔、美光、 等进行重大革新,最终显著提升
据,再将中间结果数据写回磁盘。 三星等一些 IT 企业的关注和投 数据处理性能的新型计算模式。
系统利用率,比如 :两阶段提交 memory, DRAM),但是其容量和 因此,在内存计算模式中,数据
协议、Paxos 提交协议和分布式 单位价格却将远低于 DRAM。 的存储与传输取代了计算任务成
事务内存。但是,这些优化技术
因 此, 基 于 新 型 存 储 器 件 为新的核心。
41
专栏
第 9 卷 第 4 期 2013 年 4 月
数据。人们甚至认为 :数据,这 重在快速增加 ;价值 (value),数 模式,即内存计算模式创造了机
个快速增长的集合,已经上升到 据价值密度低,难以进行预测分 会。它将新型存储级内存 (storage
了与石油一样的同等重要的战 析、运营智能、决策支持等计算; class memory, SCM) 器件设计成
处理器以及增加 I/O 通道来缓解 memory, FeRAM)、相变存储器 种以新型非易失型存储设备为基
大数据处理带来的挑战。但是这 (phase change memory, PCM) 等 础构建混合内存体系以加速计算
些增加又为体系结构的改进带来 为代表的新兴非易失性随机存储 的模式,称为内存计算。从体系
了大数据。在社会计算、工业计 (variety),数据种类繁多,既包括 架构的革命性重构势在必行。随
算、商业计算、科学计算等诸多 传统的结构化数据又包括诸如文 着新型非易失性存储器件的出现
领域,数据资源的价值逐步为人 本、视频、图片和音频等非结构 和成本的不断走低,客观上为设
们所认知,许多决策依据转向了 化数据,而且非结构化数据的比 计 以 数 据 为 中 心 的 大 数 据 处 理
由于系统的 I/O 开销极大,不适 入。 从 2011 年 起,IBM 等 国 际
在应用层面,内存计算主要
用于具有实时性需求的应用。通 IT 企业围绕本项技术投入重金进 用于数据密集型计算的处理,尤
过多个节点同时处理数据虽然能 行研究,国内的企业和科研机构 其是数据量极大且需要实时分
够缓解大数据处理面临的挑战, 也在进行这方面的研究工作,估 析处理的计算,如销售策略制定、
方法并未被认为能够彻底解决今 着内存容量有限、输入 / 输出 (I/O) 国际学术界和工业界主要从系统
天所提出的让大数据“说话”的 压力大、缓存命中率低、数据处 软件、体系结构、分布式系统等
难题。其中重要的原因就在于, 理的总体性能低等诸多挑战,难 方面进行了改进和优化。
大数据在规模、增长、分布、处 以取得Biblioteka Baidu能、能耗与成本的最佳
要求较弱的应用支付了不必要的 有的方案只是改进、优化、缓和 受限的问题,使计算不仅可以在
开销,限制了系统的可扩展性。 或屏蔽了这个瓶颈问题。
DRAM 内存上进行,也可以在新
另外也有从编译方面进行优化
内存和外存之间的 I/O 性能 型非易失型存储设备上进行,这
的,比如 PeriSCOPE[2] 通过数据 不匹配一直是造成数据处理速度 将彻底改变传统的以计算为中心
在纷繁的 NVM 中,PCM 作 速访问的特点,被认为具有良好
可以直接发生在 SCM 上。
为一种新兴的存储设备,凭借其 的发展前景。大容量 PCM 用于
操 作 系 统 在内存计算模 非易失性、非破坏性读、读完无 满足对大内存的容量需求,可以
式下,操作系统不再仅管理有限 须回写、写操作无须先擦除、存 减 少 辅 存 I/O ;快 速 DRAM 作
计算无法作用于作为虚拟内存交 这是一项基础工作,同时也是一 系 统 架 构 中,PCM 作 为 主 存,
换区域的磁盘上。而在内存计算 项关乎内存计算未来命运的奠基 DRAM 作为 PCM 的缓存,它结
模式中,SCM 不仅发挥了传统 性工作。
合了 PCM 高容量以及 DRAM 快
磁盘的作用,更加重要的是计算
为内存体系的一部分,如图 1 所 造新的内存体系并不是一个新的 同等地位,无主次之分,对两者
示。传统计算模式中计算仅发生 问题。目前,国内外科研人员在 线性编址,属于线性结构。
在内存中,磁盘中的数据则必须 这一领域的研究工作主要集中在
DRAM Buffer[7] 在 这 种
被载入内存后才可被使用,因此 如何构造混合内存体系结构上。 DRAM+PCM 的 混 合 型 内 存
子性 (atomicity)、一致性 (con- 理的优化都是基于传统的内存 - 优 势 的 前 提 下 大 幅 提 升 内 存 容
sistency)、隔离性 (isolation) 和持 磁盘访问模式,数据处理的关键 量,从而避免传统计算设施上内
久性 (durability),使得对一致性 “数据 I/O 瓶颈”一直存在,现 存 - 磁盘访问模式中的 I/O 能力
据量越来越大,从万亿字节 (TB) 中心的数据密集型技术,现有的 将相关数据加载到内存中,从而
40
第 9 卷 第 4 期 2013 年 4 月
不需要引入磁盘 I/O 的开销。但 仍然面临着 I/O 能力不足的难题。 和传统 DRAM 设计新型混合内
是它提供了 ACID 保证,即 :原
由此可见,目前对大数据处 存体系,可以在保持成本和能耗
在系统软件方面,人们主要
理等方面具有更多复杂的特征。 平衡,使得目前的计算机系统无 提出了以内存数据库及编译器优
这 些 复 杂 的 特 征 被 总 结 为 法处理 PB 级以上的大数据。
化等技术来应对大数据处理难
4V 的 挑 战 :规 模 (volume), 数
由于大数据是一种以数据为 题。内存数据库(如 H-store[1])
作为一种可以显著提升数
迟 ;片下的 DRAM 和 PCM 共用 足之处提出了很多的改进措施, 据处理性能的新计算模式,内存
同一个内存控制器且两者分配线 他们的实验结果也都印证了所 计算模式主要包含如下几个关键
性的物理地址。
提方法的有效性。
科学问题 :异构协同、能耗可
以上几种方案各有利弊,但
工 业 界在基于新型内存的 控和高效并行。异构协同是指
无 论 采 取 何 种 方 案, 其 最 终 目 系 统 构 建 方 面 也 有 长 远 计 划。 在体系结构和操作系统层面如何
的 只 有 一 个 :尽 可 能 同 时 发 挥 IBM 提 出 的 第 五 代 X 架 构 Ex5 实现异构层次内存体系的协同管
制,实现标准化、透明化的内存 人们围绕 PCM 和 DRAM 的混合 的 3% 时,两者之间的速度差异
分配、回收和优化机制。在这种 方案开展了很多研究,对何种混 能够得到比较理想的弥补。
模式下,数据可以按照计算所需 合内存体系结构能够更加充分地
层次混合内存 (hierarchi-
要的性能重新分布于异构内存体 利用这两者的特性进行了深入的 cal hybrid memory)[8] 这是一
的 DRAM 资源,还需要统一管 储密度高等特性,逐渐成为大规 为 PCM 的 缓 冲 区 弥 补 了 PCM
理包括 SCM 在内的多种异构资 模内存系统中颇具潜力的 DRAM 速度上的不足。仿真实验表明, 源,为其提供统一的按位访问机 替代品 [5]。在硬件体系结构方面, DRAM 的容量大致为 PCM 容量
相对于传统计算模式,内存 国内外研究进展
计算模式在架构层面的革新主要
由 PCM 和 DRAM 构成,充分发 挥了 PCM 在读数据和存储数据
表现在 :
大数据时代已经到来,应运 方面低功耗、非易失性和 DRAM
体 系 结 构 在内存计算模 而生的内存计算研究工作正在蓬 在写数据时低功耗及超长的写寿
式中,新型 SCM 器件被设计成 勃展开。基于 SCM 存储设备构 命的特性,PCM 和 DRAM 处于
系中,从而提升系统整体的处理 探讨。
种由 PCM 和 DRAM 构成的具有
性能。
近几年国内外学 术 界出现 层次结构的混合内存,这种层次
编 程 模 型 新型计算模式 的混合内存结构包括 :
内存分为片上和片下两部分。片
的应用及体系结构的变化直接反
PDRAM[6] 这种混合结构 上 内 存 由 单 独 的 DRAM 构 成,
了成本与能耗的增加。
介质 (non-volatile memory, NVM) 结构上来看,内存计算模式的出
在 分 布 式 系 统 方 面, 人 们 提 出 了 以 MapReduce[3]( 或 Hadoop[4])架构等来解决这一难
技 术 的 发 展, 使 得 传 统 的 内 存 与存储分离的界限逐渐变得模 糊,推进了存储技术的发展,为
但是分布式系统带来的一致性问 计这项技术将在 2015 年左右成 市场行为导向、金融市场预测和
题也极大地限制了大数据处理的 熟。人们预计,新型存储介质的 辅 助 智 能 决 策 等 决 策 类 数 据 分
并行性,且不可避免。因此只能 访问性能逐步逼近动态随机存取 析。这类应用以数据为中心,需
通过放松系统的一致性要求提高 存储器 (dynamic random access 要极高的数据传输及处理速率。
类型及数据大小确定最小的数据 低 下 的 重 要 原 因。 近 年 来, 随 的设计模式,为大数据处理提供
传输流。
着电阻存储器 (resistive random 了一种基于混合内存架构的以数
在系统结构方面,主要通过 access memory, RRAM)、铁电存 据为中心的处理模式,从而大幅
采取增加内存、增加处理器和协 储器 (ferroelectric random access 度提升大数据处理的时效性。这
现为大数据处理提供强时效、高 性能、高吞吐的体系结构支持带 来了可能。
题。MapReduce 通 过 提 供 Map 新型的内存与存储体系结构的产
和 Reduce 两个函数处理基于键 生打下了良好的基础。随着存储 内存计算的含义
值 (key-value) 方式存储的数据, 介质访问技术的提升和单位容量
磁盘 内存计算
DRAM SCM
模型更加集中于数据的处理。
图1 内存计算模式与传统增加内存模式的区别
42
第 9 卷 第 4 期 2013 年 4 月
片下部分则由 PCM+DRAM 混合 缺陷,产生了理想的性能优化 关键技术与挑战
构成。其中,片上 DRAM 因内 效果。此外,还有许多研究团
置于处理器内部而具有较小的延 队针对 PCM 等新型 SCM 的不
相关文档
最新文档