众核处理器cache一致性研究综述_韩立敏

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 29 卷第 11 期 2012 年 11 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 29 No. 11 Nov. 2012
* 众核处理器 cache 一致性研究综述
韩立敏,安建峰 ,高德远,樊晓桠,任向隆
( 西北工业大学 计算机学院,西安 710129 ) 摘 要: 以瓦片结构众核处理器一致性协议的设计为主线, 综述了 国 内外近 年 来 关 于 众核处理器 cache 一 致 性
和 Tilera TILE64
[3 ]
的一致性协议就仅适用于少
设计人员必须使用新的办法解决 数几 个 处 理 器 核 的 情 形, cache 一致 性 问 题。 最 近 10 年 来, 很多人致力于可扩展的 cache 一致性协议相关研究工作 。2008 年, 匹兹堡大学的 Fensch 等人[4] 从软件管理的角度研究了瓦片式多核处理器的一 致性策略; 2009 年, 麻省理工学院的 Celio 为了研究众核 cache 一致 性 协 议, 开 发 了 一 款 支 持 256 核 的 众 核 仿 真 器 Graphite[5] , 他们认为在众核中实现硬件 cache 一致性是可行的, 但是为了得到最优的性能, 软件开发者需要谨慎地编写代码, Intel 公 司 的 确保软件 算 法 和 目 标 硬 件 架 构 相 匹 配; 同 年,
Review on cache coherence for manycore CMPs
HAN Limin,AN Jianfeng ,GAO Deyuan,FAN Xiaoya,REN Xianglong
( School of Computer Science,Northwestern Polytechnical University,Xi’ an 710129 ,China)
收稿日期: 2012-05-02 ; 修回日期: 2012-06-10

a) 因目录而产生的间接访问增加了生产者和消费者之间 的 cache 缺失访问延迟。很多情形下, 为了得到宿主节点的信 息实施的目录查询操作处于 cache 访问的关键路径上。 b) 自动地将共享只读类型的数据复制到很多个处理器核 的本地 cache 中, 减少了片上有效 cache 容量, 导致 cache 缺失 率上升。 c) 对共享数据的写操作, 或者片上目录项的替换淘汰需 增加了 cache 缺失率, 要将所有被共享数据的副本置为无效, 增加了数据缺失处理的代价, 降低了协议执行效率。 根据以上分析, 现存的传统多核处理器一致性协议因为性
[11 ]
在 2010 年研究了与
T 众核处理器一致性协议的实现密切相关的问 其 Godson— —同步机制, 题— 他们认为硬件支持的同步机制性能很重要, 而且专用的同步机制的扩展性好; 同年, 基于 64 核心的 GodsonT 众核处理器; 中国科学院计算技术研究所的范东睿等人 为了提高对共享数据的读取效率, 使用软件对共享数据实现访 维护一致性 问控制,
[21 ]
于实现、 验证复杂和存储空间开销大等问题, 提出一种由硬件 结构支持、 基于同步的高速缓存一致性协议 。该方案不使用目 filter ) 表示一致性信息, 录, 而是通过布龙滤波器( Bloom在并 行程序的同步点维护高速缓存一致性和解决数据冲突 。 中国 科学院计算技术研究所的徐卫志等人
· 4012·
计 算 机 应 用 研 究
第 29 卷
能、 面积、 功耗等不可扩展的原因已不适用于众核处理器, 如用 于 Intel Xeon
[2 ]
cache( 指令 cache 和数据 cache ) 、 末级 cache 的局部瓦片 ( L2 slices) 以及点对点的互联网络的接口组成[13 ~ 16] 。
7 ] Dubey、 Zhou 等人[6, 认为一些面向众核处理器的并行应用算
2
NUCA 结构对一致性协议策略的影响
集中式的 cache 结构( NUA) 存在两个问题: 长的线延迟导
法, 如 RMS, 具有较少的数据共享, 因此他们基于实验芯片 SCC ( singlechip cloud computer) 和一款 32core 服务器初步探索了 纯软件管理的一致性协议的原型系统 。Kelm 等人
0
引言
技术的发展驱使单个芯片上集成的处理器核个数越来越
增大; 维护一致性的硬件逻辑随着处理器核数目呈线性增长, 一致性消息量剧增。 c) 应用的差异性。云计算和服务器应用作为众核处理器 系统的主要负载, 均具有异构性和不均衡性 。这种特性导致单 个一致性协议无法让所有程序取得高性能 。 cache 行以交叉方式分布在各 另外, 在传统的目录协议中, 个处理器节点中, 这种交叉方式方便确定数据的宿主节点, 但 是会引入大量的 cache 一致性事务。 由于在执行一致性事务 之前目录协议需要获取每个存储块的共享状态, 这就导致一系 列的问题
61003037 , 60736012 ) ; 国家 “863 ” 基金项目: 国家自然科学基金资助项目( 61173047 , 计
划资助项目( 2009AA01Z110 ) ; 西北工业大学基础研究基金资助项目( JC201212 ) 作者简介: 韩立敏( 1983-) , 女, 陕西扶风人, 博士研究生, 主要研究方向为计算机体系结构、 存储系统; 安建峰( 1977-) , 男( 通信作者) , 讲师, 博 士, 主要研究方向为计算机 体系结构、 数字系统设计( anjf@ nwpu. edu. cn ) ; 高 德远 ( 1946-) , 男, 教授, 博导, 主要研究方向为高性 能处理器 体 系 结 VLSI 设计及计算机网络; 樊晓桠( 1962-) , VLSI 设计及计算机网络; 任向隆( 1982-) , 构、 教授, 博导, 主要研究方向为高性能处理器体系结构、 男, 博 士研究生, 主要研究方向为计算机 体系结构、 片上网络.
wk.baidu.com[9 ]
。 另外, 随着片上处理器核心的
增多, 片上总的存储器容量急剧增大, 管理这些瓦片内的 cache 容量及其一致性呈现出新的需求 。只有当 cache 的组织、 目录 存储器、 存储器控制器和一致性引擎都是分布式的才有利于数 据一致性的实现, 而这样的系统才是可扩展的 。 基于以上两 NUCA 结构被作为众核处理器的片上存储结构已经成为 点, 共识
[12 ]
。当 NUCA 被静态地组织成处理器核的私

每个处理器核所连接的私有部分也可以被其他核所 有部分时, 访问; 当本地 cache 瓦片被填满, 则寻找其他 core 上的 cache 瓦 片填充数据。因为无法控制哪些分段被哪些处理器核所共享, “污染 ” 。 当处理器核数目多于 8 个时, 这样必然导致 远程访 问增多, 维护 cache 一致性的代价明显增大, 限制了其可扩展 性; 动态 NUCA 则依赖于系统软件的支持实现优化的数据布 局, 提高了数据局部性。 例如, 可以通过操作系统的虚拟存储 器机制, 根据第一次接触原则, 控制存储器到处理器核的动态 的数据布局, 将数据映射到线程所在处理器核的本地 cache, 充 分利用到数据访问的局部性, 而这样的布局也有利于用一致性 协议的实现。 2. 2 共享模式和私有模式的 NUCA 根据片上存储的管理方式对 NUCA 分类, 不同共享方式的 NUCA 结构对一致性协议会产生重大影响 。 从通信效率角度 看, 非包含式的共享 cache 会招致间接通信( 即数据请求者、 目 录、 共享者之间的通信) 以及协议设计和验证的复杂性
的相关研究; 介绍了不同 NUCA 结构对一致性协议的影响; 分析和对比了 几 种 传 统 目 录 一 致 性 协议 的 特 性 及 其 存在的问题; 归纳了最新几个面向众核结构一致性协议的设计思想和特性。最后为设计具备应用 程 序 适 应 性 和 可扩展性的 cache 一致性协议指出了几个关键的设计方向。 关键词: cache 一致性协议; 众核处理器; 瓦片化结构; NUCA 中图分类号: TP302 文献标志码: A 文章编号: 1001-3695 ( 2012 ) 11-4011-06 doi: 10. 3969 / j. issn. 10013695. 2012. 11. 003
Abstract: This paper took tiled manycore processor coherence protocol design as masterstroke,summed up manycore processor cache coherence related research work. It enumerated the influence of NUCA on cache coherence protocol schemes, explored the features and drawback in conventional directorybased coherence protocols,and exacted the characteristics of several novel cache coherence protocols oriented to manycore architecture. At last,It pointed out several design directions for a scalable and workloads adaptable coherence mechanisms adopted in manycore CMPs. Key words: cache coherence protocol; manycore processor; tiled structure; NUCA
[1 ]
多, 各大半导体公司于 2006 年之后纷纷推出其众核处理器产 IBM 公司推出其 1025 核心的 Kilocore 众核处理 品。2006 年, 于 2009 器; Tilera 公司于 2007 年发布了其 64 核心的 TILE64 , Gx100 众核处理器; Intel 公司 年推出最新的 100 核心的 TILE于 2008 年披露了其 80 核心的 POLARIS 原型; ClearSpeed 公司 在 2008 年推出其 192 核心的 CSX700 处理器。即便如此, 众核 处理器的很多设计问题至今依然没有得到有效解决 。 由于众 核处理器的处理器核心数目巨大, 维护处理器核心之间的数据 cache 一致性协议就成为亟待解决的 一致性呈现出新的需求, 关键设计问题之一。以下是众核处理器系统特有的技术参数 限制和负载特性: a) 互联结构发生变革。 共享总线和交叉开关这种有序连 点对点的网络连接结构 接结构不再适合大规模众核 。无序的、 因具备可扩展性而被作为未来众核处理器的片上连接结构 。 b) 处理器核数目众多。基于点对点连接网络形成的瓦片 结构( tiled) 将是众核处理器结构的理想选择, 而瓦片结构的众 核处理器呈现出新的特征: 核间通信延迟随着核数目增多急剧
[18 ~ 20 ]
。面向片上众核处理器方面, 中国科学
[10 ]

院计算技术研究所的黄河等人
针对目录一致性协议存在难
任何 cache 一致性问题都是源于 cache 的组织结构和使用 方式, 本章按照三种分类方法( 数据在存储器中的布局策略 、 cache 的组织方式) 来分析现存的 NU片上存储器的管理方式 、 CA 对一致性策略的影响。 2. 1 静态和动态的 NUCA 根据数据映射和布局策略, 可以将 NUCA 划分为静态 NUCA 和动态 NUCA。数据在 NUCA 中的布局决定了远程 cache 访问的频率和访问时间 。 静态 NUCA 采用简单的数据映射策 略, 这会导致物理地址连续的数据块分布在不同的存储体中, 增加了远程片上存储访问的数量 。处理器核数目越大, 长访问 延时效应越明显
[8 ]
提出一种
致长延时的存储访问; 集中式访问会造成严重的大量的存储访 人们提出了 NUCA 结构, 它是一种混 问冲突。针对这些问题, 合的私有 / 共享 cache 组织
[17 ]
Cohesion 结构在细 软件硬件协同控制的 Cohesion 一致性策略, Cohesion 无须片上目录, 当使用软件控制, 粒度上实现一致性, 减少了很多一致性消息 。 国内多家研究机构也在近几年做了不少相关研究 。 针对 大规模多核处理器, 为了减少基于目录的一致性协议中访问远 程目录存储器的平均访问延时, 清华大学信息科学与技术国家 实验室的郭松柳、 王海霞等人于 2009 年提出面向 CMP 结构的 层次结构 cache 目录
相关文档
最新文档