高性能CPU时钟网络设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
圈3 层次式 x树和 x树时钟分配网络 - -
设计的芯片。全局时钟信号 G L 通过上千个缓冲 CK 器和逻辑门来驱动寄存器, 如图5 所示。
一 17 一 0
高技术通讯 20 . 04增刊
,wk.baidu.com.

_
_______r_ _____ ,
四‘斗芬 1

, r
( 收稿日 20- - ) 期: 4 3i 0 0 s
_
如果时钟源的驱动 bfr ue 的连线电阻远小于它 的输出电阻, 就可以采用单一的、 集中式的 bfr ue来 驱动整个时钟分配网络。当我们不太关心整个网络 的负载平衡时, 这种策略是合适的。
另一种可供选择的方式是将 bfr ue分散到整个 时钟网络。当然这会使得布线面积增大, 但时钟信 号波形精确, 也较容易被控制。当连线电阻的影响 不可被忽略时, 这是一种必然的选择。采用分散的 bfr ue设计, 一方面对时钟信号进行逐级放大, 另一 方面将局部时钟网络与上级网络分隔开。图 2 为一 种采用这种策略设计的带 bfr ue的三级时钟分配网
绍了高性能 C U的时钟网络设计技术。 P
关键词 时钟分配网络, 时钟树, 时钟偏斜, 互连延迟
0 引 言
在同步数字系统中, 时钟分配网络的设计直接 影响系统的性能。在逻辑设计阶段, 通常将时钟信 号作为简单的同步控制信号加以处理, 很少涉及时 钟信号的物理特性。在实际的数字系统物理设计实 现中, 时钟分配网络的设计规划、 时钟信号的具体布 局、 布线方式直接影响系统的性能和可靠性, 并直接 决定了芯片/ 系统的功耗。 在数字系统中, 时钟信号具有下述特征: 负载 大, 连线距离长, 信号的翻转率高。由于时钟信号通
图5 0 M l.微处理器全局时钟分配网络 N Ap 6 - 0 l
G L 经过几级 bf: CK ue后由局部时钟和局部条
件时钟来进行控制 , 这种门控时钟的布局、 布线策略
有利于降低功耗, 对局部时钟偏斜调度也更加灵活, 进而可以采用时间借调技术, 提高整个系统的时钟 频率。在 G L CK网络内的所有连线被电源/ 地线侧


. .


全 局 时钟 信 号
..声
_ _
, r
, r _
拼执一 一
GC G i L K r d
D K低时钟偏斜bfe S: ufr
十局时分, 部钟配
图7 第一代 】 n m的时钟分配网络 ti au
常用来同步或者控制芯片/ 系统中的各个设计部分
络。
11 带 bfr . ue 的时钟树 在VS 设计中, II 最普遍采用的时钟信号分配策 略就是在时钟源和时钟通路上加 bfr ue构成树状结 f 构。时钟源作为树的根, 树的初级部分作为主干, 驱 动每个寄存器的各条通路作为树的分枝, 被驱动的 寄存器作为叶子节点。另外, 时钟树的 ms结构有 e h 时也会被采用。M s 结构被认为是对标准形式的 e h 扩展, 它能有效的减少连线电阻和时钟偏斜。时钟 树结构如图 1 所示。
个时钟周期门延迟数在逐渐减少, 204 从 1 的每时 6
钟周期 1 个门延迟 , 214 1 个门延迟, 6 到 1 的 4 6 再到 224 1 个。 16 的 2
必须是注人分支点连线电阻Z+的2 对 X树而 k1 倍, 一
言是 4 倍。
功耗问 题是设计A h 系列微处理器时钟网络 la p
第I t u i 代Inm微处理器时钟分配网络[ a 2 l 包括3
个部分: 全局时钟和区域时钟分布都采用平衡树结 构, 局部时钟分配采用多个局部时钟 bfr ue对寄存 器进行驱动。另外, 存在一个与全局时钟同时分布 的参考时钟, 它在区域时钟中被用来对时钟偏斜进 行调整。全局时钟信号从时钟源( 芯片上的 PL 出 L) 发, H树型结构分布到 8 沿着 一 个低时钟偏斜簇之 一, 而每个低时钟偏斜簇又包括最多 4 个低时钟偏 斜 bfr ue 。全局时钟树采用最高 2 层金属布线, 为了 避免电容和电感祸合效应 , 它与电源和地线进行侧 向屏蔽。 第 1 In m的时钟网络如图7 i 代 tu a 所示。
第2 Inm微处理器的时钟网络[采用平 i 代 tu a [ 3 ]
衡的多级 H树结构实现, 一 如图8 所示。 时钟网络分为两级: 一级布线(1 LR 采用差分 )
高技术通讯 20. 04增刊
高性能 C U时钟网络设计技术 P
刘 军① 胡建国 刘 龙 曾献君
( 国防科学技术大学计算机学院 长沙407) 1 3 0
摘 要 讨论了 物理设计中时钟网络的设计技术, 并以现有的CU时钟网络的为例, P 介
2 时钟分配网络技术在高性能 CU P
中的应用
时钟网络的性能直接影响高性能 CU的性能 P 和可靠性, 如何设计高性能的时钟分配网络、 减少时 钟偏斜、 如何利用时钟分配网络的有效时钟偏斜及 降低时钟系统的功耗, 一直是高性能 CU设计实现 P 所要研究的热点。
有用的时钟偏斜(m Brw g的概念已经得到了 te i ) i o n o r
来源。一个 bfr ue所能驱动的下一级 bfr ue的数量 由源驱动 bfr ue的电流强度以及 目的 bf: ue的电容 大小来共同决定。时序通路上的最后一级 bfr ue输 出对寄存器/ 存储元件的时钟控制信号。传统的时 钟网络设计的主要目 标是使得时钟信号到达各个寄 存器的时间精确一致, 但这个目 标难以实现。目 前,
向 和纵向屏蔽。A h 2 6 的层次式的时钟分配 la 4 p 1 2
网络如图 6 所示。
.. 月 泊自侧 脚
图8 e = 的时钟网络 Im 2 t
图‘ A a 6 的层次式时钟分配网络 l 2 4 h 2 p 1 22 t i 系列微处理器 . In m au
广泛的应用 , 为了提高系统性能和可靠性 , 根据局部 数据通路的特性, 可以有意地引人正的或负的时钟 偏斜 。
21 pa . A h 微处理器系列时钟系 l 统设计 DCC p A a q h微处理器系列代表了高速 E/o a l m p 微 处理器技术发展的一个里程碑。A h 2 6 时 l a 4 p 1 0
所应考虑的主要问题, 其时钟 网络的功耗 占整个
CU P 功耗的4%一 4 A h 2 6 采用分散在 0 4%. a 4 l 1 p 2
整个芯片上的网格状的两相全局时钟( CK , G L )使得
时钟网络的功耗被分散到整个芯片上去。A h la p 2 6是A h CU系列中 1 4 la 2 p P 第一款采用层次式时钟
A h2 6 1 4 la 4 采用单相时钟信号, p 1[ 0 通过5 级
bfr ue进行分配。整个时钟网络由 1 个单独的单 4 5 元组成。每一单元包括 4 bfr 级 ue, 与最后的输出相 连, 驱动就近的寄存器。这些 bfr ue构成一棵树, 如
图4 所示 。
} )
12 对称的 H树时钟分配网络 . - H树时钟分配网络采用层次式的、 一 平面对称式 的 H树或 X树结构, 一 一 如图3 所示。这种结构使得各 时序通路有着相同的拓扑结构, 有利于减少局部的 时钟偏斜。主时钟驱动器位于主“ ' H, 型结构的中 心, 时钟信号的分布通过逐级缩小的“ ' H’ 型结构向 前推进,一 H树的叶子节点直接驱动寄存器或通过局 部bfr ue放大后驱动寄存器, 这种时钟网络分配方 式理论上可以使得每条时钟通路上都具有相同的延 迟。导致时钟通路上延迟不一致的主要原因是工艺 的变化对连线电阻及 bfr ue物理延迟的影响。采用 f H树结构的时钟分配网络的时钟偏斜的大小取决于 一 器件的物理尺寸、 对半导体工艺的控制以及 bfr ue 和锁存器在该结构中的插人深度。在层次式 H树 一 结构中, 当时钟信号逐级传播时, 互连线的宽度也是 逐级递减的。这种方式使得时钟信号在分支点处的 反射最小。特别是, 从分支点发出的连线电阻 Z+ k1
钟频率为20 H , 0M z即每一个局部数据通路时钟周期 都是5 每一时钟周期近似地表示为 1 个门延 n, s 6
时钟源
迟[。 ‘ 它假定时钟偏斜的影响是全局而不是局部 〕
的。为了设计和分析这种高速系统的功能, 要求对
各动态逻辑门和互连线的特征进行模拟。
图2 带三级 bfr u e 的时钟分配网络
小的时钟偏斜, 两级布线都具有延迟可调的特性。 这种结构通过让电源电流回路靠近时钟信号线提供 对电感效应的屏蔽。在考虑时钟树实际的物理布 局、 布线时, 将整个芯片/ 系统大致分为四个负载区, 再对各负载区内的主要根节点定义初始的“ 保留通 道” 。从时钟源发出的全局时钟信号首先与主驱动 器相连, 再由主驱动器与各负载区域相连。这种方 式给顶层预布局充分的自由, 对各模块设计者而言, 顶层时钟布局、 布线是透明的。第 3 In m微处 代 ti au 理器的时钟网络基本上是沿用了第 2 代的物理布 局、 布线技术, 主要是引人了基于融合的时钟偏斜调 度技术, 使得芯片/ 系统的时钟偏斜大幅降低。第 3 代 In m的时钟网络如图9 ti au 所示。
. 口
布线方式, 可以有效的减少电源抖动噪音、 共模及差 模输人噪音和信号的翻转率, 而且重度屏蔽也能减 少对系统的藕合噪音; 二级布线(2 ) LR 采用非差分 布线方式和控制 bfr逻辑门) ue ( 。为了获得尽可能

) 时 a: 日一 钟[ } : ,
{} > } -
圈4 E A口 D C .橄处理器时钟分配网络 l
第2 m ) 层金属( 2垂直放置, 减少 bfr ue树前 4 级所累积的时钟偏斜。主信号布线采用顶层金属 (3实现, m) 有利于减少连线电阻, 提高性能。
第 2代 A h p l a通用微处理器被称为 A h la p 21 . h系列第3 14 A a 6 l p 代是A h 2 6。它们的每 l a 4 p 1 2
图 1 时钟分配网络的结构
了高性能 CU的时钟网络设计技术。 P
1 时钟分配网络设计策略
高性能的时钟分配网络设计的主要 目 标是: 在 确保不发生数据穿透的条件下, 通过在全系统范围 内对时钟偏斜进行调度, 使得时钟偏斜尽可能小, 从 而提高芯片操作频率, 这个过程被称为时钟偏斜调 度。在进行时钟系统物理布局、 布线的时候, 应充分 考虑到所采用的时钟分配网络的设计策略和拓扑结 构。时钟网络的设计与分配一直是数字系统设计实 现的研究热点, 出现了多种时钟分配策略, 在物理实 现中各有优点, 其中最通常的方式是采用加 bfr ue 的时钟树, 这是一种非对称结构。与此相对, H 像 - 树这种对称结构也常被用作高速时钟信号的分配网
络结构。
在时钟网络中插人 bfr ue的级数取决于寄存器 和互连线的负载电容以及所允许的时钟偏斜,ue Bfr 及其互连线的延时差是时钟网络中时钟偏斜的主要
男, 7年生, 生; 18 9 硕士 研究方向: 高性能微处理器的 时钟系 统与布局、 联系 布线; 人。
1 n人
刘 军等: 高性能 C U时钟网络设计技术 P
的具体操作, 设计实现时要求时钟信号的波形具有 很高的质量, 即必须干净和陡峭, 时钟信号的翻转时 间短。此外, 物理设计中对时钟信号延迟的控制必 须特别小 L, " 因为时钟信号延迟误差会直接导致数
据穿透 、 数据失效的发生。 本文讨论物理设计 中时钟分配网络的设计技 术, 并以高性能 CU的时钟网络的设计为例, P 介绍
相关文档
最新文档