天津大学数字集成电路第十讲加法器
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
VLSI
第十讲 数据通路设计
Tian Jin University shizaifeng@tju.edu.cn
TJU. ASIC Center---Arnold Shi
大多数数字电路按功能划分
数据通路(如加法器、乘法器、移位器) 存储器 控制电路 I/O、互连
TJU. ASIC Center---Arnold Shi
1位全加器定义
A B Cout
A 0 B 0 0 1 1 0 0 1 Cin 0 1 0 1 0 1 0 Cout 0 0 0 1 0 1 1 S 0 1 1 0 1 0 0 carry status 取消 取消 传播 传播 传播 传播 产生
Cin
Full adder
Sum
0 0 0 1 1 1
1
有时候,也写成P = A+ B
TJU. ASIC Center---Arnold Shi
逐位(行波、串行)进位 Ripple-Carry Adder
结构:由N 个一位加法器串联而成,第i 级的Carry-out用 来产生第i+1 级的Sum和Carry 特点: 结构直观简单,运行速度慢,最坏情形下关键路 径的延时:Tadder=(N-1)Tcarry + Tsum N 位逐位进位加法器的延时正比于加法器位数N :
Carry propagation
TJU. ASIC Center---Arnold Shi
CBEA-Compliant处理器
TJU. ASIC Center---Arnold Shi
Cell内部有一条 768bit位宽的“EIB单元互联总线 环(Element Interconnect BUS Ring,EIB Ring)”,它实际上是一个强大的内部总线控制 逻辑—Cell内所有的功能单元都通过EIB总线环连 接在一起,包括PPE、八个SPE、XDR内存控制 器以及外部总线接口,它们所采用的无一例外都 是全双工的128bit连接总线。若Cell工作在4GHz 频率上,Cell内部的各个功能单元便都拥有 4GHz×128bit/Hz×2(全双工)÷8Byte/bit= 128GBps带宽
曼彻斯特进位链(Manchester Carry Chain )
VDD
VDD Pi Gi Ci Di Pi Co
Ci
Pi Co Gi
静态实现,采用进位 产生和进位消除
动态实现,只用进位 产生和进位传播
TJU. ASIC Center---Arnold Shi
曼彻斯特动态进位链特点
采用动态逻辑降低复杂性和加快速度 预充电时所有中间节点被预充至VDD ,求值时有条件放 电。 进位链传输管只用N 管,节点电容很小,为四个扩散电容。 进位链的分布RC 本质使传播延时与位数N 的平方成正比, 因此有必要插入缓冲器。 从输出端到输入端通过进位链管子的放电电流逐步加大, 因此从输出端到输入端逐步 加大进位链管子的尺寸可提高速度。
曼彻斯特进位链版图
进位传播/进位产生Row VDD Pi Ci - 1 GND 反相器/求和 Row Gi Ci Pi + 1 Gi + 1 Ci + 1
TJU. ASIC Center---Arnold Shi
进位旁路加法器(carry-bypass)
P0 Ci,0 G1
C o,0
P0
TJU. ASIC Center---Arnold Shi
位片式(Bit-Sliced )设计
完全相同的位片式处理单元
TJU. ASIC Center---Arnold Shi
位片式(Bit-Sliced)数据通路
From register files / Cache / Bypass
Multiplexers Shifter Adder stage 1 Wiring Adder stage 2 Wiring
A0
&
B0
clk
!C0
G P !C4
G P
G P
G P
!C3
!C2
!C1
S3
S2
S1
S0
TJU. ASIC Center---Arnold Shi
曼彻斯特进位链的动态实现
3 Ci,4 P3 1 3 P2 2 3 P1 3 3 P0 4 3
clk
1
2
G3 2
3
G2 3
4
G1 4
5
G0 5
A Ci B A B
FA
Co
Ci
FA
Co
S
S
!S (A, B, Cin) = S(!A, !B, !Cin) !Cout (A, B, Cin) = Cout (!A, !B, !Cin)
TJU. ASIC Cenwk.baidu.comer---Arnold Shi
消除反相器的进位链
Even cell A0 Ci,0 FA B0 Co,0 FA A1 B1 Co,1 FA A2 B2 Co,2 FA Odd cell A3 B3 Co,3
S0
S1
S2
S3
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器的设计
24+4 transistors
B A
0-propagate 8 8 B 8 B 8 kill 6 6
A
4 B
4 Cin
4
A
A 8 A 4
4 B 4
Cin
1-propagate 4
!Cout
generate
1
1
1
1
产生
TJU. ASIC Center---Arnold Shi
进位产生、进位取消、进位传播信号
为了利于具体实现,常常定义一些中间信号(注意它们与 Cin 无关): 进位产生(Generate)信号: G = A&B 进位取消(Delete) 信号: D = !A & !B 进位传播(Propagate) 信号: P = A B
A
B
Ci Co
B
A Ci
Co
Ci
A
B
S GND
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器的特点
消除了进位输出的反相门。 巧妙实现进位“传播/产生/消除”功能,同时减少面积 和延时。 不同于传统的“ 对偶” 拓扑,而是“ 对称” 或“ 镜 像”,有利于版图实现。选择合适的P 管和N 管的尺寸, 可保证相同的上升和下降时间。 在进位产生电路中,最多两个管子串联。共24 个晶体管 在设计该加法器的版图时,应当使!CARRY节点上的电 容较小。该节点上的电容包括本级的四个扩散电容和两个 栅电容,以及下一级加法器的六个栅电容。减少扩散电容 特别重要。 连接Cin 的管子连到接近门的输出端处。 只有在进位电路中的管子需要优化尺寸以改善速度,在 “和”位电路中的管子可以采用最小尺寸
6
Ci,0
clk
!(G0 | P0 Ci,0)
!(G2 | P2G1 | P2P1G0 | P2P1P0 Ci,0) !(G1 | P1G0 | P1P0 Ci,0)
!(G3 | P3G2 | P3P2G1 | P3P2P1G0 | P3P2P1P0 Ci,0)
TJU. ASIC Center---Arnold Shi
加法器
加法器设计 加法器常常是限制速度的部件。加法器的优化可 在逻辑级和电路级进行
TJU. ASIC Center---Arnold Shi
二进制加法运算
TJU. ASIC Center---Arnold Shi
FA 的门级实现结构
A B Cin
A
B Cin
t1
t0 t2
t2 t1
t0
TJU. ASIC Center---Arnold Shi
传输门加法器
共24个晶体管
VDD A A B A P A P B Ci P Ci P VDD S 和产生
P
A P Ci
VDD Co 进位产生
VDD Ci Ci
A
产生中间信号,和反相信号
P
TJU. ASIC Center---Arnold Shi
4
2
Cin 6 Cin 3 A
3 3
!S
A
4 B
A
2 B
2 Cin 2
B
Cout = A&B | B&Cin | A&Cin
SUM = A&B&Cin | COUT&(A | B | Cin)
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器版图结构
VDD
Stick Diagram
数据通路的特点
数据通路它在很大程度上决定了整个系统的性)
规整性:(Bit-slice)优化版图 局域性:(时间、空间,算子相邻布置)版图紧凑 正交性:(数据流、控制流)规整的布线 层次化: 高位-低位,多位-少位 模块化: 包括各种IP 模块
TJU. ASIC Center---Arnold Shi
Loopback Bus Loopback Bus
Bit slice 63
Loopback Bus
Bit slice 2 Bit slice 1 Bit slice 0
Adder stage 3 Sum Select
To register files / Cache
TJU. ASIC Center---Arnold Shi
G1
C o,1
P2
G2
Co,2
P3
G3 Co,3
也称为 Carry-Skip
FA
FA
FA
FA
P0 G1 Ci,0
C o,0
P0
G1
Co,1
P2
G2
C o,2
P3
G3
BP=P oP1 P2 P3
Multiplexer
FA
FA
FA
FA
Co,3
原理: 如果(P0 、P1 、P2 和P3 均= 1) 则CO,3 = Ci,0 , 否则主路径进位消除或进位产生
回顾:基本的功能块
Datapath 运算单元 • Adder, multiplier, divider, shifter, etc. 寄存器页、流水线 多路选择器、译码器 Control Finite state machines (PLA, ROM, random logic) Interconnect 交换器, 仲裁器, 总线 Memory Caches (SRAMs),移位寄存器, DRAMs, buffers
TJU. ASIC Center---Arnold Shi
Carry-Bypass Adder (cont.)
Bit 0–3 Bit 4–7 tsetup Bit 8–11 tbypass Bit 12–15
Setup
Setup
Setup
Setup
Carry propagation
Carry propagation
TJU. ASIC Center---Arnold Shi
PS3多核心处理器CELL性能强劲
Cell处理器是东芝、IBM和索尼联合研发的。 目前用于索尼公司的PS3。该处理器性能强劲, 被称之为“芯片上的超级计算机”。不过,除了 游戏机外,合作三方至今并未为Cell找到其他更 好的用途。Cell内的1个PPE和8个SPE Cell处理器将给电视机带来超强性能。据称, 电视机将可以在一个屏幕上显示48个独立的电影 画面,此外可以提供超高清的画质。
Cout S
Cout
S
TJU. ASIC Center---Arnold Shi
互补静态CMOS逻辑实现的FA
VDD VDD A B A B Ci A B VDD Ci A B
X
A
Ci
Ci A B
S
Ci
B
VDD
A Co B Ci A
B
28 Transistors
TJU. ASIC Center---Arnold Shi
TJU. ASIC Center---Arnold Shi
曼彻斯特进位链的动态实现
VDD P0 P1 P2 P3 C3 Ci,0 G0 G1 G2 G3
C0
C1
TJU. ASIC Center---Arnold Shi
C2
C3
4-bit 位片式 MCC 加法器
A3
&
B3
A2
&
B2
A1
&
B1
Td = O (N)
A0 Ci,0 FA B0 Co,0 (= Ci,1) FA A1 B1 Co,1 FA A2 B2 Co,2 FA A3 B3 Co,3
S0
S1
S2
S3
设计时优化Tcarry 比优化Tsum 更为重要
TJU. ASIC Center---Arnold Shi
进位路径中取消反相器
TJU. ASIC Center---Arnold Shi
Intel 微处理器的数据通路
Itanium 有6 个如下的整数执行单元
TJU. ASIC Center---Arnold Shi
Itanium 处理器的整数数据通路
TJU. ASIC Center---Arnold Shi
CELL 处理器架构
第十讲 数据通路设计
Tian Jin University shizaifeng@tju.edu.cn
TJU. ASIC Center---Arnold Shi
大多数数字电路按功能划分
数据通路(如加法器、乘法器、移位器) 存储器 控制电路 I/O、互连
TJU. ASIC Center---Arnold Shi
1位全加器定义
A B Cout
A 0 B 0 0 1 1 0 0 1 Cin 0 1 0 1 0 1 0 Cout 0 0 0 1 0 1 1 S 0 1 1 0 1 0 0 carry status 取消 取消 传播 传播 传播 传播 产生
Cin
Full adder
Sum
0 0 0 1 1 1
1
有时候,也写成P = A+ B
TJU. ASIC Center---Arnold Shi
逐位(行波、串行)进位 Ripple-Carry Adder
结构:由N 个一位加法器串联而成,第i 级的Carry-out用 来产生第i+1 级的Sum和Carry 特点: 结构直观简单,运行速度慢,最坏情形下关键路 径的延时:Tadder=(N-1)Tcarry + Tsum N 位逐位进位加法器的延时正比于加法器位数N :
Carry propagation
TJU. ASIC Center---Arnold Shi
CBEA-Compliant处理器
TJU. ASIC Center---Arnold Shi
Cell内部有一条 768bit位宽的“EIB单元互联总线 环(Element Interconnect BUS Ring,EIB Ring)”,它实际上是一个强大的内部总线控制 逻辑—Cell内所有的功能单元都通过EIB总线环连 接在一起,包括PPE、八个SPE、XDR内存控制 器以及外部总线接口,它们所采用的无一例外都 是全双工的128bit连接总线。若Cell工作在4GHz 频率上,Cell内部的各个功能单元便都拥有 4GHz×128bit/Hz×2(全双工)÷8Byte/bit= 128GBps带宽
曼彻斯特进位链(Manchester Carry Chain )
VDD
VDD Pi Gi Ci Di Pi Co
Ci
Pi Co Gi
静态实现,采用进位 产生和进位消除
动态实现,只用进位 产生和进位传播
TJU. ASIC Center---Arnold Shi
曼彻斯特动态进位链特点
采用动态逻辑降低复杂性和加快速度 预充电时所有中间节点被预充至VDD ,求值时有条件放 电。 进位链传输管只用N 管,节点电容很小,为四个扩散电容。 进位链的分布RC 本质使传播延时与位数N 的平方成正比, 因此有必要插入缓冲器。 从输出端到输入端通过进位链管子的放电电流逐步加大, 因此从输出端到输入端逐步 加大进位链管子的尺寸可提高速度。
曼彻斯特进位链版图
进位传播/进位产生Row VDD Pi Ci - 1 GND 反相器/求和 Row Gi Ci Pi + 1 Gi + 1 Ci + 1
TJU. ASIC Center---Arnold Shi
进位旁路加法器(carry-bypass)
P0 Ci,0 G1
C o,0
P0
TJU. ASIC Center---Arnold Shi
位片式(Bit-Sliced )设计
完全相同的位片式处理单元
TJU. ASIC Center---Arnold Shi
位片式(Bit-Sliced)数据通路
From register files / Cache / Bypass
Multiplexers Shifter Adder stage 1 Wiring Adder stage 2 Wiring
A0
&
B0
clk
!C0
G P !C4
G P
G P
G P
!C3
!C2
!C1
S3
S2
S1
S0
TJU. ASIC Center---Arnold Shi
曼彻斯特进位链的动态实现
3 Ci,4 P3 1 3 P2 2 3 P1 3 3 P0 4 3
clk
1
2
G3 2
3
G2 3
4
G1 4
5
G0 5
A Ci B A B
FA
Co
Ci
FA
Co
S
S
!S (A, B, Cin) = S(!A, !B, !Cin) !Cout (A, B, Cin) = Cout (!A, !B, !Cin)
TJU. ASIC Cenwk.baidu.comer---Arnold Shi
消除反相器的进位链
Even cell A0 Ci,0 FA B0 Co,0 FA A1 B1 Co,1 FA A2 B2 Co,2 FA Odd cell A3 B3 Co,3
S0
S1
S2
S3
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器的设计
24+4 transistors
B A
0-propagate 8 8 B 8 B 8 kill 6 6
A
4 B
4 Cin
4
A
A 8 A 4
4 B 4
Cin
1-propagate 4
!Cout
generate
1
1
1
1
产生
TJU. ASIC Center---Arnold Shi
进位产生、进位取消、进位传播信号
为了利于具体实现,常常定义一些中间信号(注意它们与 Cin 无关): 进位产生(Generate)信号: G = A&B 进位取消(Delete) 信号: D = !A & !B 进位传播(Propagate) 信号: P = A B
A
B
Ci Co
B
A Ci
Co
Ci
A
B
S GND
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器的特点
消除了进位输出的反相门。 巧妙实现进位“传播/产生/消除”功能,同时减少面积 和延时。 不同于传统的“ 对偶” 拓扑,而是“ 对称” 或“ 镜 像”,有利于版图实现。选择合适的P 管和N 管的尺寸, 可保证相同的上升和下降时间。 在进位产生电路中,最多两个管子串联。共24 个晶体管 在设计该加法器的版图时,应当使!CARRY节点上的电 容较小。该节点上的电容包括本级的四个扩散电容和两个 栅电容,以及下一级加法器的六个栅电容。减少扩散电容 特别重要。 连接Cin 的管子连到接近门的输出端处。 只有在进位电路中的管子需要优化尺寸以改善速度,在 “和”位电路中的管子可以采用最小尺寸
6
Ci,0
clk
!(G0 | P0 Ci,0)
!(G2 | P2G1 | P2P1G0 | P2P1P0 Ci,0) !(G1 | P1G0 | P1P0 Ci,0)
!(G3 | P3G2 | P3P2G1 | P3P2P1G0 | P3P2P1P0 Ci,0)
TJU. ASIC Center---Arnold Shi
加法器
加法器设计 加法器常常是限制速度的部件。加法器的优化可 在逻辑级和电路级进行
TJU. ASIC Center---Arnold Shi
二进制加法运算
TJU. ASIC Center---Arnold Shi
FA 的门级实现结构
A B Cin
A
B Cin
t1
t0 t2
t2 t1
t0
TJU. ASIC Center---Arnold Shi
传输门加法器
共24个晶体管
VDD A A B A P A P B Ci P Ci P VDD S 和产生
P
A P Ci
VDD Co 进位产生
VDD Ci Ci
A
产生中间信号,和反相信号
P
TJU. ASIC Center---Arnold Shi
4
2
Cin 6 Cin 3 A
3 3
!S
A
4 B
A
2 B
2 Cin 2
B
Cout = A&B | B&Cin | A&Cin
SUM = A&B&Cin | COUT&(A | B | Cin)
TJU. ASIC Center---Arnold Shi
镜像(Mirror)加法器版图结构
VDD
Stick Diagram
数据通路的特点
数据通路它在很大程度上决定了整个系统的性)
规整性:(Bit-slice)优化版图 局域性:(时间、空间,算子相邻布置)版图紧凑 正交性:(数据流、控制流)规整的布线 层次化: 高位-低位,多位-少位 模块化: 包括各种IP 模块
TJU. ASIC Center---Arnold Shi
Loopback Bus Loopback Bus
Bit slice 63
Loopback Bus
Bit slice 2 Bit slice 1 Bit slice 0
Adder stage 3 Sum Select
To register files / Cache
TJU. ASIC Center---Arnold Shi
G1
C o,1
P2
G2
Co,2
P3
G3 Co,3
也称为 Carry-Skip
FA
FA
FA
FA
P0 G1 Ci,0
C o,0
P0
G1
Co,1
P2
G2
C o,2
P3
G3
BP=P oP1 P2 P3
Multiplexer
FA
FA
FA
FA
Co,3
原理: 如果(P0 、P1 、P2 和P3 均= 1) 则CO,3 = Ci,0 , 否则主路径进位消除或进位产生
回顾:基本的功能块
Datapath 运算单元 • Adder, multiplier, divider, shifter, etc. 寄存器页、流水线 多路选择器、译码器 Control Finite state machines (PLA, ROM, random logic) Interconnect 交换器, 仲裁器, 总线 Memory Caches (SRAMs),移位寄存器, DRAMs, buffers
TJU. ASIC Center---Arnold Shi
Carry-Bypass Adder (cont.)
Bit 0–3 Bit 4–7 tsetup Bit 8–11 tbypass Bit 12–15
Setup
Setup
Setup
Setup
Carry propagation
Carry propagation
TJU. ASIC Center---Arnold Shi
PS3多核心处理器CELL性能强劲
Cell处理器是东芝、IBM和索尼联合研发的。 目前用于索尼公司的PS3。该处理器性能强劲, 被称之为“芯片上的超级计算机”。不过,除了 游戏机外,合作三方至今并未为Cell找到其他更 好的用途。Cell内的1个PPE和8个SPE Cell处理器将给电视机带来超强性能。据称, 电视机将可以在一个屏幕上显示48个独立的电影 画面,此外可以提供超高清的画质。
Cout S
Cout
S
TJU. ASIC Center---Arnold Shi
互补静态CMOS逻辑实现的FA
VDD VDD A B A B Ci A B VDD Ci A B
X
A
Ci
Ci A B
S
Ci
B
VDD
A Co B Ci A
B
28 Transistors
TJU. ASIC Center---Arnold Shi
TJU. ASIC Center---Arnold Shi
曼彻斯特进位链的动态实现
VDD P0 P1 P2 P3 C3 Ci,0 G0 G1 G2 G3
C0
C1
TJU. ASIC Center---Arnold Shi
C2
C3
4-bit 位片式 MCC 加法器
A3
&
B3
A2
&
B2
A1
&
B1
Td = O (N)
A0 Ci,0 FA B0 Co,0 (= Ci,1) FA A1 B1 Co,1 FA A2 B2 Co,2 FA A3 B3 Co,3
S0
S1
S2
S3
设计时优化Tcarry 比优化Tsum 更为重要
TJU. ASIC Center---Arnold Shi
进位路径中取消反相器
TJU. ASIC Center---Arnold Shi
Intel 微处理器的数据通路
Itanium 有6 个如下的整数执行单元
TJU. ASIC Center---Arnold Shi
Itanium 处理器的整数数据通路
TJU. ASIC Center---Arnold Shi
CELL 处理器架构