一种基于目标延迟约束缓冲器插入的互连优化模型
一种高吞吐低延迟片上互连网络路由器
第50 卷第 8 期2023年8 月Vol.50,No.8Aug. 2023湖南大学学报(自然科学版)Journal of Hunan University(Natural Sciences)一种高吞吐低延迟片上互连网络路由器李晋文†,申慧毅,齐树波(国防科技大学计算机学院,湖南长沙 410073)摘要:本文提出了一种用于片上互连网络的低延迟高吞吐量动态虚拟输出队列路由器,该路由器可以利用前瞻路由计算和虚拟输出队列方案将路由器延迟减低到两个周期.仿真结果表明,与虫孔路由器和虚通道路由器相比,4×4网格上的网络吞吐量分别提高了46.9%和28.6%,并且在相同输入加速比下,性能比双缓冲虚通道路由器要高1.9%.在随机合成流量下,片上网络的零负载延迟也分别降低了25.6%和41%.设计实现结果表明,路由器的工作频率可以达到2.5 GHz.关键词:片上网络;路由器;吞吐量;延迟中图分类号:TN913.3 文献标志码:AA High-throughpur Low-latency Router for On-chip InterconnectNetworksLI Jinwen†,SHEN Huiyi,QI Shubo(School of Computer Science, National University of Defense Technology, Changsha 410073, China)Abstract:A low-latency high-throughput Dynamic Virtual Output Queues Router for On-chip interconnect networks is proposed in this paper,which can reduce the router latency to two cycles by leveraging look-ahead routing computation and virtual output queues scheme. The simulation results show that,compared with the wormhole router and virtual-channel router, the network throughput on a 4×4 mesh increases by up to 46.9% and 28.6%, respectively, and outperforms doubled buffer virtual channel by 1.9% under the same input speedup. Under random synthetic traffic,the zero-load-latency of the network on chip is also reduced by 25.6% and 41%,respectively. Synthesis results indicate the frequency of router can reach 2.5 GHz.Key words:on-chip network;router;throughput;latency随着半导体技术的飞速发展,越来越多的处理器核(多核和众核)集成在单个芯片上,而随着MOS 管尺寸的不断缩小,门级电路延迟在不断缩小,全局互连线的延迟相对于MOS管延迟还在不断增加.微∗收稿日期:2022-11-03基金项目:HPCL国家重点实验室基金项目(202101-02);国家自然科学基金资助项目(60873212),National Natural Science Foundation of China(60873212)作者简介:李晋文(1975—),男,山西武乡人,国防科技大学研究员,博士† 通信联系人,E-mail:*****************文章编号:1674-2974(2023)08-0141-06DOI:10.16339/ki.hdxbzkb.2023289湖南大学学报(自然科学版)2023 年处理器体系结构设计的重点正在从以提高计算为中心的单核能力设计转向以互连通信为中心的多核设计.由于互连延迟可预测、设计复杂度比较低、易扩展性和结构规整,片上网络已成为CMP和MPSoC中片上众核互连最有前途的选择[1].其中2D mesh互连网络已广泛应用于许多原型芯片,如Intel 80核Tera⁃flop、Tilera 64核和TRIPS[2-4].片上网络的概念来源于多处理器间互连网络,但实际与多芯片间互连网络有着许多不同的特点.最重要的一点,芯片内互连线和引脚比芯片间网络中的互连线和引脚资源更丰富[1].然而,片上网络中缓冲buffer容量不足.网络的延迟对实际多核的计算性能有很大影响.当路由器的每跳延迟从一个周期增加到五个周期时,全系统的性能将下降10%[5].基准的虚通道路由器的流水线级数为4.近年来,业界提出了几种新型架构的低延迟路由器,包括推测虚通道路由器[6]、采用虫孔交换的两虚通道结构路由器[7]、混合电路交换路由器[5]、带bundle的两周期路由器[8]、组合型两周期路由器[9]、无缓存片上路由器[10]、基于时间序列开关分配路由器[11]以及关键路径延迟只有35个FO4[12]的单周期路由器(FO4是指一个反相器驱动四个相同尺寸反相器产生的延迟,高性能微处理器的周期一般约为20个FO4).缓冲buffer的实现对互连网络的性能至关重要.缓冲buffer可以用寄存器或SRAM来实现.在芯片中,通常缓冲buffer的容量相对较小,因此使用低延迟的寄存器实现更为有利,而使用SRAM会存在较大的地址译码延迟以及存储阵列访问延迟,这些延迟与全局位线相关;此外还能节省位线预充电功耗[13].在标准的虚通道路由器中,每个虚通道都需要自带缓冲buffer,一个虚通道无法使用其他虚通道的缓冲buffer[14].DAMQ路由器设立了5个缓冲buffer队列,每个队列对应一个虚通道,多出的一个队列作为共享缓冲buffer,一个报文flit从到达到离开路由器需要3个时钟周期[15].VichaR路由器能够根据数据流量(traffic)来调节和分配每个物理通道的虚通道和缓冲buffer数量,并使用复杂的VC控制表来管理报文flit,能够有效提高缓冲buffer的使用效率,其缺点是路由器延迟会达到四个时钟周期.当路由器中发生拥塞时,无论是采用基于信用还是基于开关的流控策略,通道流水线中的缓冲buffer都不能用于缓冲flit.iDEAL路由器提出用中继器(repeater)电路来缓冲flit报文[16],然而中继器存在较大漏流问题,会导致不可靠.本文提出了一种新型的两周期路由器——动态虚通道输出队列路由器(DVOQR),采用多端口缓冲buffer和虚拟输出队列来消除虚通道路由器中的分配站(allocation stage).采用Ready/Valid握手机制来控制路由器之间的flit流,在这种策略下,流水线通道中的存储器可以用于缓冲flit报文.本文其余部分组织如下,第1节介绍了路由器的微架构.第2节给出了路由器的具体设计实现.第3节分析了模拟结果.最后,第4节对本文工作进行了简要总结.1 路由器微架构1.1 DVOQR路由器微架构本文提出了一种新型动态虚通道输出队列路由器(DVOQR),其微架构如图1所示.路由器包括P个输入端口和P个输出端口.对于二维mesh网络,P= 5;一个端口连接到本地处理器(核),其他端口连接到相邻路由器.输入单元由三个主要模块组成:集中动态缓冲器(Unified Dynamic Buffer,UDB)、集中动态缓冲分配器(Unified Dynamic Buffer Allocation,UDBA)、P个虚拟输出地址队列(Virtual Ouput Address Queue,以下简称VOAQ).输出端口包括一个P选1的仲裁器和一个P输入的多路复用器.由多个flit组成1个数据报文,存储在同一FIFO队列中,路由到同一输出端口.每个输入端口有P个FIFO队列,它们共享一个UDB并各自带一个私有的VOAQ.每个FIFO中flit的地址存储在虚拟输出地址队列(VOAQ)中.这样一来,就可以有效消除队列头阻塞(HOL)延迟问题[17].芯片间网络路由器中的缓冲buffer一般使用SRAM来实现.大容量的多端口SRAM存储器由于需要较大的面积开销、较高的功耗和访问延迟而难以实现,而使用小容量的寄存器来实现多端口缓冲器buffer要容易得多.受片上资源的限制,UDB用低延迟的多端口寄存器实现,具有1个写端口和P个读端口.每个读端口对应1个FIFO队列.尽管使用多个端口会导致面积开销增加,但可以消除虚通道路由器流水线的分配站.连接到输出端口的CDB,由CDB控制器和两项142第 8 期李晋文等:一种高吞吐低延迟片上互连网络路由器寄存器组成,如图2(a )所示.其中一个寄存器负责接收来自路由器的flit ,而另一个寄存器负责将flit 发送到下一个路由器,一收一发.在下一个周期中,两个寄存器交换收发功能.因此CDB 可以同时接收和发送flit ,可以避免流水线产生气泡.图2(b )给出了CDB 控制器的实现电路.state [1:0]表征两个寄存器的状态.读指针rd_ptr 对应发送寄存器,写指针wr_ptr 对应接收寄存器.当路由器之间的线延迟超过一个时钟周期时,可以插入多个CDB.UDBA 用于为队列分配时隙或释放空时隙.使用状态向量来跟踪所有时隙的状态,1表示时隙可用.当时隙分配给flit 时,相应的位将被清掉.采用固定优先级仲裁器以简化分配逻辑,最低可用时隙将被分配最高的优先级.设计了四个物理VOAQ 来缓存同一队列中的flit.当某一个flit 注入UDB 时,UDBA 负责将分配给它的时隙号写入对应的VOAQ ,该VOAQ 还会保存该报文的路由信息以及flit 类型.在UDB 读操作之前,需要首先从VOAQ 中读出UDB 中flit 的地址,这将增加UDB 的访问延迟.本文设计了一种新颖的移位FIFO ,可以有效减少UDB 的读延迟.图3给出了VOAQ 的微架构,使用one-hot 向量来指向FIFO 的尾部,而第一项指向FIFO 的头部.尾向量的宽度比UDB 的深度D 要大1.当tail_vector [0]为1时,FIFO 为空;而tail_vector [D ]等于1时,FIFO 为满.当头数图1 DVOQR 路由器微架构Fig.1 Microarchitecture of DVOQR(a )Architecture of channel double buffer(b ) Channel double buffer controller图2 通道的双缓存控制器Fig.2 Channel double buffer controller143湖南大学学报(自然科学版)2023 年据离开队列时,VOAQ 中的其他数据将向前移一位,而tail_vector 将进行右移.当新数据到达时,数据将被添加到VOAQ 的尾部,并且tail_vector 左移1位.当新数据在同一时钟周期内到达和离开时,tail_vector 将不发生移位.DVOQR 中的交换分配单元使用P 个round-robin 仲裁器实现.交换分配单元只需要一级仲裁,即可实现最大匹配,从而提高路由器吞吐量并降低分配延迟.1.2 DVOQR 流水线设计DVOQR 路由器的流水线由两站组成:flit 交换站(Flit Switch ,FS )和链路传输站(Link Traversal ,LT ).FS 站:完成交叉开关分配、前瞻路由计算、UDB读操作和Crossbar 传输.其中交叉开关分配、前瞻路由计算和UDB 读操作能够并行.当VOAQ 的第一项是head flit 报文片时,会为目的仲裁器产生一个请求信号.同时,发送VOAQ 中的flit 地址到UDB ,启动读操作,根据报文的路由信息,采用维序路由算法进行路由的前瞻计算.如果请求未被批准,将在下一个周期中重试,而不需要再次读取flit 报文.LT 站:在这一站中,flit 通过物理链路发送并写入UDB ,并根据FS 站的前瞻路由计算结果,将分配给flit 的地址写入VOAQ 中.1.3 流控机制DVOQR 使用了一种新的流控机制,称为ready-valid 握手机制(handshake ).ready 输出表示UDB/CDB 有可用的存储来接收flit 报文.valid 信号标识当前的flit 报文是有效的.当ready 和valid 信号在同一个周期内有效时,说明flit 报文已经提交.当下一级路由器发生拥塞时,链路上流水线中的CDB 可以缓冲flit 报文,这等效于增加了缓冲buffer 容量.基于维序路由算法,这种流控机制可以有效避免死锁.2 设计实现基于RTL 设计实现了用于片上2D mesh 网络的DVOQR 路由器,数据位宽128位,带有16项UDB ,评估了路由器的性能和功耗,综合生成门级网表,并对时序进行了详细的分析.FS 站和LT 站的关键路径延迟分别为400 ps (11.4 FO4)和252 ps (7.2 FO4),该工艺下的FO4为35 ps.表1给出了路由器中各功能部件的面积和功耗.3 模拟结果3.1 模拟方法本文采用随机人工合成流量模型评估互连网络的性能.表2给出了模拟实验的参数设置.采用周期精确模拟器Booksim [14]来评估虫孔路由器(Worm⁃hole Router ,WH )和虚通道路由器(Virtual-channel Router ,VC ).本文使用Verilog HDL 设计实现了DVOQR 的RTL 模型.测试程序采用随机通讯的合成程序,进行了仿真模拟,预热时间为1万个时钟周期,测量时间为10万个时钟周期.3.2 模拟结果分析3.2.1 不同缓冲容量的影响图4为带16项UDB 的DVOQR 路由器在随机流量负载下的平均延迟曲线.虫孔路由器和虚信道路由器中的输入缓冲buffer 数量为16~64 flit.与其他两种路由器相比,DVOQR 的吞吐量分别增加了33.2%和12%,而其他路由器缓冲buffer 的容量是DVOQR 的3倍.因此,DVOQR 可以更有效地使用输入缓冲器.其中,三种路由器的零负载延迟分别为10.4、14.0和17.7.表1 路由器中各功能部件的面积和功耗Tab.1 Area and power consumption of each functionalcomponent模块UDBVOAQinput portoutput port CDBrouter 组合逻辑面积/(μm )218 9452 49629 7311 5102 236167,385时序逻辑面积/(μm )231 47531 6844 0931133 065221,595总面积/(μm )250 4205 66473 8241 6235 301403,740功耗/mW58.87.589.30.60312.1507.5数量/个5205551图3 VOAQ 的微架构Fig.3 Microarchitecture of virtual ouput address queue144第 8 期李晋文等:一种高吞吐低延迟片上互连网络路由器3.2.2 相同输入加速比UDB 有四个读端口,因此DVOQR 的输入加速比是4.图5给出了在随机流量负载相同输入加速比时的平均延迟曲线.与VC_4×4和VC_4×8相比,VOQ_16的吞吐率分别增加17.6% 和1.9%,而VC_8×8 和VC_8×16的吞吐率分别比VOQ_16要高2.9%和7.5%.DVOQR 吞吐率比双缓冲虚通道路由器要高1.9%.在相同的输入加速比下,采用动态缓冲buffer分配只需要一半的buffer 容量就能达到相同的吞吐率.3.2.3 UDB 深度的影响图6给出了随机流量下DVOQR 网络性能与UDB 深度的相关性.2项UDB 的网络饱和点约为50%,16项UDB 的饱和点可达到82.4%.当UDB 的深度大于8时,吞吐率的增加随着UDB 深度的增加速度放缓.当注入流量小于0.4时,采用不同深度UDB 的平均延迟几乎是相同的.可以根据网络流量打开或关闭一部分UDB ,这样可以有效减少缓冲buffer 的漏流功耗.事实上,缓冲buffer 产生的漏流功耗是整个NoC 路由器漏流功耗的最主要来源.3.2.4 报文长度的影响图7给出了随机流量下带16项UDB 的DVOQR平均延迟与数据报文长度的关系,报文长度为2~32个flit.吞吐率随着报文长度的增加而降低.报文长度为32 flit 和2 flit 网络的饱和点分别为57.5%和87.5%.报文长度进一步增加将导致阻塞,因此需要占用更多的物理通道,而且竞争增加将导致更大的延迟.图7 对应不同报文长度下DVOQR 平均延迟Fig.7 Average latency of DVOQR under differentmessage lengths表2 模拟参数设置Tab.2 Simulation parameter settingsnetwork路由算法报文长度流量注入DVOQR 路由器虫孔路由器(WH )虚通道路由器(VC )4×4 meshdimension-order routing four flitsBernoulli processtwo-stage pipeline ,the depth of UDB is 16 for VOQ_16three-stage pipeline ,the depth of buffer is 16 for WH_16.four-stage pipeline ,the channel number is 4 and the depth of buffer in channel is 8for VC_4×8.图4 不同buffer 容量的DVOQR 路由器平均延迟Fig.4 Average latency of DVOQR with different buffer capacities图5 相同输入加速比下DVOQR 平均延迟Fig.5 Average latency of DVOQR under the sameinput acceleration ratio图6 不同深度UDB 的DVOQR 的平均延迟Fig.6 Average latency of DVOQR with different UDB145湖南大学学报(自然科学版)2023 年4 结论本文提出了一种基于ready-valid握手流控策略的两级流水线片上互连网络路由器,该路由器采用维序路由可以避免死锁.与虫孔路由器和虚通道路由器相比,4×4 mesh网络中的网络吞吐量分别提高了46.9%和28.6%,并且在相同的输入加速比下,DVOQR路由器比双缓冲虚通道路由器性能提高了1.9%.综合结果表明,路由器的时钟频率可达2.5 GHz.参考文献[1]DALLY W J,TOWLES B.Route packets,not wires:on-chip interconnection networks[C]//Proceedings of the 38th DesignAutomation Conference .Las Vegas,NV,USA:IEEE,2005:684-689.[2]VANGAL S,HOWARD J,RUHL G,et al.An 80-tile 1.28TFLOPS network-on-chip in 65nm CMOS[C]//2007 IEEE InternationalSolid-State Circuits Conference. San Francisco,CA,USA:IEEE,2007:98-589.[3]GRATZ P,KIM C,SANKARALINGAM K,et al.On-chip interconnection networks of the TRIPS chip[J].IEEE Micro,2007,27(5):41-50.[4]WENTZLAFF D,GRIFFIN P,HOFFMANN H,et al.On-chip interconnection architecture of the tile processor[J].IEEE Micro,2007,27(5):15-31.[5]JERGER N E,LIPASTI M,PEH L S.Circuit-switched coherence [J].IEEE Computer Architecture Letters,2007,6(1):5-8.[6]PEH L S,DALLY W J.A delay model and speculative architecture for pipelined routers[C]//Proceedings HPCA SeventhInternational Symposium on High-Performance ComputerArchitecture. Monterrey,Mexico:IEEE,2002:255-266.[7]胡哲琨,陈杰.消息传递型片上多核系统的设计[J].湖南大学学报(自然科学版),2013,40(8):102-109.HU Z K,CHEN J.Design of a message-passing multi-core system[J].Journal of Hunan University (Natural Sciences),2013,40(8):102-109.(in Chinese)[8]KUMARY A,KUNDUZ P,SINGHX A P,et al.A 4.6Tbits/s3.6GHz single-cycle NoC router with a novel switch allocator in65nm CMOS[C]//2007 25th International Conference onComputer Design. Lake Tahoe,CA,USA:IEEE,2008:63-70.[9]TIWARI V , KHARE K , SHANDILYA S . An efficient 4×4 mesh structure with a combination of two NoC router architecture[J].International Journal of Sensors,Wireless Communication andControl, 2021,11(2):169-180.[10]CHIOU S Y . Bufferless routing algorithms:a survey[J].Advances in Computational Sciences and Technology,2018,11(5):381-386.[11]李存禄,董德尊,吴际,等.低延迟路由器中高效开关分配机制的实现与评测[J].湖南大学学报(自然科学版),2015,42(4):78-84.LI C L,DONG D Z,WU J,et al.Design and implementation ofefficient switching in low-latency router[J].Journal of HunanUniversity (Natural Sciences),2015,42(4):78-84.(in Chinese)[12]MULLINS R,WEST A,MOORE S.The design and implementation of a low-latency on-chip network[C]//Proceedings of the 2006Asia and South Pacific Design Automation Conference.New York:ACM,2006:164-169.[13]HU J C,MARCULESCU R.Energy- and performance-aware mapping for regular NoC architectures[J].IEEE Transactions onComputer-Aided Design of Integrated Circuits and Systems,2005,24(4):551-562.[14]MULLINS R,WEST A,MOORE S.The design and implementation of a low-latency on-chip network[C]//Proceedings of the 2006Asia and South Pacific Design Automation Conference.New York:ACM,2006:164-169.[15]TAMIR Y,FRAZIER G L.High-performance multiqueue buffers for VLSI communication switches[C]//[1988]The 15th AnnualInternational Symposium on Computer Architecture.Honolulu,HI,USA: IEEE,2002:343-354.[16]KODI A,SARATHY A,LOURI A.Design of adaptive communication channel buffers for low-power area-efficientnetwork-on-chip architecture[C]//Proceedings of the 3rd ACM/IEEE Symposium on Architecture for Networking andCommunications Systems.New York:ACM,2007:47-56.[17]KAROL M,HLUCHYJ M,MORGAN S.Input versus output queueing on a space-division packet switch[J].IEEE Transactionson Communications,1987,35(12):1347-1356.146。
快速片上互连缓冲器插入时序优化分析
摘 要 : 互连 线 延 时 已成 为 制 约 大 规 模 集 成 电路 性 能 的 瓶 颈 , 而 缓 冲 器 插 入 能 很 好 解 决 互 连 线 延 时。 V a n G i n n e k e n f v G ) 算 法 是 缓 冲 器 插 入 互 连 时 序 优 化 的 经 典 算 法 ,针 对 此 算 法 的ห้องสมุดไป่ตู้3个 主 要 操 作 过 程 进 行 改 进 ,利 用 红 黑 树 数 据 结 构 存 储 路 由拓 扑 数 据 结 构 ,缩 短 数 据 结 构 的更 新 访 问 时 间 ; 利 用 快速 冗 余 判 别 和 排 序 方 法 减 小 解 方案 数 量 和 求 解 最 优 的 复 杂 度 。 通 过 标 准 测 试 电路 集 I S C A S 8 9
p r o b l e m. VG a l g o r i t h m i s t h e c l a s s i c a l a l g o r i t h m o f b u f f e r i n s e r t i o n i n t e r e o n n e e t i o n s e q u e n c e o p t i mi z a t i o n . Th e i mp r o v e me n t i s p e r f o r me d b a s e d o n t h e t hr e e ma i n o pe r a t i o n p r o c e s s e s o f VG a l g o r i t h m i n t h i s p a p e r . Re d — b l a c k t r e e d a t a s t r u c t u r e i s e mp l o y e d t o s t o r e a n d r o u t e t o p o l o g y d a t a s t r u c t u r e, t h e r e f o r e s p e e d u p t h e u p d a t e a n d a c c e s s o f t h e d a t a s t r u c t u r e; f a s t r e d u n d a n c y d i s c r i mi n a t i o n a n d s o r t i n g me t h o d a r e a d o p t e d
半主动悬架的自适应滑模控制算法研究
半主动悬架的自适应滑模控制算法研究摘要:本研究聚焦于半主动悬架的自适应滑模控制算法,旨在通过深入的理论分析和实验验证,提升车辆行驶的平顺性和稳定性。
半主动悬架作为一种先进的汽车悬架系统,能够通过传感器感知路面状况和车身姿态,实时调节阻尼参数,从而优化车辆性能。
而自适应滑模控制算法的应用,则能进一步提升半主动悬架的性能表现。
我们提出了一种基于改进的理想天棚系统的自适应滑模变结构控制算法。
该算法的核心在于在实际被控系统和参考模型之间的误差动力学系统中产生渐进稳定的滑模运动。
通过李雅普诺夫稳定性原理,我们证明了所设计的滑模控制算法的稳定性。
以某重型车辆为例进行的MATLAB 仿真结果显示,与传统被动悬架和最优控制相比,自适应滑模控制器能够显著改善车辆的平顺性,并对模型参数的不确定性和外界扰动展现出良好的适应性和鲁棒性。
滑模控制算法也存在抖振问题,这也是未来研究需要重点关注的方向。
为了解决这一问题,我们探讨了各种削弱抖振的方案,并在实验验证中观察到滑模控制的抖振现象相对较小,这表明所设计的滑模控制器能够很好地改善悬架性能,达到预期效果。
我们还研究了轮胎阻尼对悬架系统性能的影响,提出了一种考虑轮胎非线性阻尼的四分之一车模型。
通过在不同路面条件下的仿真分析,我们深入探讨了滑模控制和天棚控制在不同车速和路面频率下的性能表现。
本研究为半主动悬架的自适应滑模控制算法提供了深入的理论和实验支持,为进一步提升汽车行驶性能提供了新的思路和方法。
滑模控制的抖振问题仍需进一步研究和完善,以适应更复杂的道路和驾驶条件。
Abstract:This study focuses on the adaptive sliding mode control algorithm of semi-active suspension, aiming to improve the smoothness and stability of vehicle driving throughin-depth theoretical analysis and experimental verification. As an advanced automotive suspension system, semi-active suspension can perceive road conditions and body posture through sensors, adjust damping parameters in real time, and optimize vehicle performance. The application of adaptive sliding mode control algorithm can further improve the performance of semi-active suspension. We propose an adaptive sliding mode variable structure control algorithm based on an improved ideal ceiling system. The core of this algorithm lies in generating asymptotically stable sliding mode motion in the error dynamics system between the actual controlled system and the reference model. We have demonstrated the stability of thedesigned sliding mode control algorithm through the Lyapunov stability principle. The MATLAB simulation results using a heavy vehicle as an example show that compared with traditional passive suspension and optimal control, the adaptive sliding mode controller can significantly improve the smoothness of the vehicle, and demonstrate good adaptability and robustness to the uncertainty of model parameters and external disturbances. The sliding mode control algorithm also has the problem of chattering, which is also a focus of future research. To address this issue, we have explored various solutions to reduce chattering and observed in experimental verification that the chattering phenomenon of sliding mode control is relatively small. This indicates that the designed sliding mode controller can effectively improve suspension performance and achieve the expected results. We also studied the effect of tire damping on suspension system performance and proposed a quarter car model that considers tire nonlinear damping. Through simulation analysis under different road conditions, we delved into the performance of sliding mode control and canopy controlunder different vehicle speeds and road frequencies. This study provides in-depth theoretical and experimental support for the adaptive sliding mode control algorithm of semi-active suspension, and provides new ideas and methods for further improving the driving performance of automobiles. The chattering problem of sliding mode control still needs further research and improvement to adapt to more complex road and driving conditions.一、概述随着汽车工业的不断发展,对车辆行驶平顺性和稳定性的要求也在日益提高。
快速buffer添加算法
( aoa Hi -e om neI (hnhi einC ne 2 0 , hnhi N t nl g pr r ac S aga)D s et i h f C g r, 0 4 Sa ga) 1 2
Ab t a t n d e u - co d sg o i , n e c n e t ea c e sn ’ r u c l a e ie d l y a d i s r c :I e p s b mir e in d man i tr o n c ly i i r a i gmo eq ik y t n d v c ea , n d sn h s
摘要: 在深亚微米设计 中, 连线延迟时间已经超过器件延迟时间, 成为影响性能的瓶颈之一。在线 网 中插入缓 冲器 ( uf r 是改善线延迟的一种有效方法, bfe ) 但是 目 前基于缓冲器块 (u frb ok 的 b f e lc )
方 法一般 因其计 算量 比较 大 , 算法 比较 慢 , 并且 也增 加布 局 ( lop a 的复 杂性 。为此本 文提 出并 f o rln)
个缓冲器块来设计 ,布局时可以把缓冲器作为一
个 整 体考 虑 。 目前 已经 提 出的很 多缓 冲器块 的规划
和使用方法 ,其主要思想是以减少缓冲器块的数量 和芯片总面积代价最小为约束条件。随着 当前芯片 设计规模不断增大 , 需要 的缓冲器数量也随之增加。 大量 的缓冲器给芯片的物理设计带来诸多挑 战, 比 如如何有效地实现缓冲器的 自 动化添加 、如何有效
t e r gf r u d n t o r l n. i a e an w q i ka g r h i b o g t p t le t e ep o lms h yb i t b r e f o p a I t sp p r, e u c lo i m r u h s v s r b e . n o h o l nh t s u o o h
Cadence SiP设计工具说明
Cadence SiP设计工具介绍现有的集成电路与封装设计之间的串行设计方法已经不能满足今天的复杂、顶尖的器件设计的成本、性能、以及上市时间压力。
电气和物理可行性研究和芯片/封装设计折衷必须在设计周期的早期进行,也就是在芯片实现和可能的选项变得极为有限之前。
在这一个阶段,考虑物理设计选择对集成电路的电气性能的影响是至关重要的,反过来也一样。
一旦芯片设计已经最终成型,满足设计要求的负担就落在封装设计人员肩上,一旦发现封装难以进行,这时候再要设计公司更改版图已经不太可能。
允许设计者进行同步物理和电气设计折衷,能够确保在尽可能短的时间内,使集成电路满足它的性能和成本目标。
而就封装设计本身而言,如何合并逻辑IC、RF IC、无源元件以及机械部件到一个单一的衬底并保证产品的性能是最大的挑战,具体包括:集成无源元件的专用成型工艺,3D结构验证,复杂信号的完整性,电源传输性能以及系统级功能仿真等。
也正是基于对这些设计挑战的充分理解和把握,Cadence-SIP才有能力成为事实上的工业标准,被世界上大多数封装企业所采用。
Cadence公司的先进封装设计工具是一个可升级的平台,可以完全满足不同阶段的需要。
以下我们就这些设计工具作简要介绍:1.Allegro(R) Design Authoring原理设计及输入Allegro Design Authoring是SiP,MCM,PCB 通用原理图设计及输入工具。
通过协作式设计方法将工作效率最大化。
设计可以在工作表或模块层级上进行划分,每个设计师可以指派一个或多个模块或工作表。
不管多少个设计师同时从事相同设计的不同部分都没有问题,不会彼此干扰。
接着可以将多个设计阶段组合起来,然后在Allegro 版图设计工具里进行布局。
这种同步设计法使Allegro Design Authoring用于大型设计时的效率极高。
设计师可以同时进行主板布局与电路图设计。
在Allegro Design Authoring或Allegro 版图设计工具里的任何变动可以周期性地合并与同步。
USB2.0技术规范(中文)
终端用户的易用性
为接缆和连接头提供了单一模型
电气特性与用户无关
自我检测外设 自动地进行设备驱动 设置
动态连接 动态重置的外设
广泛的应用性
适应不同设备 传输速率从几千比特率到几十兆比特率
在同一线上支持同步 异步两种传输模式
支持对多个设备的同时操作
可同时操作 127 个物理设备
在主机和设备之间可以传输多个数据和信息流
1.2 USB 规范的目标 本书规范了 USB 的工业标准 该规范介绍了 USB 的总线特点 协议内容 事务种类
总线管理 接口编程的设计 以及建立系统 制造外围设备所需的标准 设计 USB 的目标就是使不同厂家所生产的设备可以在一个开放的体系下广泛的使用
该规范改进了便携商务或家用电脑的现有体系结构 进而为系统生产商和外设开发商提供 了足够的空间来创造多功能的产品和开发广阔的市场 并不必使用陈旧的接口 害怕失去 兼容性
中速和低速的情况 总的来说 中速的传输是同步的 低速的数据来自交互的设备 USB 设计的初衷是针对桌面电脑而不是应用于可移动的环境下的 软件体系通过对各种主机控 制器提供支持以保证将来对 USB 的扩充
性能
应用
特性
低速 交互设备 10-20kb/s
中速 电话 音频 压缩视频 500kb/s-10Mb/s
PCB仿真概述
随着信息宽带化和高速化的发展,以前的低速PCB已完全不能满足日益增长信息化发展的需要,人们对通信需求的不断提高,要求信号的传输和处理的速度越来越快,相应的高速PCB的应用也越来越广,设计也越来越复杂。
高速电路有两个方面的含义,一是频率高,通常认为数字电路的频率达到或是超过45MHZ 至50MHZ,而且工作在这个频率之上的电路已经占到了整个系统的三分之一,就称为高速电路;二是从信号的上升与下降时间考虑,当信号的上升时小于6倍信号传输延时时即认为信号是高速信号,此时考虑的与信号的具体频率无关。
高速PCB的出现将对硬件人员提出更高的要求,仅仅依靠自己的经验去布线,会顾此失彼,造成研发周期过长,浪费财力物力,生产出来的产品不稳定。
高速电路设计在现代电路设计中所占的比例越来越大,设计难度也越来越高,它的解决不仅需要高速器件,更需要设计者的智慧和仔细的工作,必须认真研究分析具体情况,解决存在的高速电路问题。
一般说来主要包括三方面的设计:信号完整性设计、电磁兼容设计、电源完整性设计。
在电子系统与电路全面进入1GHz以上的高速高频设计领域的今天,在实现VLSI芯片、PCB和系统设计功能的前提下具有性能属性的信号完整性问题已经成为电子设计的一个瓶颈。
从广义上讲,信号完整性指的是在高速产品中有互连线引起的所有问题,它主要研究互连线与数字信号的电压电流波形相互作用时其电气特性参数如何影响产品的性能。
传统的设计方法在制作的过程中没有仿真软件来考虑信号完整性问题,产品首次成功是很难的,降低了生产效率。
只有在设计过程中融入信号完整性分析,才能做到产品在上市时间和性能方面占优势。
对于高速PCB设计者来说,熟悉信号完整性问题机理理论知识、熟练掌握信号完整性分析方法、灵活设计信号完整性问题的解决方案是很重要的,因为只有这样才能成为21世纪信息高速化的成功硬件工程师。
信号完整性的研究还是一个不成熟的领域,很多问题只能做定性分析,为此,在设计过程中首先要尽量应用已经成熟的工程经验;其次是要对产品的性能做出预测和评估以及仿真。
Allegro Package Designer and Allegro Package SI
集成电路与封装之间的无缝协同 设计流程
现有的集成电路与封装设计之间 的串行设计方法已经不能满足今 天的复杂、顶尖的器件设计的成 本、性能、以及上市时间压力。 电气和物理可行性研究和芯片/封 装设计折衷必须在设计周期的早 期进行,也就是在芯片实现和选 项变得极为有限之前。在这一个 阶段,考虑物理设计选择对集成 电路的电气性能的影响是至关重 要的,放过来也一样。一旦芯片 设计进行到缓冲器优化已经成为 不可能的时候,满足设计要求的 负担就落在封装设计人员肩上, 而这时候可能已经不太可能了。 允许设计者进行同步物理和电气 设计折衷,能够确保在尽可能短 的时间内,集成电路满足它的性 能和成本目标。
基于SPICE的模拟子系统和嵌入 式三维场计算器 • 包括一个来自最优秀公司的 PakSi-E产品的经过验证的三维 场计算器引擎 • 与Allegro封装SI 620无缝集成 三维场计算器,允许用户把注意 力集中在设计任务,而非工具集 成问题上 • 允许你为选定的线网集合或者 整个封装输出IBIS、RLC、或者 Cadence DML模型 • SigWave显示模拟结果,诸如 窗口连接的眼图 • 为飞行时间、过冲和噪声容限 提供详细的模拟报告
特点
SIGXPLORER • 提供图形化的环境用于探究、
分析和定义互连策略,包括物理 互连的电气视图 • 允许电气工程师从电气角度探 究不同的布局和布线策略,并开 发全套设计规则 • 提供预布线的拓扑探究和解决 方案分析,用于单端布线或者差 分对 • 使能约束驱动的设计,通过生 成电气规则驱动封装设计 • 为设计者提供已经布好的互连 线的电气视图,帮助后版图设计 验证和调试
I/O可行性、布局和排序 • 新的、基于电子数据表的I/O 布局和排序环境提供简单的方 法,用于操纵I/O排序,以便在 封装可行性研究阶段进行芯片/ 封装折衷 • 内嵌式电子数据表能够同步 真正的设计(不像外部的电子数 据表,比如Excel等与设计环境 是分离的) • 芯片与封装之间的逻辑可以 显示在电子数据表中,然后象 其他电子数据表一样,可以对 数据单元进行排序/观察/操作 • 导入/导出功能方便在已有的 外部电子数据表和内嵌式电子 数据表之间进行数据的传递
一种基于结群的零偏差时钟布线算法
在同步数字 电路的设计 中, 时钟信号常用来作 为系统数 据流的 时间参考 , 制着 同步单元的工作 . 控 时钟信号频 章的 大小决定 了整个 芯 片的数据 传输速 度. 时钟周期 的大小 要满足不等式的约束 : r 一 + C ≥T +. 一 如 其 中, . 是 r
组 合 电 路 最 长 路 径 的 延 迟 ; 钟 偏 差 时 任 意 两 个 同步 单 元 的 最 大延 时 差异 ; 是 从 时 钟 源 点 到 和 分 别 是 同步 单
2O O Z年 2月
F b. 0 2 e ,9 0
一
种基 于结群的零 偏差时钟布线算 法
刘 毂 越 洪先龙 蔡懿慈
1081 0 0 4 ( 华 大 学计 算 机科 学 与 技 术 东 北 京 清
摘
要
介绍 了一种基于 结群的零偏差 时钟 布线算法. 算法采用新的单 元匹配策 略 , 归地把时 钟节 电划分成 2 谅 递
Ke r s co k r u i g、c u t r u f r is r i n y wo d lc o t n l s e .b f专家学 者研 究与 讨论的重 点课题 之一. 它 在
1 引
言
减小时钟 偏差方面 , 在最早的 H 树算法 的基础上 , 先后 出现 了MMM 时钟树建立方法 和几何 匹配算法叫 , 是它们都 但
维普资讯
第 l卷 4
第 2期
计 算机 辅助 设计 与图形 学 学报
J OURNAL O F COM P UTER AI D DE DES GN & COM P I UTE GRA P CS R HI
V o1 N o .14. 2
( p r n o  ̄n ue c n ea d T c n lg T i De a t t f C p trS i c n eh o o y, s me e n Unt r ,B l n 1 0 8 ) i s e e ig j 0 0 4
一种NoC路由器间互连线的自适应驱动方法
一种NoC路由器间互连线的自适应驱动方法刘毅;杨银堂;梅伟锋;张旭【摘要】针对片上网络路由器间相邻长互连线串扰导致信号抖动大的问题,基于互连线有效负载解析模型,提出了一种通过相邻信号的比较得到有效负载大小,调整信号驱动强度,从而保持传播延迟时间稳定,抑制信号抖动的方法.与缓冲器驱动模式相比较,在驱动级具有相同宽长比的情况下,当互连线的长度为2mm、宽度和间距均为0.4μm时,信号的相对抖动减小了29.6%,有效提高了长互连线的最高工作频率.【期刊名称】《西安电子科技大学学报(自然科学版)》【年(卷),期】2010(037)001【总页数】5页(P28-32)【关键词】耦合;串扰;抖动;自适应驱动【作者】刘毅;杨银堂;梅伟锋;张旭【作者单位】西安电子科技大学微电子学院,陕西,西安,710071;西安电子科技大学宽禁带半导体材料与器件教育部重点实验室,陕西,西安,710071;西安电子科技大学微电子学院,陕西,西安,710071;西安电子科技大学宽禁带半导体材料与器件教育部重点实验室,陕西,西安,710071;西安电子科技大学微电子学院,陕西,西安,710071;西安电子科技大学微电子学院,陕西,西安,710071【正文语种】中文【中图分类】TN42基于片上网络(NoC)新型架构的SoC设计成为近年来集成电路设计领域的研究热点.这种结构不仅提高了IP间信息传输的数据带宽,同时使数据线的功耗得到有效控制.NoC中,数据线位宽压缩导致更高的工作频率要求,而NoC路由器之间长互连线的有效驱动仍然是制约系统性能的关键问题[1].长互连线不仅导致信号传播延迟时间增加,同时,由于线间耦合进一步加剧,串扰引起的信号抖动成为更加难于克服的设计困难.针对信号抖动问题,工业界普遍采用的方式是插入缓冲器并屏蔽总线[2],这种方法带来系统功耗和面积的增加.采用低摆幅电路不仅可以提高系统工作频率,同时可以降低动态功耗,被认为是较为理想的驱动方式[3],但这种方法的设计较为复杂,同时布线通道所需面积也会成倍增长.总线编码方法也被用于解决串扰问题,由于增加的冗余线较多,这种方法同样会带来面积的增加[4].由于信号串扰导致的信号抖动与相邻信号的相对变化密切相关,故笔者基于互连线的三线模型分析了各种串扰情况,归结为五级串扰程度,通过输入信号编码控制单元确定驱动强度,控制三态逻辑方式的五组PMOS和NMOS驱动管,有效减小了抖动与最大传播延迟比,从而缩短了信号锁存所需的时钟周期,提高了系统的工作频率.1 NoC体系分析NoC结构由路由器、网络接口(NI)、处理单元(PE)及链接组成.对于PE数量超过36的NoC芯片,网状(MESH)结构被证明具有互连功耗低、可扩展性强、易于获得更高数据带宽的特点[5].基于MESH结构的NoC中,PE通过NI与NoC相连,NI与临近路由器相连.PE间的数据传送路径包括PE到NI和NI到路由器、路由器之间、路由器到NI以及NI 到PE.整个传输路径被不同的时钟域所分隔,不同时钟域对应的路由器之间通过GALS结构完成数据传输.一般情况下,路由器之间的长互连线的数量被控制在4~8个范围内.为了保证足够的数据带宽,需要将GALS的时钟频率提高到500MHz~2GHz[6].对于长度达到2~10mm(路由器之间的互连线长度)的长互连,时钟频率的提高带来难于折中的设计困难.以传统的分级驱动方式为例,通过增加缓冲器的驱动强度可以增大工作频率的允许范围,但会增加互连驱动结构的功耗,对于采用级间比例相同的三级驱动互连结构,缓冲器的动态功耗占长互连驱动结构总功耗的30%.通过增强驱动的方法难于获得理想的长互连线驱动效果,故笔者提出改变驱动强度以改善信号传输性能的方法.2 容性串扰及信号抖动分析随着特征尺寸的减小,互连线宽度及间距相应减小,单位长度的线间耦合电容则相应增大.耦合电容会在数字信号间产生动态串扰,导致额外的延迟[7].互连线越长,耦合电容越大,串扰也就越强.为分析串扰对信号延迟的影响,首先通过图1说明互连线的寄生电容情况.图1中,Ct,Cb分别是互连线与上、下导电层间的寄生电容,Cte,Cbe分别为互连线与上、下导电层间的边缘电容,CC为相邻互连线间的耦合电容(包括平板电容和边缘电容,简称线间耦合电容).得到总的互连线对地电容为串扰引起的信号延迟由以下几个因素决定:耦合电容、驱动强度、干扰线的信号跳变方向、干扰线及受扰线的信号跳变时间.假定互连线n-1,n,n+1上的信号具有相同的驱动强度和跳变时间,并且信号同步跳变,此时互连线n的有效容性负载CB,eff 分为以下5种情况[8]:图1 互连线寄生电容情况1 互连线n-1,n+1上信号的跳变方向和n都相同时,有效负载电容为CB,eff=CB;情况2 互连线n-1和n+1上的信号一个保持不变,另一个跳变方向和n相同,有效负载电容为CB,eff=CB+CC.情况3 互连线 n-1和n+1上的信号同时保持不变,或者跳变方向相反,有效负载电容为CB,eff=CB+2CC.情况4 互连线n-1和n+1上的信号一个保持不变,另一个跳变方向和n相反,有效负载电容为CB,eff=CB+3CC.情况5 互连线n-1,n+1线上的信号跳变方向和n都相反,有效负载电容为CB,eff=CB+4CC.值得注意的是,互连线n-1和n+1上的电平变化不同,受耦合电容影响n上的信号延迟也不同.定义抖动与最大传播延迟比(JR,即相对抖动)为最大信号延迟与最小信号延迟之差和最大信号延迟的比值,即下面分析缓冲器驱动模式下互连线上信号的JR.长互连线的驱动级通常由级联的CMOS反相器构成,等效为一个信号源和输出电阻Ro;负载级等效为一个对地电容CL.为简化分析,长互连线用集总的RC表示,等效电路如图2所示.根据Elmore延时模型,有定义ρ为互连线n上CC与CB之比,结合公式(3)得到ρ越大,JR也就越大.根据文献[9]中ρ值计算方法和SMIC 0.13 μ m互连SPICE模型参数,取互连线宽度和间距为0.2μ m,得到ρ值近似为1.3,在不考虑MOS管寄生电容的情况下,计算得到JR高达82%.图2 缓冲器驱动模式等效电路3 自适应驱动方法及实现3.1 自适应驱动方法上节的分析表明,互连线的有效容性负载CB,eff值与相邻互连线信号变化密切相关.对于驱动强度不变的缓冲器驱动模式,CB,eff的相对变化越大,JR也就越大,即互连线宽度和间距的减小会导致JR值的增大.通过增加互连线间距或加入屏蔽线的方法可以有效减小JR值,但会导致布线面积增加;通过增强缓冲器驱动强度可以减小信号的绝对抖动范围并减小tpmax值,但却增加了缓冲器寄生电容,从而增加了系统功耗.为此,笔者提出一种自适应驱动方式,通过欲传送信号比较分析,确定CB,eff的变化情况,以产生驱动强度控制信号,保证信号驱动强度与CB,eff相对应,有效减小了tpmax与tpmin的差值,使不同情况下的信号传播延迟时间趋于一致,从而减小了JR值.而JR的减小可以有效提高长互连结构的工作频率[1].因此,对于相同的工作频率要求,与缓冲器驱动方式相比,这种方法可以通过减小布线间距获得更小的布线面积,并可通过减小最大驱动强度以降低功耗.图3 自适应驱动器图3(a)为自适应驱动方法结构图.in[n]为路由器间第n条互连线上传送的数据,in[n-1],in[n+1]为其相邻线上的数据.编码控制单元首先记录上一时钟周期传送的该条及相邻线上的数据int-1[n-1],int-1[n],int-1[n+1],同当前时钟周期欲传送数据int[n-1],int[n],int[n+1]进行逻辑比较,得到该时刻信号传送所需的驱动等级,并产生5位控制信号,分别控制驱动模块中的5对NMOS及PMOS管,使相应类型驱动管全部导通或部分导通.这种可变驱动强度的驱动方式与变化的有效负载相配合,保持传播延迟时间的稳定,从而有效抑制了信号抖动.为了保证信号传输与时钟传输具有相同的传播延迟时间,可将时钟线进行屏蔽处理.3.2 自适应控制单元设计图3(b)为自适应控制单元结构图.3条相邻线上的当前时钟周期数据int[n-1],int[n],int[n+1]与D触发器锁存得到的前一时钟周期数据int-1[n-1],int-1[n],int-1[n+1]传送至驱动等级编码产生电路,经过逻辑比较,判断得出驱动等级,再将此驱动等级进行编码,输出位宽为5的控制信号(用于调整驱动强度)至驱动单元. 具体的编码产生逻辑为:3.3 驱动单元设计驱动单元的5对NMOS,PMOS驱动管采用三态逻辑进行控制,如图3(c)所示.当驱动信号为高时,驱动管对相当于缓冲器,否则驱动管对截止.根据信号线有效负载可以计算出驱动管对的宽长比,并根据Hspice仿真结果进一步修正.4 仿真结果根据SIMC 0.13μ m工艺参数,互连线长取2mm,间距S和宽度W取0.4μ m.令缓冲器驱动模式的驱动强度和自适应驱动的最大驱动强度相同,采用Hspice软件,得到两种驱动模式不同输入情况下的信号传播延迟时间,如表1所示.缓冲器驱动模式的JR为34.1%,而自适应模式的 JR仅为4.5%,减小了29.6%.由于驱动单元逻辑门(与非门、或非门)的逻辑努力值大于反相器,自适应驱动模式的传播延迟时间增加了30ps,使自适应驱动模式的最大传播延迟时间增加了6%(可通过增加逻辑门中晶体管宽度的方式减小这一差值).由于差值所占比例较小,笔者忽略了这一差值对相对抖动与绝对抖动对应性的影响.表1 互连线的宽度和间距为0.4μ m时信号的传播延迟时间和相对抖动缓冲器驱动298 340 377 415 452 34.1自适应驱动 463 472 485 481 482 4.5将以上仿真结果的信号波形叠加得到图4所示的眼图.缓冲器驱动模式下,信号绝对抖动值达到154ps,而自适应驱动模式的绝对抖动值仅为22ps,明显减小了信号抖动.图4 不同驱动模式下的信号眼图对比图5 不同宽度和间距下的信号抖动改变互连线宽度(间距),仿真得到JR值,整理得到图5.可见,随着间距和宽度的减小,缓冲器驱动模式下的JR急剧增大,而自适应驱动模式下,JR最大仅为6.7%,抑制抖动的效果很好.以上结果表明,自适应驱动可以有效地降低容性串扰引起的信号抖动,显著减小时钟周期要求,从而提高路由器间信号传输的工作频率.5 总结根据互连线三线模型,笔者给出有效容性负载的解析表达,提出了一种根据有效负载确定驱动强度的自适应驱动长互连的驱动方法.与缓冲器驱动模式相比较,令缓冲器驱动方法的驱动强度和自适应驱动的最大驱动强度相同,当互连线的宽度和间距为0.4μ m时,信号的相对抖动减小了29.6%,有效地提高了长互连线的最高工作频率.随着特征尺寸的减小,线间串扰将进一步加剧,这种方法也将更为有效.参考文献:[1] Lee S J,Lee K,Yoo H J.Analysis and Implementation of Practical,Cost-effective Networks on Chips[J].Design&Test of Computers,2005(22):422-433.[2] Pamunuwa D,Tenhunen H.Repeater Insertion to Minimise Delay in Coupled Interconnects[C]//Conf VLSI waukee:IEEE CS Press,2001:513-517.[3] Chen Mingdeng,Silva-M artinez J,Nix M,et al.Low-voltage Low-power LVDS Drivers[J].Solid-State Circuits,2005(40):472-479.[4] Victor B,Keutzer K.Bus Encoding to Prevent CrosstalkDelay[C]//IEEE/ACM Int'l puter-Aided Design(ICCAD01).Milwaukee:IEEE CS Press,2001:57-63.[5] 张恒龙,顾华玺.片上网络拓朴结构研究[J].中国集成电路,2007(11):42-46.Zhang Henglong,Gu Huaxi.Research of Network on Chip Topology[J].China Integrated Circuit,2007(11):42-46.[6] Lee K M,Lee S J,Kim S E.A 51mW 1.6GHz Network for Low-power Heterogeneous SoC Platform[C]//ISSCC Dig of Tech.New York:IEEE Press,2004:152-153.[7] 张富彬,何庆延,彭思龙.调整门和连线尺寸以减小串扰的拉格朗日松弛法[J].计算机工程与科学,2007(29):73-76.Zhang Fubing,He Qingyan,Peng Silong.Gate and Wire Sizing for Crosstalk Reduction by LagrangianRelaxation[J].Computer Engineering&Science,2007(29):73-76.[8] Rossi D,Metra C.Exploiting ECC Redundancy to Minimize Crosstalk Impact[J].Design&Test of Computer,2005(22):59-70.[9] 刘毅,杨银堂,王乃迪.采用相邻耦合动态功耗优化的低功耗布线方法[J].西安电子科技大学学报,2007,34(5):712-715.Liu Yi,Yang Yintang,Wang Naidi.Low Power Routing Method Based on Reducing Adjacent Signal Coupling Dissipation[J].Journal of Xidian University,2007,34(5):712-715.。
PCIE架构简介
随着线速度的增加,物理层的设计不仅更艰难,且还要必须小心地应对整合问题以规避在超过 1Gbps 吞吐量情况下,会发生的信号完整性问题。高速时的封装和板级设计变得更加困难和耗时且经常导致 项目延期。此外,高性能物理层设计要求在高速模拟通信方面有高超技巧。取决于设备制造工艺,这 种通信很关键,因此设计师必须具备基本器件物理方面的认识。这种专门知识只有通过丰富的设计经 验才能获得。困难不仅存在于物理层开发,且物理层还必须与其他公司设计的 PCIe 接口互操作。因 此,PCI-SIG 组织提供一致性测试服务——通常称为“plug-fests”——以测试一个设计是否符合规 范及与其他设备的互操作性。
• PCIe交换器把数据路由至下游多个PCIe端口,并分别从其中每个端口路由到上游唯一一个根联 合体。PCIe交换器也可以灵活地把数据从一个下游端口路由到另一个下游端口(点对点),它 消除了传统PCI系统限制性的树状结构。
• 端点通常位于终端应用内,它负责连接应用与系统内的PCIe网络。端点要求并完成PCIe事务传 输。一般来说,系统内的端点比任何其他类型的PCIe部件都要多。
在物理硬件内:从串行引脚层到 PIPE 接口层统称为物理层;从 PIPE 接口到应用的那些层统称为数 字控制器。任何给定 PCIe 链路的端点都必须包括物理层和数字控制器。图 3 显示了插入到根联合体 内的 PCIe 物理层和控制器以及来自在图 1 中定义的子系统内的端点。端点使用端点端口,根联合体 设备使用根端口。图 3 显示了展延进各自物理层的端口类型以及控制器功能。
Physical Coding Sub-layer
8b/10b 编码/解码 弹性缓冲器 Rx检 测
芯片设计中的片上互连优化技术有哪些
芯片设计中的片上互连优化技术有哪些在当今的科技领域,芯片作为各类电子设备的核心组件,其性能和效率的提升至关重要。
而在芯片设计中,片上互连的优化技术是实现高性能、低功耗和高可靠性的关键环节之一。
片上互连,简单来说,就是芯片内部各个组件之间传递数据和信号的通路。
就好比城市中的道路网络,道路的规划和优化直接影响着交通的流畅性和效率。
同样,片上互连的优化直接关系到芯片的整体性能。
首先,我们来谈谈布线资源优化技术。
在芯片设计中,布线资源是有限的,如何合理地分配和利用这些资源至关重要。
通过先进的布线算法,可以在满足性能要求的前提下,减少布线所需的面积和功耗。
比如,采用智能的路径搜索算法,能够找到最短、最节能的信号传输路径。
同时,对于不同类型的信号,如高速信号和低速信号,可以采用分层布线的策略,将高速信号的布线与低速信号分开,以减少相互干扰。
然后是信号完整性优化技术。
在芯片内部,信号在传输过程中可能会出现失真、衰减和延迟等问题,这会严重影响芯片的性能和可靠性。
为了解决这些问题,工程师们采用了一系列的技术手段。
例如,通过合理的终端匹配技术,可以减少信号反射,从而保证信号的完整性。
此外,使用差分信号传输技术,可以有效地抑制共模噪声,提高信号的抗干扰能力。
在布线过程中,还需要考虑到互连线的电容和电感效应,通过优化线宽、线间距等参数,来降低信号的传输损耗和延迟。
低功耗互连技术也是片上互连优化的重要方面。
随着芯片集成度的不断提高,功耗问题日益突出。
在片上互连中,采用低功耗的编码方式可以有效地降低数据传输过程中的能量消耗。
比如,采用脉冲编码调制(PCM)或曼彻斯特编码等技术,可以在不损失信息量的前提下,减少信号的翻转次数,从而降低功耗。
另外,电源门控技术也是一种有效的手段,通过在不需要传输信号时关闭部分互连线路的电源,来实现节能的目的。
再来说说时钟树综合优化技术。
时钟信号在芯片中起着同步各个组件工作的关键作用。
一个优化的时钟树结构可以减少时钟偏差和抖动,提高芯片的工作频率和稳定性。
基于深亚微米工艺长互连线延迟优化的设计方法研究
基于深亚微米工艺长互连线延迟优化的设计方法研究李仁发;徐实;赵振宇;王耀;刘畅;胡逸騉【摘要】随着SoC方法学的使用,集成电路越来越复杂,设计规模越来越大,连线延时已经成为影响时序收敛的关健因素之一.本文提出了一种基于物理设计的长线互连优化方法,即优化关键单元的布局,并选取、增、减repeater来优化时序.本方法根据单元间的位置测定单元间距,指导设计中需要插入的repeater位置及数量.长互连延迟的优化效果与所使用的单元、插入单元的间距、选用的线宽等影响因素有密切关系.28 nm工艺下,在间距200μm~250μm时插入8倍驱动(×8)规格的反相器(缓冲器)时效果最好.其次,将互连线上的缓冲器换成反相器,互连延迟能降低10%.第三,使用更宽的走线能使长互连线延时再降低20~30 ps.【期刊名称】《湖南大学学报(自然科学版)》【年(卷),期】2015(042)004【总页数】8页(P85-92)【关键词】物理设计;预布局;长线优化;EDA;优化时序【作者】李仁发;徐实;赵振宇;王耀;刘畅;胡逸騉【作者单位】湖南大学信息科学与工程学院,湖南长沙410082;湖南大学信息科学与工程学院,湖南长沙410082;湖南大学信息科学与工程学院,湖南长沙410082;湖南大学信息科学与工程学院,湖南长沙410082;湖南大学信息科学与工程学院,湖南长沙410082;湖南大学信息科学与工程学院,湖南长沙410082【正文语种】中文【中图分类】TP302.4随着集成电路工艺的进步,高性能处理器的设计规模已超过10亿晶体管,更多的物理资源,更高的器件密度导致后端物理设计变得越来越复杂,时序收敛成为高性能处理器实现的关键节点[1].在深亚微米工艺中,互连线延时与单元延时在整个电路延时中严重影响着时序的收敛,如何优化长线时序是当前的研究热点.当前,互连线延迟优化方法的研究工作主要面向自动化工具建模.文献[2]提出了一种在EDA工具中使用基于预布局的时序优化方法,但是这种方法纯粹依赖EDA工具进行时序优化很难达到预期的效果,经常需要对关键路径进行手动修改.文献[3]从3D IC设计角度,以全新的眼光看待长线延迟带来的不便,从三维层面的角度对走线优化问题提出了看法,具有很强的启发性.本文提出了一种基于长线互连延迟的优化方法.该优化方法针对飞腾微处理器中,长线互连所占比重很高,并且集中在1 800~2 200 μm,商业工具无法将时序优化收敛的情况下,通过对关键路径上的标准单元进行提前布局,即在布图规划阶段,硬核模块摆放完成之后,将关键路径上的标准单元类似于硬核模块进行手动布局,并在预布局阶段对存在的长路径进行时序优化.在实际芯片模块物理实现的过程中,我们发现EDA工具反复迭代并且难以优化的路径绝大部分都是在长线互连的情况下产生的[4].这是因为一旦路径中出现了较长的互连线会直接导致改路径上的Slew变长,进而导致当前路径的延迟显著增大.为了避免这种现象,我们对设计当中出现的长线互联路径对其使用的单元,驱动路径的长度均进行了专门优化,使得EDA工具在运行时间上大大缩减.同时由于整个模块中时序较差的路径绝大部分也属于长线互联,进过专门优化后,也使得整个设计模块的违例大大减少,数据端的数据也能到得更快.本文结构组织如下:首先,引入互联线的分析模型和长线延时的计算方法,研究插入优化缓冲器尺寸、位置和数量对延时的影响.然后,对一段长线延时理论上的最佳优化方法进行深入分析.对不同情况下的长线延时给出最优化方案.最后,使用所提出的算法对长互联线进行优化,并与优化前的延时进行比较,结果证明所提出的方法可有效减小互联线的延时.1.1 基本的长线延迟模型导线的寄生(电容、电阻)参数是沿它的长度方向分布的,而不是集中在一点,需要建立分析模型来分析其延迟[5].本文的目标设计中,长线发生的场景一般在顶层全局互连上,这部分互连的特点是距离长,但互连数量不多,考虑到全局布局的空间资源,一般不容易出现紧密相邻的长互连线,串扰问题可通过增加线间距和换层来解决,因此可以不考虑串扰以及其它噪声对时序的影响.对于一段较长的导线,可以把它表示成一个n段RC的结构,总电阻和电容分别表示成:Rwire=nRw, Cwire=nCw.Rwire为长线的等效电阻,Cw为长线的等效电容.线延迟分析模型复杂,而且计算速度慢,因此人们开发了多种简化RC模型,艾蒙延时计算模型是其中之一.艾蒙延时计算模型中,节点i处的延时可以由下式给出: 因此,对于一个分成三节的长线来说,计算艾蒙延时为:T=R1C1+(R1+R2)C2+(R1+R2+R3)C3.对于一条总长L的导线,如果把它平均分成n份,每段长为l,l=L/n,设Rl为路径单位长度的电阻,Cl为导线单位长度的电容,则导线总的艾蒙延时为Tl=(lRl)·(lCl)+2(lRl)·(lCl)+3(lRl)·(lCl)+…+n(lRl)·(lCl)=L2·RlCl/2=RwireCwire/2.于是,长线延迟最优问题转换成求Rwire和Cwire的最优解问题.1.2 缓冲器插入算法由式(3)可知,长线延时和导线的总长度L成平方关系.通常在长线中选择合适的位置插入中继单元,把长线分成若干段,这样长线的总延时与总长L的关系线性化,从而达到减少总延时的目的.一个比1X大M倍驱动能力的缓冲器的等效电阻R,输入电容Cin和输出电容Cout分别为:(比1X大M倍不准确,意味着M+1倍)Reff=Reqn/M;Cout=CeffWn(1+β)=CJ(1+β);Cin=CgWn(1+β)=CG(1+β);其中,M为使用缓冲器的倍数,Ceff为单位宽度的有效电容,β为PMOS与NMOS器件的尺寸比,Wn是1X缓冲器NMOS器件的尺寸.由此可知,每一段的埃蒙延迟为:因此,优化后的长线总埃蒙延迟为:τall=N×τ=N(CG+CJ)Reqn(1+β)+要使成立,则:即,当时可以得到优化该长线的最佳值.可见,随着插入单元间距的增大,延时趋势先降后增.这是因为当所分的段数过多,缓冲器器件本身的延时将超过它所优化掉的长线延时.使用以上方法可以得到理论上最优的S和k值,从而实现最小长线延时.例如,28 mCMOS工艺中,M5层金属走线特性如下:Rin=3.27 Ω/μm,Cin=0.1 fF/μm,L=2 000 μm,Reqn=12.5 kΩ, CG=2fF/μm,Ceff=1 fF/μm,W=0.2 μm,β=2.通过计算可以得到,×16倍驱动器驱动2 000 μm长线的延迟为0.780 ns.使用式(4)计算后推荐值使用驱动能力为×8的buffer,2 000 μm距离平均插入5个buffer延迟,则延迟降低为0.440 ns,下降36%.一般地,在基于标准单元的芯片设计中,在布局阶段对长线进行干预,能对时序收敛产生特别明显的效果[6].布图规划阶段,先要解决芯片内部结构在物理上的排布,主要确定芯片大小,完成芯片输入输出(I/O)单元、模块以及大量硬核(IP核、模块)的规划等.在规划的过程中,需要根据模块间的相关关系、数据流向以及模块规模,来确定这些硬模块之间的相对位置(面积、形状、端口),规划的好坏直接影响芯片的整体性能.合理的布局,能极大缩短模块间距离,减少长路径的数量.2.1 长线优化实现流程图1是物理设计阶段长线优化的具体实现流程[7].1)将完成布局规划之后的设计导入EDA(Electronics Design Automation,电子设计自动化)工具.2)让EDA工具进行标准单元的布局,然后做时序分析,分析关键路径.3)依据逻辑单元间的互连关系,将需要进行预布局的逻辑单元固定在特定的位置处,保证其位置不会因EDA工具优化而改变.4)完成逻辑单元位置固定,通过工具将布图规划的结果保存下来,在下一次重新导入设计的时候,就可以直接将带有预布局的布图规划导入设计,即完成标准单元的布局.需要注意到的是图中优化设计(Optimization Design)的过程,即设计工具与手工加入干预设计的过程,需要反复迭代.本方法根据已得到的延迟信息在Place阶段完成之后的对具有较长互连的数据路径进行更换单元类型、调整单元间距等方式分别优化.将路径上需要互联的单元提前进行布局并输入命令保证已布局的单元不会因EDA工具优化而产生位置的变化,这样就可以在确保大路径方向不变的情况下对特定路径进行优化.具体流程如图2所示.具体的实现步骤如下:1)设计文件输入以及布局首先要有一个已经确定的布局来避免迭代,将输入信息读入EDA工具.2)长线路径优化计算,由时序分析中违例路径找出违例的长互连路径,从第一条路径开始计算,根据当前路径的两级非成对反相器、非缓冲器的距离,通过公式预估出当前路径上平均插入单元的个数与间距,确定坐标位置,并将其信息输出成tcl 脚本形式,以便在下一步中应用.在这之后即可继续进行下一条路径的优化预估.3)在指导意见的前提下,对长互连路径上的单元进行优化摆放,使得初始寄存器位置固定.4)设置约束,对于已优化路径上的单元进行约束,防止EDA工具错误优化,将已布局的长线路径重新优化.5)照正常步骤运行流程,直到布线阶段抽取寄生参数,进行时序分析得到优化过的关键路径的时序,确认优化成功与否.6)根据最终得到的结果对优化不成功的长线路径进行小范围的重新优化.从图中可以看出,首先在一个已经确定的布局结果的基础上由静态时序分析得到违例路径报告,从中选取出由长线互联导致违例的路径进行逐一分析优化.由于在基于EDA工具的设计流程中肯定会进行某种程度的优化来保证时序的正常,这些静态时序分析报告中的违例路径一般就是工具反复多次优化所不能解决的路径;在此基础之上重新运行一遍流程,在当次流程中Place阶段对上一遍流程中优化过的路径上的单元按照已优化的结果进行摆放并继续运行EDA流程.通过以上这种流程上的调整,使得在工具运行过程中无法得到优化的路径通过人为的、经验化的手段达到了减少违例路径的目的,通过这一方式也减少了工具的迭代,节约了设计资源.如果经过优化的路径或设计仍然不能满足设计者的要求,那么就需要在第二轮设计中对从place阶段开始的每个阶段进行详细分析,找出工具在运行过程中导致时序变差的误操作并人工对其进行修改,这些修改可以是对EDA工具流程的优化也可能是对当前设计不合理处的改动.在运行的过程中还需要注意的是,对于已修改的路径可能会对其他布线好的路径造成更大的延迟和违例,需要仔细检查.这是因为在优化当前路径的前提下,可能正好占用了其他路径上的布局布线资源,使得本来已经布局布线无错误的路径因为单元位置的改动导致走线的复杂化[8].选取在place阶段对特定路径进行调整的原因在于该阶段仅对单元进行了摆放没有真实走线,尽量早期就对设计进行干预,可以尽量减少优化长线互连路径所消耗的时间.由于芯片设计的特殊性,后端物理流程一般居于整个芯片设计的最后,工程量大,时间紧,对于完成设计时间的要求尤为突出.长线优化方法不仅降低了长线互连的延迟,还大大减少了工具反复优化长线路径的迭代时间.本文在常规物理设计流程的基础上对长线优化方法进行改进,在物理设计早期对长线进行优化干预,使得设计者在物理流程的运行过程中不再是被动的等待结果、运行机器流程,而得以提前对关键路径进行人为的干预大大减少运行时间、优化时间. 如图3,实际运行中设计113万单元的模块(其中主要单元为SRAM),在相同脚本设置的前提下,对其中的200条关键路径均进行手工路径优化之后运行同样步骤所需时间由原来的29 h缩减至23 h.大大减少了设计中的运行时间和迭代.这在漫长的后端物理设计优化迭代的过程中,是难能可贵的.使用长线互连优化方法优化前后的时间对比如图4~5所示.可以看到整个设计流程的运行时间由原来的29 h减少到了23 h,得到了较好的效果.经过长线互连优化的模块不仅能够大大降低运行时间,而且由于在一个设计模块中的长线路径一般都是时序违例较大或者延迟较高的路径,经过特定优化手段后其时序也能得到大幅优化.大幅降低了整个模块的违例路径数量,而且降低了模块设计的难度.2.2 验证实验原理根据插入缓冲器的技术参数,利用公式进行计算,可以指导插入单元驱动能力和单元数的选择.下面以飞腾高性能微处理设计中,使用本优化的缓冲器插入方法优化长互连线时序为例,说明实验的基本原理,验证插入缓冲器方法的正确性与实用性. 图6(a)是EDA自动优化后的结果,图6(b)是利用本优化方法后的结果.对比图6(a)和6(b)可以看出,互连线延时由原来的809 ps降低到600 ps,延迟优化25.8%. 本实验从插入不同缓冲器、更改走线层次和合理控制单元距离3个方面进行优化.优化时,还需要综合考虑噪声、功耗等多种情况.影响优化的考量主要有以下几个方面:1)走线宽度;2)所用单元自身的延迟;3)所用单元间的距离;4)所用单元的类型.本设计的工艺中,不同走线层次的走线宽度不同,分别为0.05 μm,0.10 μm和0.20 μm 3种规格,单位距离的线延迟差异很大,计算和分析结果的时候需要特别考虑.为了使实验具有说服力,我们选取比较具有代表性的4倍驱动(×4),6倍驱动(×6),9倍驱动(×9),11倍驱动(×11),13倍驱动(×13),16倍驱动(×16) 6种规格的中继单元,即buffer和inverter,分别在2 000 μm长度下均匀间隔插入2~12个中继单元.这个实验可以得出:1)不同规格的单元在什么情况(插入间距)下能达到最佳;2)横向比较获得,长线下的最佳中继单元.实验参数如表1所示.值得注意的是,单元的驱动能力越强,工作电流越大,尤其是反转时的短路电流,容易出现IRdrop和EM问题.因此,在经验中不把大驱动单元作为研究对象,但这种单元往往会在时序收敛的最后阶段采用.3.1 长线延迟影响因素分析插入中继单元的互连线是非常有效互连线时序优化方法[9].插入缓冲器优化技术能否达到最优的优化效果主要取决于所选用单元驱动的大小、数目和单元间的间距以及走线的宽度是否合适.下面的实验是针对不同间距插入不同缓冲器,进而得到插入缓冲器驱动的大小、单元间距、走线的宽度和数目的具体参数.从图7中可得出:在同一条长线上插入不同驱动缓冲器,BUF16在表1所列的缓冲器中对互连线延时优化效果最好;随着插入BUFER单元间距的减小,所有实验组延时呈现先减小后缓慢增加的趋势,并且大约在400~333 μm这段距离内取得整体延时的最小值.值得注意的是,使用0.2 μm线宽的情况时,应选取规格大于×9的buffer,延迟可缩短30~35 ps,而采用其余驱动能力的中继单元并试图通过改变走线宽度来达到大幅减少延迟的目的是不现实的.从图7可看出,单元间距在200~400 μm之间时,所有的INV单元驱动0.2 μm线宽的长线延迟比其它两种规格的线宽更低;当间距增大到285~181 μm时,一部分较小的INV单元驱动0.1 μm甚至0.05 μm线宽的长线延迟可能比0.2 μm线宽更低.因此,结论如下:在单元间间距较远的情况(200~400 μm)下,无论使用何种类型的INV单元均推荐使用0.2 μm宽的走线,但近距离(285~18 μm)连接单元时,则需要使用0.1或0.05 μm线.使用驱动能力大于×9的单元时,使用0.2 μm线是最优的.增大线宽对减小线延迟有正收益,但设计师在使用这一技术时需要注意负面开销(如打孔换层),要综合这些负面开销,来决定是否采用变更走线层次.并且图7还表明,随着插入不同多级缓冲器时,长互连线的总延时总是先减小后增大,这是因为插入缓冲器时会增加缓冲器的器件延时,当增加的器件延时大于优化互连线延时所得到的收益时就会使整体延时反而变大,所以插入缓冲器优化技术也不是插得数目越多越好,要插入适合的数目才会有优化效果.在此基础上我们又进行了详细的实验对比,从中可以得出:INV、BUFER单元间距离为2 000 μm到666 μm时,使用0.2 μm线宽的连线能获得较好的延时收益,其它距离则与所选取的线宽关系不大,在不同线上插入多个缓冲器时,当互连线延时降低25 ps左右后,再插入缓冲器,会使得长线延时反而增大:尽管互连线自身延时出现呈下降趋势,但插入的器件延时呈上升趋势,总延时随器件数量增多先减小后增大.根据以上实验结果,我们将25 ps作为判断长线的标准,作为可以进行插入缓冲器的一个最小互连线延时值.从这些图中还可以看出,相同规格下使用INV单元的路径的总延迟总是小于使用相同类型BUFFER路径的总延迟.3.2 实验结果总结根据第2节和第3节中的插人缓冲器的估算以及具体路径中应用的效果,在优先考虑性能的前提下,得到了与公式相近的结果,表明公式可以在一定程度上对于长线互连延迟优化的工作起到指导作用.对于长互连线延时的优化,如果采用缓冲BUFER优化延时,每隔285 μm~400 μm间插人一个大小为×16的BUFER时可以使得长互连线延时达到最小;如果采用反相器优化延时,每隔200 μm~250μm间插人一个大小为×16的反相器可使得总的互连线延时达到最优.本文分析了深亚微米工艺下大规模物理设计中互连线延时的影响因素及其优化方法,实验研究了不同因素对互连线延时的影响.首先,可以根据单元之间位置测定单元间距并按照设计中的需要指导插入缓冲器的数量.其次,将互连线上的偶数数量的缓冲器换成相同数量的反相器,能大大降低互连线间的延迟,且增加布线空间.第三,使用高层金属能使长互连线延时降低20~30 ps左右,但会增加布线资源的需求.这些方法能对互连线的延时及布线起到一定优化,可以使我们的设计更快收敛.本文只是对互连线延时优化作了初步研究,针对未来更高工艺水平的设计要求,仍需对互连线的延时优化作更深层次的研究.随着集成电路规模的不断增大,时钟频率也在不断地攀升,如何使得时序收敛成为芯片设计者最关心的问题.本文从标准单元的布局着手,对一些特殊的标准单元,特别是关键路径上的标准单元进行预布局,并对存在的长路径采用插入中间缓冲器来优化延时.本文从模型推导出插入单元的方法,并通过实验验证了这个方法,长互连线延时优化被应用于飞腾微处理器设计中,已经取得了明显的效果.目前本方法还需要大量手工干预和人工分析,而且也没有考虑打孔等其他因素,仅适合在设计有少量长路径违反的前提下使用,或者是在设计过程中EDA进行多次优化迭代后对其无法优化的少数路径再进行优化,自动化是下一步研究内容.†通讯联系人,E-mail:****************.com【相关文献】[1] ELMORE W C. The transient response of damped linear networks[J]. Journal of Applied Physics, 1948, 19: 55-63.[2] 苏琦, 黄金明. 快速 buffer 添加算法[J]. 中国集成电路, 2008, 1(10): 32-36.SU Qi, HUANG Jin-ming. Quick add buffer algorithm [J]. Chinese Integrated Circuit, 2008, 1(10): 32-36. (In Chinese)[3] RUEHLI A E. Circuit analysis, simulation and design[M]. North-Holland, the Netherlands: Elsevier Science, 1987: 116-119.[4] SAXENA P, MENEZES N, COCCHINI P, et al. Repeater scaling and its impact on CAD[J]. IEEE Transactions on Computer-aided Design, 2004, 23(4): 451-463.[5] OSLER P J. Placement driven synthesis case studies on two sets of two chips: hierarchical and flat[C]//International Symposium on Physical Design. San Diego, California, 2004: 190-197.[6] LIN Yen-hung, CHANG Shu-hsin, LI Yih-lang. Critical-trunk-based obstacle-avoiding rectilinear Steiner tree routings and buffer insertion for delay and slack optimization[J]. Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2011, 30(9): 1335-1348.[7] 朱樟明, 钱利波, 杨银堂, 等. 一种基于目标延迟约束缓冲器插入的互连优化模型[J]. 半导体学报, 2008, 29(9): 1847-1850.ZHU Zhang-ming, QIAN Li-bo, YANG Yin-tang, et al. An interconnection constrainedoptimization model based on buffer insertion target delay [J]. Chinese Journal of Semiconductors, 2008, 29(9): 1847-1850. (In Chinese)[8] DHAR S, FRANKLIN M A. Franklin optimum buffer circuits for driving long uniform lines[J]. IEEE J Solid-State Circuits, 1991, 26(1): 32-40.[9] 白宁, 林争辉. 深亚微米集成电路中的连线分割和缓冲器插入[J]. 上海交通大学学报, 2002, 36(3): 323-327.BAI Ning, LING Zheng-hui. Line segmentation and buffer in deep sub micron integrated circuit insertion [J]. Journal of Shanghai Jiaotong University, 2002,36(3):323-327. (In Chinese)。
Cadence-SiP设计工具说明
Cadence SiP设计工具介绍现有的集成电路与封装设计之间的串行设计方法已经不能满足今天的复杂、顶尖的器件设计的成本、性能、以及上市时间压力。
电气和物理可行性研究和芯片/封装设计折衷必须在设计周期的早期进行,也就是在芯片实现和可能的选项变得极为有限之前。
在这一个阶段,考虑物理设计选择对集成电路的电气性能的影响是至关重要的,反过来也一样。
一旦芯片设计已经最终成型,满足设计要求的负担就落在封装设计人员肩上,一旦发现封装难以进行,这时候再要设计公司更改版图已经不太可能。
允许设计者进行同步物理和电气设计折衷,能够确保在尽可能短的时间,使集成电路满足它的性能和成本目标。
而就封装设计本身而言,如何合并逻辑IC、RF IC、无源元件以及机械部件到一个单一的衬底并保证产品的性能是最大的挑战,具体包括:集成无源元件的专用成型工艺,3D结构验证,复杂信号的完整性,电源传输性能以及系统级功能仿真等。
也正是基于对这些设计挑战的充分理解和把握,Cadence-SIP才有能力成为事实上的工业标准,被世界上大多数封装企业所采用。
Cadence公司的先进封装设计工具是一个可升级的平台,可以完全满足不同阶段的需要。
以下我们就这些设计工具作简要介绍:1.Allegro(R) Design Authoring原理设计及输入Allegro Design Authoring是SiP,MCM,PCB 通用原理图设计及输入工具。
通过协作式设计方法将工作效率最大化。
设计可以在工作表或模块层级上进行划分,每个设计师可以指派一个或多个模块或工作表。
不管多少个设计师同时从事相同设计的不同部分都没有问题,不会彼此干扰。
接着可以将多个设计阶段组合起来,然后在Allegro 版图设计工具里进行布局。
这种同步设计法使Allegro Design Authoring用于大型设计时的效率极高。
设计师可以同时进行主板布局与电路图设计。
在Allegro Design Authoring或Allegro 版图设计工具里的任何变动可以周期性地合并与同步。
PCIe基本原理
定义和采用了一种接口,这种接口称为PCI Express物理接口(PIPE)。PIPE接口让设计方案能够采 用一种标准接口和/或采购多种能够配合运行的组件,甚至可以向多个供货商进行采购。 • 物理层的电气子层用于实现各种模拟元器件,包括收发器、模拟缓冲器、串化器/解串器(SerDes) 和10位接口。 • 物理编码子层(PCS)用于每一个8位数据字节与10位代码之间的编码/解码。这种编码功能不仅能对 有效字符进行校验,而且还限制了所发送的0和1数量之间的差异度,从而在发送器与接收器之间保持 了一种直流平衡度,进而显著增强了电磁兼容性(EMC)以及电气信号性能。 • 物理层内的PIPE接口的另一个方面包括了链路训练和状况状态机(LTSSM)、通道间去偏移(laneto-lane de-skew)、特殊序列检测和生成,等等。
Endpoint
Switch
Endpoint
Endpoint
图1 4种PCIe功能类型
2
• 根联合体用于初始化整个PCIe结构并配置每条链路。根联合体通常用于将中央处理器(CPU)与其它3 项功能之中的一个或多个相连接,包括PCIe交换器、PCIe端点和PCIe-PCI桥接器。
• PCIe交换器用于将数据向下游路由给多个PCIe端口,以及从每个独立端口将数据向上游路由至单一的 根联合体。PCIe交换器也可以从一个下游端口灵活地向另一个下游端口路由数据(对等),不再局限 于传统PCI系统所要求的严格的树形结构。
下面两节更深入地探讨了PHY和控制器的设计问题。
PCIe SerDes设计难题
为PCIe设计PCIe PHY对于设计人员尤有难度,原因在于:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中图 分 类 号 :T 0 N4 2
文 献 标 识 码 :A
文 章 编 号 :0 5 — 1 7 2 0 ) 9 1 4 — 4 2 34 7 ( 0 8 0 — 8 7 0
1 引言
的条 件下 , 入缓 冲器 的最 优 化 设 计 方 法 . 后 与 最 小 插 最 延 迟 下 的缓 冲器进 行 比较 , 验证 本 文提 出的优 化 模 型在 降低互 连 功耗 和减 小互 连 面积方 面 的优 点 .
来减小互连功耗和 面积 的优 化模 型 . 6n MO 工艺下 , 两组 不 同类 型 的互连线 进行计 算 比较 , 证该模 型在 改善 在 5m C S 对 验
互 连 功 耗 与 面 积 方 面 的 优 点 . 模 型更 适 合 全 局 互 连 线 的优 化 , 且 互 连 线 越 长 , 化 效 果 越 明 显 , 够应 用 于 纳 米 级 S 此 而 优 能 OC 的 计 算 机 辅 助 设 计 和集 成 电 路 优 化 设 计 . 关 键 词 :分 布 式 RL C;互 连 功 耗 面 积 ; 目标 延 迟 ;拉 格 朗 日函 数 ;纳 米 级 CMOS
朱樟明 钱利波 杨银堂 柴常春
( 安 电子 科 技 大 学 微 电 子 研 究 所 , 安 7 0 7 ) 西 西 1L 传输 线 , 出在 互 连 延 迟 满 足 目标 延迟 的 条 件 下 , 用 拉 格 朗 日函 数 改 变 插 入 缓 冲 器 数 目与 尺 寸 C 提 利
随着 硅 C MOS集 成 电 路 发 展 到 纳 米 级 C MOS阶 段 , S 频 率 和 规模 不 断 增 大 , 上 互 连 的延 迟 , 耗 2 RL UL I 片 功 C互 连 延 迟 一 耗一 积 功 面 和信号 完整 性 已经成 为 影 响 电路 性 能 和 可 靠 性 的决 定 性 因素之一 . 了减 小 互 连 延迟 , 化 插 入 中继 缓 冲器 为 优 2 1 延 迟 . 已经成 为片 上 系统 ( oC) 连 延 迟设 计 的关键 , 得 到 S 互 并 图 1是 一 段 带 有 n个 中继 缓 冲 器 , 度 为 h 的 长 了广泛 的应 用 . 过 缓 冲 器恢 复 电位 , 止 互 连 线 上 电 通 阻 容 的累加效 应 , 延 迟 与互 连 长度 成 线 性 关 系 , 低 延 RL 使 降 C传输 线 , 其单 位 长 度 的 电 阻 、 感 、 电 电容 分别 用 r , 迟 n . 而 随着 C 然 MOS工 艺 特 征 尺 寸 的 不 断 缩 小 及 f c表 示 . , 插入 缓 冲器 采 用 传 统 的 C MOS反 相 器 , 其输 互 连长度 的不断 增加 , 需要 插 入 的 中继驱 动 器 尺 寸越 来 出 电阻 R 和输 入 电容 C 如 ( ) 、2 式所示 l 1式 () _ 1 : 越 大 , 量越 来越 多 .TR 0 6 副指 出 , 数 I S2 0 口 纳米 级 CMOS
维普资讯
第 2 9卷
第 9期
半
导
体
学
报
V 01 29 N O. . 9
20 0 8年 9月
J U RN A L F O O SEM I CO N D U CTO RS
Se , 08 p. 20
一
种 基 于 目标 延 迟 约 束 缓 冲 器 插 入 的 互 连 优 化 模 型 *
示 为 ] :
C MOS 成 电路 工 艺 的特 征 器 件 尺 寸 缩 小 到 9 n 以 集 0m 后, 导线 电感 开 始成 为影 响延 迟 的 决定 因 素 , 时 必 须 此 采用 RL C传输线 模 型 . 同时 , 冲器 的泄 漏功 耗也 成 为 缓 互连 功耗 的重要组 成部 分 . 本文 从 RL C传输 线 出发 , 合 考虑 互 连 功 耗 与 面 综 积 的影 响 , 出 了在 满 足 目标延 迟 约束 下 最优 化 插 入缓 提 冲器 的设 计模 型 . 文 首 先 提 出基 于 纳 米 级 CMOS工 本 艺 的 RL C互 连 线 的延 迟. 耗. 积计 算 表 达 式 , 后 功 面 然 利 用拉 格 朗 日乘 数 法 , 导 出在互 连 延 迟 满足 目标 延迟 推
W 工 艺 的单 片 缓 冲器 数 目将 达 到 8 O万 门 以上 , 致 互 连 导 C = 七2 W () 2 本 身在延 时 、 功耗 及 面积 等 方 面 的严 重 问题 . 化 插 入 优 其 中 W为反 相 器 中 n MOS管 的沟 道宽 度 ; 和 七 七 是 缓 冲器 的互连 线延 迟模 型 , 将成 为一 个 研究 热点 . 与工 艺相 关 的参数 . 文献 [ ] 于 R 互 连 延 迟 求 导 , 出最 小 延 迟 下 3基 C 推 R C传 输线 中 , L 电感 因素起 主导 作 用 , 连延 迟 由 互 插入缓 冲 器 的数 目和尺 寸 . 文献 E 3 过优 化 互连 线 宽 , 5通 和对反 相 器 电容 充 电时 问 t 两 实现 延 迟. 耗 两 者 乘 积 的 最 小 化 . lmap _ 功 Naa lu2 和 信 号 在线 上传 输 时间 t 信 由 RL 传 输 函数 计 算 求 C T n 贝 将 缓 冲器 的面 积 引入延 迟 问题 , 中考虑 互 连 部 分组 成 . 号 传 输 时 间 t a g J0 折
R :
() 1
线延迟 . 功耗. 积 三 者 问 的 关 系 . 上 述 文 献 面 但
都 是
得, 电容 充 电 时 问 t 根 据 所 需 门 限 电 压 变 化 . 1所 则 图
基 于 E mo e互 连 模 型 , 有 考 虑 电感 因 素 的影 响 , l r 没 当
示 的插 入缓 冲 器 的 RL C互 连 线 的 5 % 门 限 延 迟 可 表 O