FPGA器件发展综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
FPGA器件发展综述
1 引言
2005年是 FPGA(现场可编程门阵列,Field Pro-grammable Gate Array)发明 20 周年,2007年是晶体管发明 60 周年,2008年是集成电路平面工艺发明 50 周年, 在这几十年,尤其是FPGA发明的二十几年内,集成电路产业得到了快速的发展,2006年,Xilinx和Alter 公司采用65nm技术分别推出了最先进的FPGA系列——Virtex-5系列和Stratix-3 系列;在2006,年国际电子器件会议(IEDM)上,三星公司的 32Gbit 新型 NAND型闪存亮相,公布其采用了40nm技术,计划在2008年量产的 32Gbit NAND 型闪存,集成度已超过 300 亿。
最近几年,微处理器完成了从单核到多核的提升,2006年11月14日,英特尔先于AMD发布了酷睿2四核处理器,称性能较双核提高了 80%。
2006 年 11 月 17 日, AMD对外发布了四核处理器架构,称总体功耗较英特尔处理器低 80%。
本文主要阐述 FPGA 的发展现状, 并对未来的发展趋势进行分析。
2 FPGA的发展概要
自 20 世纪 70 年代以来,可编程逻辑器件(PLD,Programmable Logic Device)作为一种通用型器件迅速发展起来,改变了采用固定功能器件、自下而上的传统数字系统设计方法。
使用可编程逻辑器件,用户可通过编程的方式实现所需逻辑功能,而不必依赖由芯片制造商设计和制造的 ASIC 芯片。
从 PLD 的发展历程来看,按照结构区分,前后共有 4 种可编程逻辑器件类型:PLA、PAL、CPLD和 FPGA。
PLA(Programmable Logic Arrays)同时具有可编程的“与逻辑”和“或逻辑”阵列结构,采用反熔丝编程方式,集成密度较低,只能完成相对简单的组合逻辑功能,进行一次性编程。
为实现时序逻辑,MMI 公司开发出 PAL(Programmable Array Logic):PAL 具有可编程的“与逻辑”阵列和固定的或门,具有 D 触发器和反馈功能,能够实现时序电路,但同样采用反熔丝编程方式,也是一种低密度、一次性编程的逻辑器件。
由于整体架构的原因,若将 PAL 的规模和密度进一步提高,就需要增加“与逻辑”阵
列的规模和更多的 I/O 端口,由此会带来版图面积指数增长。
可行的方法是将更多的 PAL 集成在一起,于是便出现了 CPLD 器件(Complex Programmable Logic Device)。
早期 CPLD 大都采用 EPROM、Flash(闪存式存储器)或E2PROM(电擦除可编程只读存储器)的可编程技术,后期基于 SRAM(静态随机存储器)[13]可编程技术的发展使 CPLD 器件的密度得到了提高,可实现复杂的组合和时序逻辑。
由于继承了 PAL 的架构体系,CPLD 器件规模与密度很难随着半导体工艺技术的发展而进一步提高,需要寻求截然不同的设计方法。
基于 SRAM 可编程技术的 FPGA 概念最初由Wahlstrom 于 1967 年提出,与 PAL 器件的“与或”逻辑阵列结构不同,FPGA 是由许多独立的可编程逻辑模块组成,逻辑模块之间的连接通过可编程开关实现。
这种体系结构具有逻辑单元灵活、集成度高、适用范围广等优点。
为充分利用连线资源,通常 FPGA 具有多种长度的连线单元,电路的延时特性具有多种可能。
基于 SRAM 控制的可编程开关结构使可编程器件具有最大的配置灵活性,但是与 ROM 相比,需要耗费较大的版图面积来实现可编程开关,因此直到1984年,随着亚微米CMOS 要艺的出现,Xilinx公司才推出第一片基于 SRAM 编程技术的FPGA。
FPGA 既具有门阵列器件的高集成度和通用性,又具有用户可编程的灵活性,在规模和密度上的发展并不受到整体架构的限制,同时 FPGA 还具有功能强大的 EDA 软件的支持,在随后的 20 多年中得到了飞速发展。
3 Xilinx公司FPGA主要产品系列
3.1 发展历程
表1给出了Xilinx CPLD/FPGAs 产品的发展历程。
3.2 XC3000系列
XC3000系列FPGA是Xilinx公司最早提出的FPGA系列,可用最大门不到 10 000 门,主要产品见表 2。
3.3 XC4000系列
1997 年,Xilinx 推出了当时业内最大的 FPGA XC4085XL,用 0.35 μ m 工艺制造,可用门 85000逻辑门,XC4085XL 的工作电压为 3.3V,比同级产品省电一半,完全符合 PCI 及 Select-RAM 功能,可提供更佳的存储器功能、沿边触发编写及双端口工作特性。
因为应用了分段路由架构,缩短了互连线长度,比使用长线作互连线的非分段架构消耗较少电流,但更有效。
3.4 Virtex系列
1998 年,Xilinx 推出 Virtex 结构,Virtex 结构是XC4000 系列现场可编程门阵列(FPGA)结构和 5层金属、0.25μm 工艺技术结合的产物。
新的Virtex系列FPGA 的密度可达 5 万门至 100 万门,时钟频率高达100MHz 以上。
Virtex系列的电源电压是 2.5V,与TTL 兼容,它支持多种总线,如 GTL+、SSTL、LVTTL及 PCI 。
3.5 Xilinx公司的Spartan系列FPGA
Spartan2系列产品基于Virtex结构,采用0.22/0.18CMOS 工艺,6 层金属连线制造,在 Spartan 的结构基础上有了较大的改进,Spartan 2系列产品门数最高达 200 000 门,时钟达 200MHz,与 66MHz 的 PCI兼容,能达到 ASIC 性价比。
Xilinx公司Spartan-3系列FPGA基于查找表技术,采用 90nm SRAM、8 层金属的工艺制程,表6 为Spar- tan-3 系列,系统门从 50k 到 5 000k 不等。
另外,不同的封装形式,用户的 I/O数是不同的,表 6中列出的是最大 I/O 数。
3.6 Xilinx公司FPGA最新系列—— Virtex-5
2006年5月,Xilinx公司推出了世界上第一个65nmFPGA 系列—— Virtex-5。
基于 65nm 三极栅氧化层技术、11 层铜布线工艺、低 K 材料、新型镍硅自对准技术、新型ExpressFabric 技术和 ASMBL 架构,可以提供330 000个逻辑单元和1 200个用户I/O,与前一代90nm FPGA相比,Virtex-5 LXT平台的整体性能平均提高 30%,容量提高 65%,动态功耗降低 35%。
4 Altera公司的可编程集成电路系列
4.1 发展历程
Altera 公司自从事 FPGA 的研制开发以来,不断进行技术创新,研发新产品。
表7给出了Altera公司FPGA的主要发展历程。
4.2 FLEX 10K系列
表8给出了ALTEAG公司FLEX 10K系列的主要产品,规模最大的 EPF10K250A 典型门是25 万门,最大系统门是 31 万门。
ALTERA 公司的 APEX 20K 系列 FPGA 器件,采用 0.22 μm 、5 层金属的工艺制程,表 9 为 APEX 20K系列,系统门从 263 000 门到 1 052 000 门不等。
另外,不同的封装形式,用户的 I/O 数是不同的,表中列出的是最大 I/O 数。
4.3 Stratix系列
Stratix 系列FPGA于2002年中期推出,采用0.13μm工艺,1.5V 内核供电,集成硬件乘加器等。
后来推出的 StratixII系列产品采用90nm工艺制程,支持内部时钟频率高达
500MHz。
4.4 Altera公司的最新产品—— Stratix III系列
Stratix III是Altera公司2006年11月份推出的65nm FPGA 系列。
Stratix III 比前一代器件快 25%,密度是前一代 FPGA 的两倍,功耗降低了 50%,支持四十多个 I/O 接口标准,具有业界一流的性能、灵活性和信号完整性。
5 Altera在65nm半导体工艺上的发展策略
Altera在65nm半导体制造工艺上的发展策略是充分利用先进的技术和方法,以最低的成本为客户提供性能最好的器件,同时降低客户风险,保证产品尽快面市。
Altera在130nm 和90nm器件上的市场份额表明,有效控制高端半导体技术中存在的风险,能够提高FPGA 体系结构在市场上的受欢迎程度。
因此,早自2003年初以来,Altera就一直在稳步开发和测试其65nm技术。
本节研究Altera在65nm工艺上的工程策略,介绍公司如何为客户降低
生产和计划风险,并同时从根本上提高密度、性能,及降低成本和功耗。
随着半导体制造技术达到新的极限,在65nm工艺节点上出现了特殊的产品规划、设计和交付挑战。
在130nm和90nm通道尺度上还可以处理的深亚微米效应,包括功耗增加、工艺偏差以及参数失效等,成为65nm工艺最显著的工程挑战。
这一工艺节点的IC开发存在很大的风险,会影响FPGA的工艺和性能。
Altera在降低功耗上的策略是帮助客户尽可能的控制好功耗和性能,在这两方面达到均衡。
Altera的65nm低功耗策略包括:
●功耗最佳硅工艺
●三次氧化
●芯片应变
●低k绝缘
●用户可选的内核电压
●高性能模式
●低功耗模式
功耗最佳硅工艺
在65nm工艺中,Altera采用了三次氧化技术来降低漏电流。
三次氧化提高了晶体管电压阈值,但会降低晶体管的性能,因此,Altera巧妙的采用了这种晶体管技术来降低功耗,同时为用户设计提供最佳性能。
Altera还使用了应变硅,提高晶体管中的载流子移动能力,增加驱动电流,但是不会增加漏电流。
最后,Altera使用低k绝缘工艺来隔离金属层,减小了电容,从而直接降低了动态功耗。
用户可选的内核电压
用户可选的内核电压使客户能够选择不同等级的功耗和性能。
选择最低的支持内核电压,平均降低30%的动态功耗。
如果性能没有达到要求,用户可以选择更高的电压,然后使用不同的方法来降低功耗,而不会破坏时序要求。
5.1 Altera的功耗/性能优势
Altera在65nm工艺上的功耗策略显著降低了65nm器件的漏电流。
尽管业界普遍认为65nm器件较大的漏电流会导致出现用户无法承受的静态功耗,但是Altera的65nm FPGA要比90nm FPGA和竞争65nmFPGA的静态功耗低。
通过积极采用创新的功耗降低技术,Altera 的65nm FPGA动态功耗也要低于90nm FPGA和竞争65nm FPGA,而性能则大大提高。
除了更低的功耗以外,Altera还延续了对竞争65nm产品的性能优势。
例如,一个设计从90nm StratixII器件移植到65nm Stratix III器件后,在相同的工作频率下,其功耗将会降低50%(参见表1)。
希望通过从Stratix II FPGA转向Stratix III FPGA来提高性能的用户,在功耗上将会降低30%,同时在性能上提高20%。
表1
5.2 65 nm产品生产挑战
Altera虽然克服了这些功耗问题,但是在转向更高级工艺时,还存在固有的生产风险。
在更小的几何尺寸上,制造工艺的变化对器件工作影响很大。
半导体制造工艺的变化来自多种原因,包括光刻效应、化学机械抛光(CMP)导致的金属层厚度变化、搀杂波动、逻辑门尺寸和氧化层厚度的变化以及量子阱邻近效应(WPE)等。
尤其是65nm工艺光刻技术,由于器件尺寸以及彼此之间的空隙小于光刻的光半波长,因此在这一节点上存在很大的挑战。
这意味着不能通过简单的使用对应形状和尺寸的光掩模板,在管芯上实现芯片功能,因为失真会导致最终得到的特性偏离最初的设想。
已经开发了多种方法来解决这一问题,包括光接近校正(OPC)和相移掩模(PSM)等分辨率增强技术。
然而,所有这些方法都没有彻底消除光刻导致的失真,而有些方法还引入了其他失真,导致更大的偏差。
不管来源如何,这些不稳定性是亚微米半导体生产面临的最大挑战。
例如,在90nm设计中,WPE会增加60mV的阈值电压变化,导致对设计电路的预测偏离(1)。
随着晶体管之间距离的缩短,这些效应的影响更加严重。
布局产生的杂散电阻和电容也增加了亚微米生产工艺的难度,对时序和信号完整性有一定的影响,而且对这些效应也越来越难进行建模和分析。
5.3 降低65nm生产风险的策略
Altera采用了最新的技术来降低65nm生产中不利因素的影响。
为了可靠实现工艺优势,同时降低前沿技术的风险,Altera采用的策略包括先进的工艺技术、全面的65nm测试芯片
程序以及降低缺陷密度的成熟系统。
统计静态时序分析降低了工艺拐点偏差
Altera采用的最新生产稳定技术是统计时序建模和分析,考虑了不同工艺、电压和温度条件下的时序和功能的统计分布,而不是仅仅关注最好和最差数值的传统方法。
采用这些分布结果,了解电路在不同条件下的工作情况,Altera能够实现更好的性能和参量效率。
为了实现统计时序建模等前沿技术,Altera开发了专用方法,采用了来自多个EDA供应商的高级工具。
例如,Altera使用Synopsys提供的“偏差预知”Star-RCXT工具,为杂散提取产生精确的电阻电容(RC)杂散值。
Toshiba、Renesas和ATI在亚微米设计中也采用了Star-RCXT,它能够为65nm工艺中各种偏差导致的杂散现象进行精确建模,包括WPE和用于CMP偏置变化的金属填充工艺等(2)。
通过采用最新的技术和工具来了解并评估65nm设计中的大量难点,例如杂散现象的来源和数值大小等,Altera降低了实现65nm器件可靠生产过程中的不确定性。
6 Xilinx新一代28nm FPGA 技术
赛灵思选用 28nm 高介电层金属闸 (HKMG) 高性能低功耗技术,并将该技术与新型一体化 ASMBLTM 架构相结合,从而推出能降低功耗、提高性能的新一代FPGA。
这些器件实现了前所未有的高集成度和高带宽,为系统架构师和设计人员提供了一种可替代 ASSP和 ASIC 的全面可编程解决方案。
赛灵思的 28nm 技术与架构创新:
●相对于其它 28nm 高性能方案而言,可将静态功耗降低多达 50%。
●相对于前代 FPGA 而言,可将系统级性能提升多达 50%。
●相对于前代 FPGA 而言,可将容量提升 2 倍,总功耗降低多达 50%。
6.1 经济及技术挑战:
降低静态功耗以提高可用性能,并降低系统功耗
随着越来越多的系统集成多个集成电路 (IC),系统功耗不断增加,这是全球关注的问题。
除了带来环保影响外,功耗的增加也会增加系统构建及运营成本。
要想散去多余热量,就必须使用复杂的散热片、风扇甚至更多的稳压器,而这些都会增加资本支出(CAPEX)。
运营支出 (OPEX) 包括设备运行以及制冷所需的电力,也会随着总功耗的增加而增加。
此外,
系统过热会降低可靠性,增加系统停机风险,并提高运营成本。
摩尔定律继续发挥作用。
新一代半导体工艺技术都会提高集成度,降低成本。
不过,上述优势往往会被增加的静态功耗抵消。
每次缩减外形尺寸,似乎不可避免地都会提升静态功耗,这种现象在 FPGA 产业中尤为突出。
此前,FPGA 产业在采用最先进的工艺技术为客户提供更高性能及容量方面一直处于半导体产业的领先地位。
最后,系统设计人员发现,由于功耗原因,他们很难充分利用更高的密度和电路速度。
支持新一代系统的关键在于为设计人员提供更高的“可用性能”,也就是说,要在可用功耗预算范围内提供尽可能高的数据处理能力。
降低静态功耗可为动态 (工作) 功耗留下更多功耗预算,从而提高可用性能,进而也能提高接口的带宽,并为同一 FPGA 中的逻辑、存储器、DSP 及其他功能提供更多资源。
6.2 最佳 28nm FPGA 工艺技术:HKMG —高性能低功耗
传统的 FPGA 工艺技术在 28nm 工艺上已经达到了功耗极限,因此也达到了性能极限。
问题的根源在于几十年来用于构建 IC 晶体管的多晶/氮氧化硅。
为了提高晶体管的速度,半导体工程师一直在随着工艺技术的提高努力减小门介电层的厚度。
不过,由于介电层的隧道效应和门本身的漏电流,电介质厚度的减少会导致漏电流增加,这就造成工艺技术每次节点进步都会大幅提升静态功耗。
赛灵思以创新型的三重门极氧化层电路技术成功控制隧道电流效果,从 90nm 工艺到40nm 工艺节点一直都比较成功。
不过,就 28nm 工艺而言,门极氧化层太薄了,必须用最新门材料和架构来处理隧道效果。
为了控制门下的漏电流 (亚阈值泄漏),赛灵思工程师在整体晶体管设计过程中进行了审慎权衡。
为了解决 28nm 工艺问题,赛灵思采用了二氧化铪这种新型门介电材料,该材料的介电常数 (κ) 较高,可增减门极厚度,这就使晶体管不太容易受到隧道电流效应的影响。
举例来说,40nm 工艺使用的二氧化硅κ值为 3.9,而 28nm 金属闸技术所用的二氧化铪κ值则为 25,这就成为高性能低功耗 28nm 工艺技术的最佳选择。
6.3 堆叠硅片互联技术(Stacked Silicon Interconnect Technology (SSIT))
赛灵思推出的独特的堆叠硅片互联技术使其最高性能Virtex-7 FPGA的容量增加一倍以上。
通过引入半导体产业的第一个堆叠硅片架构,赛灵思推出了世界上最大的FPGA,其中最大的一颗可以提供两百万个逻辑单元,是最大竞争器件容量的两倍。
SSIT使得赛灵思可以在目前这一代工艺技术上,即可提供下一代的密度。
这意味着客户利用一个单芯片的
Virtex-7就可以替代2-4个上一代FPGA芯片,可把总功耗降低50-70%,BOM成本降低40-50%。
SSIT不仅仅只是扩充了芯片的容量。
同样的技术也可用于把FPGA和其它芯片切片(dice)混合和匹配来创建全新的器件。
事实上,这种方法首次用于赛灵思的超快Virtex-7 HT系列,它把多个FPGA芯片切片和内置28 Gbps串行收发器的芯片切片结合在一起,提供了比市场上任何其他解决方案多四倍的收发器。
其结果就是可以提供一个具有极低噪声和抖动的、串行带宽总额高达2.78 Tbps的器件,用以支持并加速下一代400G网络部署。
7 未来可编程器件的发展趋势
先进的ASIC生产工艺已经被用于FPGA的生产,越来越丰富的处理器内核被嵌入到高端的FPGA芯片中,基于FPGA的开发成为一项系统级设计工程。
随着半导体制造工艺的不同提高,FPGA 的集成度将不断提高,制造成本将不断降低,其作为替代ASIC 来实现电子系统的前景将日趋光明。
7.1 大容量、低电压、低功耗FPGA
大容量FPGA 是市场发展的焦点。
FPGA 产业中的两大霸主:Altera和Xilinx在超大容量FPGA上展开了激烈的竞争。
2007年Altera推出了65nm工艺的StratixIII系列芯片,其容量为67200个L E (Logic Element,逻辑单元),Xilinx推出的65nm工艺的VitexVI 系列芯片,其容量为33792个Slices (一个Slices约等于2个L E)。
采用深亚微米(DSM)的半导体工艺后,器件在性能提高的同时,价格也在逐步降低。
由于便携式应用产品的发展,对FPGA 的低电压、低功耗的要日益迫切。
因此,无论那个厂家、哪种类型的产品,都在瞄准这个方向而努力。
7.2 系统级高密度FPGA
随着生产规模的提高,产品应用成本的下降,FPGA 的应用已经不是过去的仅仅适用于系统接口部件的现场集成,而是将它灵活地应用于系统级(包括其核心功能芯片)设计之中。
在这样的背景下,国际主要FPGA 厂家在系统级高密度FPGA 的技术发展上,主要强调了两个方面:FPGA 的IP( Intellec2tual Property ,知识产权)硬核和IP软核。
当前具有IP内核的系统级FPGA的开发主要体现在两个方面:一方面是FPGA 厂商将IP硬核(指完成版图设计的功能单元模块)嵌入到FPGA 器件中,另一方面是大力扩充优化的IP软核(指利用HD
L语言设计并经过综合验证的功能单元模块),用户可以直接利用这些预定义的、经过测试和验证的IP 核资源,有效地完成复杂的片上系统设计。
7.3 FPGA和ASIC出现相互融合
虽然标准逻辑ASIC 芯片尺寸小、功能强、功耗低,但其设计复杂,并且有批量要求。
FPGA价格较低廉,能在现场进行编程,但它们体积大、能力有限,而且功耗比ASIC大。
正因如此,FPGA和ASIC正在互相融合,取长补短。
随着一些ASIC制造商提供具有可编程逻辑的标准单元,FPGA 制造商重新对标准逻辑单元发生兴趣。
7.4 动态可重构FPGA
动态可重构FPGA是指在一定条件下芯片不仅具有在系统重新配置电路功能的特性,而且还具有在系统动态重构电路逻辑的能力。
对于数字时序逻辑系统,动态可重构FPGA的意义在于其时序逻辑的发生不是通过调用芯片内不同区域、不同逻辑资源来组合而成,而是通过对FPGA 进行局部的或全局的芯片逻辑的动态重构而实现的。
动态可重构FPGA在器件编程结构上具有专门的特征,其内部逻辑块和内部连线的改变,可以通过读取不同的SRAM中的数据来直接实现这样的逻辑重构,时间往往在纳秒级,有助于实现FPGA系统逻辑功能的动态重构。
结语
综上所述,我们可以看到在新世纪,以FPGA为代表的数字系统现场集成技术正朝着以下几个方向发展。
1.随着便携式设备需求的增长,对现场可编程器件的低压、低功耗的要求日益迫切。
2.芯片向大规模系统芯片挺进,力求在大规模应用中取代ASIC。
3.为增强市场竞争力,各大厂商都在积极推广其知识产权IP库。
4.动态可重构技术的发展,将带来系统设计方法的转变。
参考文献
1.Polishchuk, Mathur, Sandstrom, Manos, Pohland, “Implant Process Modificationsfor SuppressingWell Proximity Effect,” Solid State Technology, April 2006.
2.Zemke, Lagu, Brelsford, “Numerical Analysis of Parasitic Effects in Deep Submicron Technologies,”SNUG 2005.
3.周立功.EDA实验与实践.北京:北京航空航天大学出版社,2007.4~40
4.吴继华.王诚.Altera FPGA/CPLD设计.北京:人民邮电出版社,200
5.1~28
5.廖义奎.ARM与FPGA综合设计及应用.北京:中国电力出版社,2008.152~201。