多核与众核处理机芯片技术发展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Core 2 Duo
Kentsfield, Yorkfield
Sandy Bridge Core i7 Core 2 Duo
Conroe, Allendale, Wolfdale, Merom, Penryn
Core Duo
Nehalem
1
Pentium D
2 0 0 4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1 2 0 1 2 2 0 1 3 2 0 1 4 2 0 1 5 2 0 1 6 2 0 1 7 2 0 1 8 2 0 1 9 2 0 2 0
[HEC04]
系统性 能
1 1000 Zettaflops
万万亿 次 100
No schedule provided by source 海量
全球气候模型
Full Global Climate [Malone 03]
分子结构模拟
Simulation of more complex biomolecular structures
1999, Pentium III
2001, Tualatin
2002, Pentium 4 Northwood
Multicore processor with more and more cores!!
2005, Pentium D 2006, Core 2 Duo (Conroe) 2006, Core 2 Quad (Kentisfield)
Commercial Path 商业路径
Research Path 研究路径
19
Intel的 Nehalem多核结构
要有图形 核
快速 通道 接口
20
Intel 的 Nehalem四核芯片布局
快 速 通 道 连 接
快 速 通 道 连 接
96GB/S
96GB/S
21
Intel Nehalem多核处理机层次式存储结构
QPI是 重要特点
22
Each DRAM Channel is 64/72b wide at up to 1.33Gb/s
Each direction is 20b@6.4Gb/s
Intel 通用Nehalem的单核结构
快速通道访存QPI
预取缓冲 预译码 指令队列对准
转移预测
循环流译码 第三级 Cache
乱序执行缓冲
23
Power4 (2001) 1.1 to 1.3 GHz (1)(2)(2)
Power5 (2004) 1.5-1.9 GHz (1)(2)(4)
Pentium D 3.8 GHz (1)(2)(4)
Xenon (2005) 3.2 GHz (1)(3)(6) Core 2 1.8-3.2 GHz (1)(4)(8)
L1 Dcache 64KB
Instruction Control Unit (72 entries)
指令缓存
Int Decode & Rename
Res Res AGU ALU Res AGU ALU 16
FP Decode & Rename 36-entry FP scheduler
FADD FMUL FMISC
高性能多核和众核处理机 芯片技术发展
李三立教授
清华大学
1
引言
处理机永远是计算机技术和产业的重要驱动力。 要进一步发展千亿次(Petaflops)高性能计算机, 是离不开多核与众核芯片的发展的;计算机体系结构的 新技术大多体现在高性能多核与众核芯片上。希望我 们关注高性能计算技术的发展; 现在计算机体系结构是“系统”都做到“芯片上”去 了(SOC)。希望我们计算机学院的“计算机组织” 和“计算机体系结构”课程的老师和学生能够在教学 与学习中增加这方面内容,老师在申请自然科学基金 和其它科研经费方面也注意加重这方面的研究方向; 希望我们年轻教师和学生把兴趣放在这一领域,把我 国的处理机芯片技术搞上去。
Ultra SPARC IV 1-1.356 GHz (1)(2)(2)
6
(一)。 多核与众核处理机 结构芯片技术的需要
7
高性能计算应用需求
[Courtesy of Erik P. DeBenedictis]
System Performance Applications
等离子体
Plasma Fusion Simulation [Jardin 03]
应用
地球 数据 更复杂生物
32KB L1 I$ 32KB L1 I$
4-8 Cores
CPU Core 32KB L1 D$ CPU Core 32KB L1 D$
256KB L2$
256KB L2$
8MB Shared L3$
DDR3 DRAM Memory Controllers
QuickPath System Interconnect
核 数
1024 512 256 128 64 32 16 8 4 2
Polaris TeraScale
80 Cores / 80 Threads
Single Chip Cloud Computing
48 Cores / 48 Threads
Knight Corner
50 Cores / 200 Threads
2013-8-16
cpeg421-2010-F/Topic-3-I
8
晶体管数目增长--Intel
320亿晶体管
9
芯片上频率不能持续增长—功耗问题
停顿了
10
功耗引起发热—直观图片
11
CPU的水冷和风冷 水冷系统
风冷系统
12
解决功耗增长和晶体管增长的矛盾
解决方案:
新制造材料; 新制冷技术; 多核和众核体系结构
44-entry Load/Store Queue
AGU ALU MULT
AMD 双核芯片的布局
双核AMD Opteron™ 处理机 199mm2 90nm 工艺 单核 AMD Opteron 处理机 193mm2 130nm 工艺
17
AMD Opteron 的多核架构
18
Intel多核与众核解决路线
100 Teraflops 2000
100 1000 [SCaLeS 03]
50 TFLOPS
[Jardin 03] S.C. Jardin, ―Plasma Science Contribution to the SCaLeS Report,‖ Princeton Plasma Physics Laboratory, PPPL-3879 UC-70, available on Internet. [Malone 03] Robert C. Malone, John B. Drake, Philip W. Jones, Douglas A. Rotman, ―High-End Computing in Climate Modeling,‖ contribution to SCaLeS report. [NASA 99] R. T. Biedron, P. Mehrotra, M. L. Nelson, F. S. Preston, J. J. Rehder, J. L. Rogers, D. H. Rudy, J. Sobieski, and O. O. Storaasli, ―Compute as Fast as the Engineers Can Think!‖ NASA/TM-1999-209715, available on Internet. [NASA 02] NASA Goddard Space Flight Center, ―Advanced Weather Prediction Technologies: NASA’s Contribution to the Operational Agencies,‖ available on Internet. [SCaLeS 03] Workshop on the Science Case for Large-scale Simulation, June 24-25, proceedings on Internet a http://www.pnl.gov/scales/. [DeBenedictis 04], Erik P. DeBenedictis, ―Matching Supercomputing to Progress in Science,‖ July 2004. Presentation at Lawrence Berkeley National Laboratory, also published as Sandia National Laboratories SAND report SAND2004-3333P. Sandia technical reports are available by going to http://www.sandia.gov and accessing the technical library. [HEC04] Federal Plan for High-End Computing, May, 2004. 8
2
我国万万亿次超级计算机CPU有望全部国产化
2011-3-8日环球网报道国防科大校长张育林谈话
世界第一的“天河一号”超级计算机系统采用了“飞腾-1000” 高性能多核微处理器。“天河一号”:4700万亿次的峰值速度 3 和2566万亿次的持续速度 ;1000万亿次/秒为:
我国天河一号千万亿次超级计算机
13
多核和众核的发展对于性能的影响
性 能
多核三年的变化
Intel着重在 PC机发展
年份
14
体系结构进展: 单核多核众核-片上互联
Single core with increased performance
1993, Pentium
1997, Pentium MMX 1997, Pentium II
世界500强第一名,奥巴马专门提到它
wenku.baidu.com
4
世界500强第一名天河1号插件版
5
提纲
1。多核与众核处理机结构芯片技术的需要 2。多核和众核体系结构处理机芯片的发展 3。异构多核众核结构芯片 4。片上系统SOC互联网络的发展
5。微电子工艺的进一步发展 6。未来exaFlops高性能计算机芯片预测 7。结论
100 Petaflops
1万 10 万亿 次 1
蛋白质结构 生物 分子 结构
Petaflops Petaflops
simulation of large biomolecular structures (ms scale) simulation of medium biomolecular structures (us scale)
Ultra SPARC VIIIfx 2.4-2.56 GHz (1)(8)(16)
Power6+ 5 GHz (1)(2)(4) Sandy Bridge 4.6 GHz (1)(8)(16) Opteron Interlagos ??? (1)(16)(16)
Chips with 8 physical cores or more
protein folding 1 PFLOPS 250 TFLOPS
Exaflops
10 Exaflops
100万 1 万亿次
Exaflops Compute as fast as the engineer can think [NASA 99] 2010 2020
Geodata Earth Station Range [NASA 02]
CBE (2006) 3.2 GHz (1)(9)(10)
Opteron Denmark 1.6-2.8GHz (1)(2)(2) Ultra SPARC T2 1-1.66 GHz (1)(8)(64)
Power6 3.5-4.7 GHz (1)(2)(4) Dual Core Atom 0.8-2.06 GHz (1)(2)(2) Opteron Istanbul 2.26-2.66GHz (1)(6)(6)
2007, TeraScale 80-core prototype 15
AMD通用单核的内部结构
Fetch 取指 Branch Prediction
L1 Icache 64KB
转移 预测
微码
数据缓存
Scan/Align/Decode Microcode Engine 硬布线 Fastpath
µops 微操作
相关文档
最新文档