多核构架与并行计算
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2011年4月28日星期四 4
多核芯片
一直以来,处理器芯片厂商都通过不断提高主频来提高处 理器的性能。但随着芯片制程工艺的不断进步,从体系结 构来看,传统处理器体系结构技术面临瓶颈,晶体管的集 成度已超过上亿个,很难单纯通过提高主频来提升性能, 而且主频的提高同时带来功耗的提高,也是直接促使单核 转向多核的深层次原因;从应用需求来看,日益复杂的多 媒体、科学计算、虚拟化等多个应用领域都呼唤更为强大 的计算能力。在这样的背景下,各主流处理器厂商将产品 战略从提高芯片的时钟频率转向多线程、多内核。
2011年4月28日星期四 18
同年的7月23日,英特尔基于酷睿(Core)架构的处理器正 式发布。2006年11月,又推出面向服务器、工作站和高 端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处 理器。 与上一代台式机处理器相比,酷睿二双核处理器在性能方 面提高40%,功耗反而降低40%。 40% 40% 作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。
2011年4月28日星期四 20
Intel 目 前 最 新 的 架 构 是 Core微 架 构 , 所 有 Intel生产的x86架构的新处理器,无论面向台 式机、笔记本和服务器,都将统一到Core微 架构。
Core1 Core2
Bus
2 MB L2 Cache
2011年4月28日星期四
21
片上多核处理器体系结构
2011年4月28日星期四 16
目前的多核处理器的推出已经愈加频繁,在推 出代号为Niagara的8核处理器之后,Sun还计 划在今年年中推出Niagara 2处理器。IBM的 Cell处理器,结合了1个PowerPC核心与8个协 处理器构成的Cell 微处理器已经正式量产,并 应用于PS3主机、医学影像处理、3D计算机绘 图、影音多媒体等领域。
2011年4月28日星期四
9
A:100MHz和3v下工作 B:50MHz和1.5v下工作 C:50MHz和3vHale Waihona Puke Baidu工作。
显然, 点在浪费 点在浪费CPU的潜力。 的潜力。 显然,C点在浪费 的潜力 f 如果50MHz的频率已经够了,应该 100MHz 选择B点。 所以,假设CPU总是工作在电压所 50MHz 允许的最高频率上。为此: B A
2011年4月28日星期四
29
双核心架构支持36bit的物理寻址和48bit的虚拟内存 寻址,采用共享式二级缓存设计,2个内核共享4MB 的二级缓存。每个内核都采用乱序执行,加入对 EM64T与SSE4指令集的支持,具有14级有效流水线, 内建32KB一级指令缓存与32KB一级数据缓存,而且 2个核心的一级数据缓存之间可以直接传输数据;具 有4组指令解码单元,支持微指令融合与宏指令融合 技术,每个时钟周期最多可以解码5条X86指令,生 成7条微指令,并拥有改进的分支预测功能;拥有3个 调度端口,内建5个执行单元,包括3个64bit的整数执 行单元(ALU)、2个128bit的浮点执行单元(FPU) 和3个128bit的SSE执行单元;采用新的内存相关性预 测技术,支持增强的电源管理功能,支持硬件虚拟化 技术和硬件防病毒功能。芯片内建数字温度传感器, 可提供功率报告和温度报告等,配合系统实现动态的 功耗控制和散热控制。
B点的执行时间延长了,有可能 会不满足实时性要求。所以要 对所有任务通盘考虑。 解释为什么双核? 使用2个B点的CPU并行计算, 可 保证与A一样的执行时间,但功 耗为A的1/4.
2011年4月28日星期四
11
Ⅰ号CPU:单核,频率为1MHz,功率1瓦 Ⅱ号CPU:单核,提高频率到KMHz,功率为 K3瓦。 Ⅲ号CPU:双核,保持频率不变,增加一个内 核。功耗2瓦。 假设:“ Ⅲ号CPU”的性能相当于频率为 LMHz的单核CPU。
2011年4月28日星期四 22
典型多核芯片架构
单核体系架构特点 双核体系架构特点 双处理器与双核的区别 多核体系架构特点 多核处理器中的并行 实现多核架构难点 单核,多核的对比与区别
2011年4月28日星期四
23
核是什么? 核是什么
独立的指令执行和控制单元
独立的功能部件 独立的控制器
完整的指令流水线
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 CMP可分为同构多核和异构多核(按计算内核的对等与否 进行划分): 计算内核相同,地位对等的称为同构多核,现在Intel和 AMD主推的双核处理器,就是同构的双核处理器。 计算内核不同,地位不对等的称为异构多核,异构多核 多采用“主处理核+协处理核”的设计,IBM、索尼和 东芝等联手设计推出的Cell处理器正是这种异构架构的 典范。
第二章 多核构架与并行计算
计算机系统结构系 主讲人:方 娟 E-mail:fangjuan@bjut.edu.cn 2010-9
多核构架
按硬件层次分 芯片级 多核芯片 板级 机架级 网络级 网格
Core1 Bus Core2
2 MB L2 Cache
FP Unit EXE Core L1 Cache
2011年4月28日星期四
19
由于功耗已成为用户在性能之外所考虑的首要因素, 两大处理器巨头都在宣传多核处理器时,强调其“节 能”效果。英特尔发布了功耗仅为50瓦的低电压版四 核至强处理器。而AMD发布了“Barcelona”四核处理 器,据称其功耗将不会超过95瓦。 多核技术在应用上的优势有两个方面:为用户带来更 强大的计算性能;更重要的,则是可满足用户同时进 行多任务处理和多任务计算环境的要求。两大芯片制 造商缔造的多核技术都给消费者描绘出了使用多核处 理器在执行多项任务时的美妙前景:同时可以检查邮 件、刻录CD、修改照片、剪辑视频,并且同时可以运 行杀毒软件。或者利用同一台电脑,父亲在查看财务 报表,女儿在打游戏,母亲在给远方的朋友打网络电 话。
DMI (直接媒体接口 直接媒体接口) 直接媒体接口
物理存储器 (必须有一个最小值) 必须有一个最小值)
图形扩展卡(可选) 图形扩展卡(可选)
ICH 控制中枢) (I/O控制中枢) 控制中枢
2011年4月28日星期四
主板
与所有I/O设备链接 与所有 设备链接
28
Intel双核( Core 2 Duo) 双核( 双核 )
C
Pow= cf3
2011年4月28日星期四
1.5v
3v
10
v
Pow= cf3--功率公式 = --功率公式
A点:PowA = c(100M)3 B点: PowB = c(50M)3 对同一个任务:
B点的功率小,执行时间是A的 一倍,所以: B点的功耗(功率X时间)是A 的25%.
PowB C (50M ) 3 1 = = 3 PowA C (100) 8
2011年4月28日星期四
24
核处理器分类
单核多线程处理器
单核CPU构成
多核处理器
多核芯片构成
多核多线程处理器
每个核都是多线程的
2011年4月28日星期四
25
单核处理器芯片结构
2011年4月28日星期四
26
单核芯片与外围部件的关系
2011年4月28日星期四
27
微处理器与芯片组的关系
处理器
芯片组 扩展卡(可选) 扩展卡(可选) MCH 存储器控制中枢) (存储器控制中枢)
2011年4月28日星期四
5
从功耗的角度看多核
CMOS芯片的功耗分为: 静态功耗:CMOS芯片的输入输出都没有变化时的功耗; 小,可忽略。 动态功耗:CMOS芯片的输入输出有变化时的功耗。
2011年4月28日星期四
6
芯片指标:频率f,电压v,功耗Pow f受制于v: v越高,f就越能达到较高的频率。(f 的上 限和v成正比)
FP Unit EXE Core L1 Cache
L2 Cache
2011年4月28日星期四
System Bus (667MHz, 5333MB/s)
2
板级多芯片多核
一块主板上集成多个多核芯片
核 核 核 核
2011年4月28日星期四
核 核 核 核
核 核 核 核
核 核 核 核
3
片上多核处理器架构
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 按计算内核的对等与否,CMP可分为同构多核和异构多核 CPU核心数据共享与同步 总线共享Cache结构:每个CPU内核拥有共享的二级或 三级Cache,用于保存比较常用的数据,并通过连接核 心的总线进行通信。 基于片上互连的结构:每个CPU核心具有独立的处理单 元和Cache,各个CPU核心通过交叉开关或片上网络等 方式连接在一起。 给程序开发者带来的挑战
2011年4月28日星期四
17
IA阵营正式引入多核架构 阵营正式引入多核架构
而真正意义上让多核处理器进入主流桌面应用,是从IA阵营 正式引入多核架构开始。 AMD抢先手推出64位处理器后,英特尔才想起利用“多核” 这一武器进行“帝国反击战”。2005年4月,英特尔仓促推 出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后 也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2处理器。。 2006年5月,英特尔发布了其服务器芯片Xeon系列的新成 员—双核芯片Dempsey。该产品使用了65纳米制造工艺, 其5030和5080型号的主频在2.67GHz和3.73GHz之间。紧 随其后的6月份,另一款双核芯片Woodcrest(Xeon 5100系 列)登场。英特尔声称与奔腾D系列产品相比,其计算性能 提高了80%,能耗降低了20%。
2011年4月28日星期四
15
多核处理器最直接的发展则认为是始于IBM。 IBM 在 2001 年 发 布 了 双 核 RISC 处 理 器 POWER4,它将两个64位PowerPC处理器内 核集成在同一颗芯片上,成为首款采用多核设 计的服务器处理器。在UNIX阵营当中,两大 巨头HP和Sun也相继在2004年2月和3月发布 了名为PA-RISC8800和UltraSPARC IV的双内 核处理器。
f 100MHz
A
50MHz
B
C
2011年4月28日星期四
1.5v
3v
v
7
Pow受制于f和v,既和f成正比,又和v2成正比。
f 100MHz
A
50MHz
B
C
1.5v
2011年4月28日星期四
3v
v
8
此外: 衡量处理器性能的主要指标是每个时钟周期内可以执行的 指令数(IPC: Instruction Per Clock)和处理器的主频 处理器性能 = 主频 x IPC 处理器功耗正比于电流x 电压 x 电压 x 主频 而主频 正比于 电压、IPC 正比于 电流 所以:“处理器功耗正比于 主频的三次方” 处理器功耗 正比于 IPC
L1 D-cache 和 D-TLB
2011年4月28日星期四
L1 D-cache 和 D-TLB
31
双核的架构
1.4 = 2.744
3 3
1.6 = 4.096
13
说明:不能永远靠加快频率的方法来改善性能。 频率高到一定程度以后,必然要转向多核技术。 这是由芯片的先天性质决定的。
2011年4月28日星期四
14
多核的出现
1985年,英特尔发布了80386DX,它需要与 协微处理器80387相配合,从而完成需要大量 浮点运算的任务。 80486则将80386和80387以及一个8KB的高速 缓存集成在一个芯片内。从一定意义上, 80486可以称为多核处理器的原始雏形。
2011年4月28日星期四 30
Core 2 处理器结构图
系统总线
指令预取/预译码 指令预取/预译码 指令队列 指令译码 ROB 器
器
L2 Cache L2 Cache
微码 ROM
器
指令队列 指令译码 ROB
和 控 制
微码 ROM
器
FPU ALU ALU ALU
LD
ST
ST
LD
ALU ALU ALU FPU
2011年4月28日星期四
12
当K=1.26,“Ⅱ号 CPU”与“Ⅲ号CPU”功 耗相等。 也就是说:在功耗翻一 番的时候,只要L能超过 1.26, “Ⅲ号CPU”的 性能就比“Ⅱ号CPU”强。 现实L值:睿酷的广告中 自称是1.4。
如果“Ⅱ号CPU”要达到 1.4或者1.6,功耗是:
2011年4月28日星期四
多核芯片
一直以来,处理器芯片厂商都通过不断提高主频来提高处 理器的性能。但随着芯片制程工艺的不断进步,从体系结 构来看,传统处理器体系结构技术面临瓶颈,晶体管的集 成度已超过上亿个,很难单纯通过提高主频来提升性能, 而且主频的提高同时带来功耗的提高,也是直接促使单核 转向多核的深层次原因;从应用需求来看,日益复杂的多 媒体、科学计算、虚拟化等多个应用领域都呼唤更为强大 的计算能力。在这样的背景下,各主流处理器厂商将产品 战略从提高芯片的时钟频率转向多线程、多内核。
2011年4月28日星期四 18
同年的7月23日,英特尔基于酷睿(Core)架构的处理器正 式发布。2006年11月,又推出面向服务器、工作站和高 端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处 理器。 与上一代台式机处理器相比,酷睿二双核处理器在性能方 面提高40%,功耗反而降低40%。 40% 40% 作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。
2011年4月28日星期四 20
Intel 目 前 最 新 的 架 构 是 Core微 架 构 , 所 有 Intel生产的x86架构的新处理器,无论面向台 式机、笔记本和服务器,都将统一到Core微 架构。
Core1 Core2
Bus
2 MB L2 Cache
2011年4月28日星期四
21
片上多核处理器体系结构
2011年4月28日星期四 16
目前的多核处理器的推出已经愈加频繁,在推 出代号为Niagara的8核处理器之后,Sun还计 划在今年年中推出Niagara 2处理器。IBM的 Cell处理器,结合了1个PowerPC核心与8个协 处理器构成的Cell 微处理器已经正式量产,并 应用于PS3主机、医学影像处理、3D计算机绘 图、影音多媒体等领域。
2011年4月28日星期四
9
A:100MHz和3v下工作 B:50MHz和1.5v下工作 C:50MHz和3vHale Waihona Puke Baidu工作。
显然, 点在浪费 点在浪费CPU的潜力。 的潜力。 显然,C点在浪费 的潜力 f 如果50MHz的频率已经够了,应该 100MHz 选择B点。 所以,假设CPU总是工作在电压所 50MHz 允许的最高频率上。为此: B A
2011年4月28日星期四
29
双核心架构支持36bit的物理寻址和48bit的虚拟内存 寻址,采用共享式二级缓存设计,2个内核共享4MB 的二级缓存。每个内核都采用乱序执行,加入对 EM64T与SSE4指令集的支持,具有14级有效流水线, 内建32KB一级指令缓存与32KB一级数据缓存,而且 2个核心的一级数据缓存之间可以直接传输数据;具 有4组指令解码单元,支持微指令融合与宏指令融合 技术,每个时钟周期最多可以解码5条X86指令,生 成7条微指令,并拥有改进的分支预测功能;拥有3个 调度端口,内建5个执行单元,包括3个64bit的整数执 行单元(ALU)、2个128bit的浮点执行单元(FPU) 和3个128bit的SSE执行单元;采用新的内存相关性预 测技术,支持增强的电源管理功能,支持硬件虚拟化 技术和硬件防病毒功能。芯片内建数字温度传感器, 可提供功率报告和温度报告等,配合系统实现动态的 功耗控制和散热控制。
B点的执行时间延长了,有可能 会不满足实时性要求。所以要 对所有任务通盘考虑。 解释为什么双核? 使用2个B点的CPU并行计算, 可 保证与A一样的执行时间,但功 耗为A的1/4.
2011年4月28日星期四
11
Ⅰ号CPU:单核,频率为1MHz,功率1瓦 Ⅱ号CPU:单核,提高频率到KMHz,功率为 K3瓦。 Ⅲ号CPU:双核,保持频率不变,增加一个内 核。功耗2瓦。 假设:“ Ⅲ号CPU”的性能相当于频率为 LMHz的单核CPU。
2011年4月28日星期四 22
典型多核芯片架构
单核体系架构特点 双核体系架构特点 双处理器与双核的区别 多核体系架构特点 多核处理器中的并行 实现多核架构难点 单核,多核的对比与区别
2011年4月28日星期四
23
核是什么? 核是什么
独立的指令执行和控制单元
独立的功能部件 独立的控制器
完整的指令流水线
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 CMP可分为同构多核和异构多核(按计算内核的对等与否 进行划分): 计算内核相同,地位对等的称为同构多核,现在Intel和 AMD主推的双核处理器,就是同构的双核处理器。 计算内核不同,地位不对等的称为异构多核,异构多核 多采用“主处理核+协处理核”的设计,IBM、索尼和 东芝等联手设计推出的Cell处理器正是这种异构架构的 典范。
第二章 多核构架与并行计算
计算机系统结构系 主讲人:方 娟 E-mail:fangjuan@bjut.edu.cn 2010-9
多核构架
按硬件层次分 芯片级 多核芯片 板级 机架级 网络级 网格
Core1 Bus Core2
2 MB L2 Cache
FP Unit EXE Core L1 Cache
2011年4月28日星期四
19
由于功耗已成为用户在性能之外所考虑的首要因素, 两大处理器巨头都在宣传多核处理器时,强调其“节 能”效果。英特尔发布了功耗仅为50瓦的低电压版四 核至强处理器。而AMD发布了“Barcelona”四核处理 器,据称其功耗将不会超过95瓦。 多核技术在应用上的优势有两个方面:为用户带来更 强大的计算性能;更重要的,则是可满足用户同时进 行多任务处理和多任务计算环境的要求。两大芯片制 造商缔造的多核技术都给消费者描绘出了使用多核处 理器在执行多项任务时的美妙前景:同时可以检查邮 件、刻录CD、修改照片、剪辑视频,并且同时可以运 行杀毒软件。或者利用同一台电脑,父亲在查看财务 报表,女儿在打游戏,母亲在给远方的朋友打网络电 话。
DMI (直接媒体接口 直接媒体接口) 直接媒体接口
物理存储器 (必须有一个最小值) 必须有一个最小值)
图形扩展卡(可选) 图形扩展卡(可选)
ICH 控制中枢) (I/O控制中枢) 控制中枢
2011年4月28日星期四
主板
与所有I/O设备链接 与所有 设备链接
28
Intel双核( Core 2 Duo) 双核( 双核 )
C
Pow= cf3
2011年4月28日星期四
1.5v
3v
10
v
Pow= cf3--功率公式 = --功率公式
A点:PowA = c(100M)3 B点: PowB = c(50M)3 对同一个任务:
B点的功率小,执行时间是A的 一倍,所以: B点的功耗(功率X时间)是A 的25%.
PowB C (50M ) 3 1 = = 3 PowA C (100) 8
2011年4月28日星期四
24
核处理器分类
单核多线程处理器
单核CPU构成
多核处理器
多核芯片构成
多核多线程处理器
每个核都是多线程的
2011年4月28日星期四
25
单核处理器芯片结构
2011年4月28日星期四
26
单核芯片与外围部件的关系
2011年4月28日星期四
27
微处理器与芯片组的关系
处理器
芯片组 扩展卡(可选) 扩展卡(可选) MCH 存储器控制中枢) (存储器控制中枢)
2011年4月28日星期四
5
从功耗的角度看多核
CMOS芯片的功耗分为: 静态功耗:CMOS芯片的输入输出都没有变化时的功耗; 小,可忽略。 动态功耗:CMOS芯片的输入输出有变化时的功耗。
2011年4月28日星期四
6
芯片指标:频率f,电压v,功耗Pow f受制于v: v越高,f就越能达到较高的频率。(f 的上 限和v成正比)
FP Unit EXE Core L1 Cache
L2 Cache
2011年4月28日星期四
System Bus (667MHz, 5333MB/s)
2
板级多芯片多核
一块主板上集成多个多核芯片
核 核 核 核
2011年4月28日星期四
核 核 核 核
核 核 核 核
核 核 核 核
3
片上多核处理器架构
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 按计算内核的对等与否,CMP可分为同构多核和异构多核 CPU核心数据共享与同步 总线共享Cache结构:每个CPU内核拥有共享的二级或 三级Cache,用于保存比较常用的数据,并通过连接核 心的总线进行通信。 基于片上互连的结构:每个CPU核心具有独立的处理单 元和Cache,各个CPU核心通过交叉开关或片上网络等 方式连接在一起。 给程序开发者带来的挑战
2011年4月28日星期四
17
IA阵营正式引入多核架构 阵营正式引入多核架构
而真正意义上让多核处理器进入主流桌面应用,是从IA阵营 正式引入多核架构开始。 AMD抢先手推出64位处理器后,英特尔才想起利用“多核” 这一武器进行“帝国反击战”。2005年4月,英特尔仓促推 出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后 也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2处理器。。 2006年5月,英特尔发布了其服务器芯片Xeon系列的新成 员—双核芯片Dempsey。该产品使用了65纳米制造工艺, 其5030和5080型号的主频在2.67GHz和3.73GHz之间。紧 随其后的6月份,另一款双核芯片Woodcrest(Xeon 5100系 列)登场。英特尔声称与奔腾D系列产品相比,其计算性能 提高了80%,能耗降低了20%。
2011年4月28日星期四
15
多核处理器最直接的发展则认为是始于IBM。 IBM 在 2001 年 发 布 了 双 核 RISC 处 理 器 POWER4,它将两个64位PowerPC处理器内 核集成在同一颗芯片上,成为首款采用多核设 计的服务器处理器。在UNIX阵营当中,两大 巨头HP和Sun也相继在2004年2月和3月发布 了名为PA-RISC8800和UltraSPARC IV的双内 核处理器。
f 100MHz
A
50MHz
B
C
2011年4月28日星期四
1.5v
3v
v
7
Pow受制于f和v,既和f成正比,又和v2成正比。
f 100MHz
A
50MHz
B
C
1.5v
2011年4月28日星期四
3v
v
8
此外: 衡量处理器性能的主要指标是每个时钟周期内可以执行的 指令数(IPC: Instruction Per Clock)和处理器的主频 处理器性能 = 主频 x IPC 处理器功耗正比于电流x 电压 x 电压 x 主频 而主频 正比于 电压、IPC 正比于 电流 所以:“处理器功耗正比于 主频的三次方” 处理器功耗 正比于 IPC
L1 D-cache 和 D-TLB
2011年4月28日星期四
L1 D-cache 和 D-TLB
31
双核的架构
1.4 = 2.744
3 3
1.6 = 4.096
13
说明:不能永远靠加快频率的方法来改善性能。 频率高到一定程度以后,必然要转向多核技术。 这是由芯片的先天性质决定的。
2011年4月28日星期四
14
多核的出现
1985年,英特尔发布了80386DX,它需要与 协微处理器80387相配合,从而完成需要大量 浮点运算的任务。 80486则将80386和80387以及一个8KB的高速 缓存集成在一个芯片内。从一定意义上, 80486可以称为多核处理器的原始雏形。
2011年4月28日星期四 30
Core 2 处理器结构图
系统总线
指令预取/预译码 指令预取/预译码 指令队列 指令译码 ROB 器
器
L2 Cache L2 Cache
微码 ROM
器
指令队列 指令译码 ROB
和 控 制
微码 ROM
器
FPU ALU ALU ALU
LD
ST
ST
LD
ALU ALU ALU FPU
2011年4月28日星期四
12
当K=1.26,“Ⅱ号 CPU”与“Ⅲ号CPU”功 耗相等。 也就是说:在功耗翻一 番的时候,只要L能超过 1.26, “Ⅲ号CPU”的 性能就比“Ⅱ号CPU”强。 现实L值:睿酷的广告中 自称是1.4。
如果“Ⅱ号CPU”要达到 1.4或者1.6,功耗是:
2011年4月28日星期四