英特尔14纳米微架构处理器(Broadwell)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
英特尔 14 纳米微架构处理器 (Broadwell)
Srinivas Chennupaty,英特尔公司高级首席工程师兼 CPU 首席架构师 江宏博士,英特尔院士兼英特尔公司首席媒体架构师
ARCS001
芯动,行动,共创未来!
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
• PCH 响应
- SATA – 当指令发出后进行调节 - 使链路有机会进入 低功耗状态(部分运行、睡眠……)
- PCI Express* – 强制 Tx 和 Rx 进入 L0s 状态 - USB – 推迟向终端设备安排事务
使链路有机会进入 U1、 U2 等低功耗状态
PCH 控制图示
功耗降低 50%
ECDH-p256: ADCX/ADOX
2009
2014 ECDH-p256 RSA-2048 AES-128-GCM
监控
英特尔® 处理器跟踪
• 英特尔® CPU 上用于软件调试的主要新架 构功能
• 支持在内存中执行低开销指令工作负载 跟踪
• 该功能将获得领先调试工具的支持 • 计划在未来产品中进行改进
12
效率
随着峰值负载的下降,Vccin 电压会下降, 从而最大限度地减少供电损耗
负载
管理偏移
最大 睿频
IA 频率 芯片组控制 GT 频率
13
最低 功耗
T1
T2 T3
占空比控制 打开/关闭模块
芯片组占空比控制(Duty Cycling)
• CPU 监控总体系统芯片功耗
• 要求PCH基于功耗余量进行控制
面向虚拟化数据中心的新功能
• 服务质量 • 容错
2000 1500 1000
500 0
更短的往返 延迟
约 400 个 周期
Intel VT-x Roundtrip over Generations
25 支持 32 位英特尔架构、英特尔® 64 和英特尔® 架构的英特尔® 虚拟化技术(英特尔® VT-x)
No Throttling
With Throttling
Score SATA (power) Bandwidth
14
扩大有效工作范围
No Duty Cycling
Duty Cycle Control DCC 可显著提升 ISO 能效。
显卡性能
以更高功耗极限智能 解除 DCC。
DCC 可扩大系统芯 片的工作范围
2
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
3
Tick/Tock 开发模式
32 纳米制程技术
22 纳米制程技术
14 纳米制程技术
英特尔®微架构
全新英特尔微架构 英特尔微架构
TICK
TOCK
TICK
全新英特尔微架构 全新英特尔 微架构 (Haswell)
• 基本 CRC 片(散列、完整性检验等)
RDSEED 新指令
• 非确定性随机数(ANSI X9.82,第 2 和第 4 部分)
管理模式访问保护 (SMAP)
• 类似于管理模式执行保护 (SMEP) • 防止管理模式观察用户页面上的数据
23
AES-128-GCM: PCLMULQDQ
RSA-2048: ADCX/ADOX
除法吞吐量 (开始下次除法所需的周期数)
50 40 30 20 10
0 2006
2014
SS SD 128 PS 128 PD 256 PS 256 PD
加密和安全保护
ADCX/ADOX 新指令,更快速的 ADC/SBB
• GNU 多精度库(如 Mathematica) • RSA 公钥加密
更快速的打包无进位乘法 (Carryless Multiply) (PCLMULQDQ)
晶体管性能提升 10-15%
14 纳米制程针对低电压性能进行了优化
漏电量
0.8 倍
面积规模 (Area scaling)
通过优化将漏电量 降低 1/2
0.51 倍(功能不变)
功耗降低约 10% 14 纳米制程专门针对英特尔酷睿 M 处 理器进行了优化
通过14纳米设计规范和版图优化实现
在性能检测过程中涉及的软件及其性能只有在英特尔微处理器的架构下方能得到优化。诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能 导致测试结果的变化。请参考其它信息及性能测试(包括结合其它产品使用时的运行性能)以对目标产品进行全面评估。更多信息敬请登陆 /performance。
TOCK
英特尔微架构 TICK
14 纳米制程技术
为客户端和服务器处理器 推出行业领先的 14 纳米制程技术
4
14 纳米微架构 即将广泛的应用于各种优势产品中
5
英特尔® 酷睿™ M 处理器
• 14 纳米第二代三栅极晶体管 • 更低的 TDP, 支持不超过 9 毫米的无风扇设计 • 经过系统优化的动态功耗和散热管理 • 降低系统芯片 (SoC) 闲置功耗,扩大动态工作范围 • 第二代 FIVR 和 3DL 技术 • 下一代显卡/媒体/显示 • 芯片组:更低的功耗、语音用途、更快的存储
处理器 •温度 •功耗控制 •P/T 状态
处理器显卡 •温度 •功耗控制 •RP 状态,EU
PCH •温度 •功耗控制
内存 •温度 •功耗控制
WLAN,WWAN •温度 •功耗控制
电池充电器 •充电率控制
18
表层热传感器
(Skin Thermal Sensor) •温度
显示 •亮度控制
系统风扇 •精细化风扇控制
时间
增强的 FIVR 效率管理
• 可提升 FIVR 效率的新启发法
- 监控峰值需求 - 调整 Vccin 输入电压,最大限度地提升 FIVR 效率 - 将供电传输损耗控制在 6W 以下
在保持低功耗的同时提升性能
• 非线性电压跌落(droop)控制
- 改善电压跌落(droop) 50% - 速度提升超过 5% => 功耗节省 10%
内核
LLC
内核
LLC
eDRAM
内核
LLC
有针对性的加密速度 提升
OpenCL™ 2.0 API,SVM,
内核
LLC
DirectX* 11.2,DirectX 12 Ready,OpenGL* 4.3
显卡
第二代 FIVR 和 3DL 技术
面向嵌入式
控制器的
PECI 接口
经过系统优化的动笔Dis记态p本lay电散P脑ort热* 和功耗管理
期完成一个双精度除法
• FP 乘法延迟缩短至 3 个时钟周期 • 提升的 Gather
- 相比上代处理器,微运算次数降低约 60% - 针对 Gather 密集型工作负载实现了延迟和吞吐量改进
22
除法延迟(周期)
50 40 30 20 10
0 2006
2014
SS/128 PS SD/128 PD 256 PS 256 PD
7
14 纳米制程
DMI/OPI PCI Express*
系统代理 IMC
显示
内核
LLC
内核
LLC
内核
LLC
内核
LLC
x16 双通道PCIe 内存 eDRAM
显卡
笔记本电脑 DisplayPort*
PCH
面向嵌入式 控制器的 PECI 接口
更快的浮点和矢量运算 速度
高能效 Iห้องสมุดไป่ตู้C
有针对性的加密速度 提升
采用无风扇结构设计带来出色的 英特尔® 酷睿™ 处理器体验
6
英特尔的下一代 14 纳米微架构
精细化 PCH 功耗管理
PCI Express 存储 音频 DSP 升级
闲置功耗降低 60% 工作功耗降低 30%
OpenCL™ 2.0 API,SVM, DirectX* 11.2,DirectX 12
Ready,OpenGL* 4.3
15
占空比控制图示
显卡引擎开始在高效电 压/频率范围内运行
可实现的频率 >(高效频率+偏移) CPU 发送中断信号至显卡驱动程序,以重启工作
高效频率可能随温度 而变化
显卡频率可能降至有 效点以下,此时 CPU 会请求显卡进入闲置
状态
最高效率频率 最高效率频率 + 可编程偏移 可实现的显卡频率
16
显卡进入闲置状态,系统芯 片功耗下降
1
3
5
7
8-19
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
20
出色能效性能
在频率相同的情况下,性能高于先前的微架构
• 更大的乱序调度程序(6064 个条目) • 更大的 4K+2M L2 TLB(1K1.5K 个条目),全新的
1G L2 TLB(16 个条目) • 用于并行页面查询的第二个页面未命中处理程序 • 更准确的分支和返回地址预测 • 浮点和矢量改进(下一页)
Intel 4th Gen Microarchitecture
60%
20%
Intel Core M
35%
Windows 空闲
高清播放
Web 浏览
17
系统优化散热管理: 用于实现最佳性能的平台功耗共享
英特尔® 动态平台和散热框架 (Intel® Dynamic Platform and Thermal Framework)
9
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
10
增强的睿频加速技术:在保持系统可靠性的同时,最大限度地 进行加速
功耗
PL3 PL2
PL3 – 电池保护
确保电池不会频繁出现电流尖峰
PL2 – 突发限制
PL1
PL1 - 长期系统限制
11 英特尔® 睿频加速技术
同步
英特尔® 事务性同步扩展(英特尔® TSX)
• 上代微架构中采用的新指令可用于通过锁省 略增强多线程应用
• 全新微架构可改进英特尔 TSX 事务的执行 情况
- 面向更大事务规模的事务读取组跟踪改进 - 更低的事务写缓冲开销
24
通过英特尔® 虚拟化技术实施虚拟化
可降低开销的硬件改进
• 更短的客户端/主机转换时间 • 更快速的 APIC 虚拟化 • 更大的 L2 TLB
PCH 7
14 纳米设计/制程 将功耗优化至传统的1/2
传统
14 纳米英特尔® 酷睿™ M 处理器制程优势
系统芯片影响
电容量
0.75 倍
0.65 倍
功耗降低 25% 通过缩小和优化晶体管/互连实现
更低的最小工作电压
相同
降低 10%
功耗降低 20% 通过更小的偏差和设计优化实现
低电压晶体管性能
通常针对高电压工作 状态进行优化
英特尔® DPTF – 积极表层温度管理
• 监控平台限制 • 调节系统和系统芯片参数,确保在限制内运行 • 例如,监控表层温度,动态调节 PL1/PL2 • 在冷系统上性能提升 50%
随时间变化的性能
超过 30%
19 英特尔® 动态平台和散热框架(英特尔® DPTF)
Iteration iteration Iteration Iteration Iteration
C 状态增强特性可降低平均功耗
• 增强的 PkgC7 (C7+) 状态可进一步降低平均功耗
- 在 C7+ 中打开 LVR(线性电压源) - 最大限度地减少 FIVR 静态损耗 - 将 Vccin(从 1.6V)降到 1.3V,以进一步减少损耗
• 在该优化的低功耗状态下支持内存路径
- 唤醒刷新显示缓冲区时,不会导致电压上升
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
26
14 纳米微架构 PCH-LP – 重点关注功耗
• 音频和性能
无工作循环时的最小工作点。
系统芯片功耗极限(瓦)
• 低功耗极限要求在 Vmin 频率下进行工作,但在该点以下漏电量不可进行扩展 • 通过占空比控制降低功耗:在 500MHz 时实现 80%,而非在 400MHz 实现 100%。相同的频率,更
少的漏电量。 • DCC:占空比控制,借助硬件和显卡驱动程序之间的协作来实施 • Anandtech:“蛮力与智慧并用”
能效
• 性能特性设计为大约 2:1 的性能功耗比 • 功耗门控(Power Gating)和设计优化可提升每个工作
点的能效
单线程 每周期执行的指令数 (IPC) (广泛的混合工作负载)
21
矢量性能
• 1024 Radix 除法器 – 更低延迟
- 可单独调度的标量除法器 – 更高吞吐量 - 每 2.5 个周期(平均)完成一个单精度除法,每 4 个周
第二代 FIVR 和 3DL 技术
英特尔的下一代 14 纳米微架构
14 纳米制程
精细化 PCH 功耗管理
PCI Express 存储 音频 DSP 升级
DMI/OPI PCI Express*
系统代理 IMC
显示
x16 双通道PCIe 内存
更快的浮点和矢量运算 速度
高能效 IPC
闲置功耗降低 60% 工作功耗降低 30%
Srinivas Chennupaty,英特尔公司高级首席工程师兼 CPU 首席架构师 江宏博士,英特尔院士兼英特尔公司首席媒体架构师
ARCS001
芯动,行动,共创未来!
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
• PCH 响应
- SATA – 当指令发出后进行调节 - 使链路有机会进入 低功耗状态(部分运行、睡眠……)
- PCI Express* – 强制 Tx 和 Rx 进入 L0s 状态 - USB – 推迟向终端设备安排事务
使链路有机会进入 U1、 U2 等低功耗状态
PCH 控制图示
功耗降低 50%
ECDH-p256: ADCX/ADOX
2009
2014 ECDH-p256 RSA-2048 AES-128-GCM
监控
英特尔® 处理器跟踪
• 英特尔® CPU 上用于软件调试的主要新架 构功能
• 支持在内存中执行低开销指令工作负载 跟踪
• 该功能将获得领先调试工具的支持 • 计划在未来产品中进行改进
12
效率
随着峰值负载的下降,Vccin 电压会下降, 从而最大限度地减少供电损耗
负载
管理偏移
最大 睿频
IA 频率 芯片组控制 GT 频率
13
最低 功耗
T1
T2 T3
占空比控制 打开/关闭模块
芯片组占空比控制(Duty Cycling)
• CPU 监控总体系统芯片功耗
• 要求PCH基于功耗余量进行控制
面向虚拟化数据中心的新功能
• 服务质量 • 容错
2000 1500 1000
500 0
更短的往返 延迟
约 400 个 周期
Intel VT-x Roundtrip over Generations
25 支持 32 位英特尔架构、英特尔® 64 和英特尔® 架构的英特尔® 虚拟化技术(英特尔® VT-x)
No Throttling
With Throttling
Score SATA (power) Bandwidth
14
扩大有效工作范围
No Duty Cycling
Duty Cycle Control DCC 可显著提升 ISO 能效。
显卡性能
以更高功耗极限智能 解除 DCC。
DCC 可扩大系统芯 片的工作范围
2
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
3
Tick/Tock 开发模式
32 纳米制程技术
22 纳米制程技术
14 纳米制程技术
英特尔®微架构
全新英特尔微架构 英特尔微架构
TICK
TOCK
TICK
全新英特尔微架构 全新英特尔 微架构 (Haswell)
• 基本 CRC 片(散列、完整性检验等)
RDSEED 新指令
• 非确定性随机数(ANSI X9.82,第 2 和第 4 部分)
管理模式访问保护 (SMAP)
• 类似于管理模式执行保护 (SMEP) • 防止管理模式观察用户页面上的数据
23
AES-128-GCM: PCLMULQDQ
RSA-2048: ADCX/ADOX
除法吞吐量 (开始下次除法所需的周期数)
50 40 30 20 10
0 2006
2014
SS SD 128 PS 128 PD 256 PS 256 PD
加密和安全保护
ADCX/ADOX 新指令,更快速的 ADC/SBB
• GNU 多精度库(如 Mathematica) • RSA 公钥加密
更快速的打包无进位乘法 (Carryless Multiply) (PCLMULQDQ)
晶体管性能提升 10-15%
14 纳米制程针对低电压性能进行了优化
漏电量
0.8 倍
面积规模 (Area scaling)
通过优化将漏电量 降低 1/2
0.51 倍(功能不变)
功耗降低约 10% 14 纳米制程专门针对英特尔酷睿 M 处 理器进行了优化
通过14纳米设计规范和版图优化实现
在性能检测过程中涉及的软件及其性能只有在英特尔微处理器的架构下方能得到优化。诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能 导致测试结果的变化。请参考其它信息及性能测试(包括结合其它产品使用时的运行性能)以对目标产品进行全面评估。更多信息敬请登陆 /performance。
TOCK
英特尔微架构 TICK
14 纳米制程技术
为客户端和服务器处理器 推出行业领先的 14 纳米制程技术
4
14 纳米微架构 即将广泛的应用于各种优势产品中
5
英特尔® 酷睿™ M 处理器
• 14 纳米第二代三栅极晶体管 • 更低的 TDP, 支持不超过 9 毫米的无风扇设计 • 经过系统优化的动态功耗和散热管理 • 降低系统芯片 (SoC) 闲置功耗,扩大动态工作范围 • 第二代 FIVR 和 3DL 技术 • 下一代显卡/媒体/显示 • 芯片组:更低的功耗、语音用途、更快的存储
处理器 •温度 •功耗控制 •P/T 状态
处理器显卡 •温度 •功耗控制 •RP 状态,EU
PCH •温度 •功耗控制
内存 •温度 •功耗控制
WLAN,WWAN •温度 •功耗控制
电池充电器 •充电率控制
18
表层热传感器
(Skin Thermal Sensor) •温度
显示 •亮度控制
系统风扇 •精细化风扇控制
时间
增强的 FIVR 效率管理
• 可提升 FIVR 效率的新启发法
- 监控峰值需求 - 调整 Vccin 输入电压,最大限度地提升 FIVR 效率 - 将供电传输损耗控制在 6W 以下
在保持低功耗的同时提升性能
• 非线性电压跌落(droop)控制
- 改善电压跌落(droop) 50% - 速度提升超过 5% => 功耗节省 10%
内核
LLC
内核
LLC
eDRAM
内核
LLC
有针对性的加密速度 提升
OpenCL™ 2.0 API,SVM,
内核
LLC
DirectX* 11.2,DirectX 12 Ready,OpenGL* 4.3
显卡
第二代 FIVR 和 3DL 技术
面向嵌入式
控制器的
PECI 接口
经过系统优化的动笔Dis记态p本lay电散P脑ort热* 和功耗管理
期完成一个双精度除法
• FP 乘法延迟缩短至 3 个时钟周期 • 提升的 Gather
- 相比上代处理器,微运算次数降低约 60% - 针对 Gather 密集型工作负载实现了延迟和吞吐量改进
22
除法延迟(周期)
50 40 30 20 10
0 2006
2014
SS/128 PS SD/128 PD 256 PS 256 PD
7
14 纳米制程
DMI/OPI PCI Express*
系统代理 IMC
显示
内核
LLC
内核
LLC
内核
LLC
内核
LLC
x16 双通道PCIe 内存 eDRAM
显卡
笔记本电脑 DisplayPort*
PCH
面向嵌入式 控制器的 PECI 接口
更快的浮点和矢量运算 速度
高能效 Iห้องสมุดไป่ตู้C
有针对性的加密速度 提升
采用无风扇结构设计带来出色的 英特尔® 酷睿™ 处理器体验
6
英特尔的下一代 14 纳米微架构
精细化 PCH 功耗管理
PCI Express 存储 音频 DSP 升级
闲置功耗降低 60% 工作功耗降低 30%
OpenCL™ 2.0 API,SVM, DirectX* 11.2,DirectX 12
Ready,OpenGL* 4.3
15
占空比控制图示
显卡引擎开始在高效电 压/频率范围内运行
可实现的频率 >(高效频率+偏移) CPU 发送中断信号至显卡驱动程序,以重启工作
高效频率可能随温度 而变化
显卡频率可能降至有 效点以下,此时 CPU 会请求显卡进入闲置
状态
最高效率频率 最高效率频率 + 可编程偏移 可实现的显卡频率
16
显卡进入闲置状态,系统芯 片功耗下降
1
3
5
7
8-19
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
20
出色能效性能
在频率相同的情况下,性能高于先前的微架构
• 更大的乱序调度程序(6064 个条目) • 更大的 4K+2M L2 TLB(1K1.5K 个条目),全新的
1G L2 TLB(16 个条目) • 用于并行页面查询的第二个页面未命中处理程序 • 更准确的分支和返回地址预测 • 浮点和矢量改进(下一页)
Intel 4th Gen Microarchitecture
60%
20%
Intel Core M
35%
Windows 空闲
高清播放
Web 浏览
17
系统优化散热管理: 用于实现最佳性能的平台功耗共享
英特尔® 动态平台和散热框架 (Intel® Dynamic Platform and Thermal Framework)
9
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
10
增强的睿频加速技术:在保持系统可靠性的同时,最大限度地 进行加速
功耗
PL3 PL2
PL3 – 电池保护
确保电池不会频繁出现电流尖峰
PL2 – 突发限制
PL1
PL1 - 长期系统限制
11 英特尔® 睿频加速技术
同步
英特尔® 事务性同步扩展(英特尔® TSX)
• 上代微架构中采用的新指令可用于通过锁省 略增强多线程应用
• 全新微架构可改进英特尔 TSX 事务的执行 情况
- 面向更大事务规模的事务读取组跟踪改进 - 更低的事务写缓冲开销
24
通过英特尔® 虚拟化技术实施虚拟化
可降低开销的硬件改进
• 更短的客户端/主机转换时间 • 更快速的 APIC 虚拟化 • 更大的 L2 TLB
PCH 7
14 纳米设计/制程 将功耗优化至传统的1/2
传统
14 纳米英特尔® 酷睿™ M 处理器制程优势
系统芯片影响
电容量
0.75 倍
0.65 倍
功耗降低 25% 通过缩小和优化晶体管/互连实现
更低的最小工作电压
相同
降低 10%
功耗降低 20% 通过更小的偏差和设计优化实现
低电压晶体管性能
通常针对高电压工作 状态进行优化
英特尔® DPTF – 积极表层温度管理
• 监控平台限制 • 调节系统和系统芯片参数,确保在限制内运行 • 例如,监控表层温度,动态调节 PL1/PL2 • 在冷系统上性能提升 50%
随时间变化的性能
超过 30%
19 英特尔® 动态平台和散热框架(英特尔® DPTF)
Iteration iteration Iteration Iteration Iteration
C 状态增强特性可降低平均功耗
• 增强的 PkgC7 (C7+) 状态可进一步降低平均功耗
- 在 C7+ 中打开 LVR(线性电压源) - 最大限度地减少 FIVR 静态损耗 - 将 Vccin(从 1.6V)降到 1.3V,以进一步减少损耗
• 在该优化的低功耗状态下支持内存路径
- 唤醒刷新显示缓冲区时,不会导致电压上升
议程
• 简介 • 功耗管理 • CPU 微架构 • 芯片组 • 显卡和异构处理创新 • 媒体和显示创新
26
14 纳米微架构 PCH-LP – 重点关注功耗
• 音频和性能
无工作循环时的最小工作点。
系统芯片功耗极限(瓦)
• 低功耗极限要求在 Vmin 频率下进行工作,但在该点以下漏电量不可进行扩展 • 通过占空比控制降低功耗:在 500MHz 时实现 80%,而非在 400MHz 实现 100%。相同的频率,更
少的漏电量。 • DCC:占空比控制,借助硬件和显卡驱动程序之间的协作来实施 • Anandtech:“蛮力与智慧并用”
能效
• 性能特性设计为大约 2:1 的性能功耗比 • 功耗门控(Power Gating)和设计优化可提升每个工作
点的能效
单线程 每周期执行的指令数 (IPC) (广泛的混合工作负载)
21
矢量性能
• 1024 Radix 除法器 – 更低延迟
- 可单独调度的标量除法器 – 更高吞吐量 - 每 2.5 个周期(平均)完成一个单精度除法,每 4 个周
第二代 FIVR 和 3DL 技术
英特尔的下一代 14 纳米微架构
14 纳米制程
精细化 PCH 功耗管理
PCI Express 存储 音频 DSP 升级
DMI/OPI PCI Express*
系统代理 IMC
显示
x16 双通道PCIe 内存
更快的浮点和矢量运算 速度
高能效 IPC
闲置功耗降低 60% 工作功耗降低 30%