Intel CPU架构解析2020

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Uncore部分
当 然 也 不 是 所 有 的 厂 商 都 会 给 足 四 个 TB3 接 口 , 具 体 怎 么 配 置 还 是 得 看 OEM厂商,毕竟其他的配套芯片诸如USB PD所需要的独立IC都是会增加成 本 的 , 而 TB 接 口 还 需 要 额 外 的 Retimer 芯 片 , 不 过 Intel 已 经 减 半 了 所 需 的 Retimer,两条TB3只需要1个Retimer就可以了。
Sunny Cove内核微架构
再来看缓存部分,新的内核终于 增加了万年没变动过的一级数据 缓存,从32KB到48KB,虽然只增 加了12KB,但是要知道,32KB的 一级指令缓存+32KB的一级数据 缓存的设计,从Core系列的第一 代架构——Core微架构上面就开 始使用了,一直沿用到现在,同 时一级数据缓存的带宽也增加了 。而每个内核附带的二级缓存直 接提升一倍,达到512KB的大小 ,这也是从Nehalem架构把二级 缓存内置进每个核心、单独设立 共享L3缓存以来在内核缓存上发 生的最大幅度变动了。
3200/LPDDR4X 3733内存,原
来Skylake上面的内存控制器
顶多只能支持到DDR4 2666,
ቤተ መጻሕፍቲ ባይዱ
还是八代的Coffee Lake以后
的事情了。而随着DDR4内存的
发展,默频上3000的内存条也
开始出现了,内存控制器直接
支持到DDR4 3200是一件不错
的事情。而且随着处理器内核
数量的增加,内存带宽也逐渐
Uncore部分
而且Intel大方的一下子就 提 供 了 4 个 之 多 的 TB3 接 口,每个都是PCI-E 3.0 x4 的 满 规 格 , 也 就 是 说 ,Ice Lake处理器其实一 共拥有32条PCI-E 3.0通道 ,不过其中一半都是以 TB3形式提供的,当然这 些接口是支持USB模式的 ,当运行于USB 2.0状态 时,会绕回到PCH上进行 通信。
指令集与AI加速
指令集随着新单元的加入也同时进行了扩充,在加密解密、AI加速、通用计算 、特定计算等方面都新加入了不少指令,尤其是AVX-512指令集。 对于近几年大热门的人工智能,Intel一方面在Uncore部分加入了自家的“高斯网 络加速器(Gaussian Network Accelerator)”这样类似于手机SoC上面常见的AI硬 件加速电路,还通过引入AVX512VNNI指令集,使用AVX-512单元来进行AI相关的 加速计算,Intel将这种加速称为"DL(Deep Learning) Boost"。这是一种很聪明的取 巧办法,专用计算单元的引入可以保证一定的加速性能,而新指令集的加入同 时也可以更加充分地利用上新的CPU特性。 加密解密指令集上面的改动诸如AES的吞吐量加大、加入新的针对SHA算法的一 系列指令等,总之在编译器进行适当优化的前提下,Ice Lake的加密解密性能是 比Skylake强不少的。
可变速率着色(VRS)
VRS可以在不重要的画面上面节 约一定的GPU资源,使这部分 GPU资源参与更加重要的部分画 面的渲染中,从而提高了整体的 帧数,目前NVIDIA已经在Turing 核心中加入了相关的支持。而 Intel也没有落后,在第11代核显 中提供了这项特性,并且他们宣 布将与Epic合作,将这项特性加 入到虚幻引擎中去,目前文明六 已经支持了该技术,并且根据 Intel的数据,帧数最大提高了 30%。
Uncore部分
不过将TB控制器集成到CPU内部也使得整个 System Agent的IO部分更为复杂了,上面是 一张详细的原理图,一个Type-CIO路由(图 上名为CIO Router)拥有两条PCI-E 3.0 x4与CPU相连,而CPU内部的显示控制引擎( 图上的Display Engine)也要与这个TypeCIO路由相连,以控制Type-C接口所处的状 态,并决定发送的信号。同时还有USB的 xHCI也要跟Type-CIO连接,还要管理整个的 内存统一性……
第11代图形架构
新接口版本和加强的硬件编码电路
在视频硬件编码部分,也就是Intel QuickSync特性使用的独立硬 件电路上,新核显也有比较大的改进,现在支持两条HEVC 10-bit 同时进行编码,在YUV444的情况下最高支持两条4K60帧视频流, 或者一条YUV422的8K30帧视频流。
Sunny Cove内核结构图
Sunny Cove内核微架构
缓冲区部分对比
缓存对比
可以看到Intel这次把乱序重排缓冲区(ReOrder Buffer,主要是用于乱 序执行后将执行的微指令根据原本顺序提交的指令缓冲区)大小做到 了可以容纳352条微指令,直接提升了128条/57%之多,而Haswell到 Skylake才仅仅提升了32条。同样在访存上面也进行了不小的提升, Load(加载)队列增加了56,Store(存储)队列增加了16,比Haswell 到Skylake的改变都明显要多。
04.
UNCORE部分
Uncore部分
Uncore部分指的是处理器上除了内核和GPU的其他部分,在顶上的结构示意图中 就是System Agent的那部分,自从Intel在Nehalem把内存控制器和PCI-E控制器移 入CPU内部之后就没有什么大的变化,但是这次Intel在上面加入了个新东西,还 升级了不少老部件。
你一定想问第10代去哪里了对不对,其实还是在夭折了的 Cannon Lake上面,而且唯一一颗的核显还是被屏蔽了的 。目前在移动低压版Ice Lake处理器上面,Intel一共提 供了G1、G4和G7三种配置的核显,分别有32/48/64组EU, 低端的G1命名仍为"UHD",而G4和G7都以"Iris Plus"的品 牌出现。
后端:更宽
然后在执行单元中,Sunny Cove新增 了支持AVX-512指令的单元,其实这 类单元在Skylake-Server上便已经加入 ,同时引入的还有Cannon Lake上面加 入的iDIV这个硬件整数除法器,同时 还加入了新的MulHi单元,专用于乘 法指令的处理。 AVX-512计算单元的引入使得Sunny Cove内核一次可以处理1条512-bit的 指令或者2个256-bit的指令。 内核互联方面,桌面级Ice Lake仍将采 用Ringbus也就是环形总线的设计,而 服务器端将延续Skylake-Server的Mesh 总线设计。
Thunderblot 3
原来阻挡人们使用Thunderblot(以下简称TB)设备的一大原因就是这个接口的 使用成本略高,当TB3开始以USB Type-C接口的形式出现之后,使用率确实高上 去不少,但是还有其他的拦路虎,其中一个就是TB需要主板搭载额外的芯片来使 用,这个控制芯片并不便宜。终于在Ice Lake上面,Intel把TB控制器整合到了 处理器里面,并且再也不会占据掉处理器提供的PCI-E总线数量或者是与PCH一起 挤原本就已经拥挤不堪的DMI 3.0总线,而是在环形总线上面拥有了自己的位置 。
值得一提的是,Intel已经做好了对于USB4的兼容,不过考虑到目 前USB4仍处于草案阶段,不排除未来的修改使得兼容失效。不过 目前只是针对Ice Lake的移动版本进行架构分析,当然也不排除 Intel在桌面级的Ice Lake上面同样保留内部TB控制器。
内存控制器
现在内存控制器原生支持DDR4
03.
图形架构解析
第11代图形架构
Ice Lake的核显首次达到了 1TFlops的计算性能,还增加 了不少的功能特性,可谓改进 颇多。Intel用了"the most powerful version"来形容这代 核显的性能,怎么做到的呢?
第11代图形架构
借助10nm工艺,暴力堆叠规模
Intel的10nm工艺在晶体管密度上 的提升幅度是真的很大,14nm时 代最多配备24组EU的核显,在Ice Lake上面直接就翻了2.67倍,最 大可以达到64组EU,并且频率也 不低,最高可以跑到1100MHz,比 以前只低了50MHz,此时核显整体 的FP32计算量已经达到了 1.15TFlops。鉴于此,相比于八 代酷睿处理器上搭载的第9代核显 ,Intel官方宣称可以提供平均约 1.8倍的帧率。
CPU架构解析
总经理办公室-IT组-王旭
目录Catalog
1 Intel CPU架构介绍
3 图形架构解析 5 PCH改进
2 CPU架构解析 4 UNCORE部分 6 封装、睿频与功耗
01.
Intel CPU架构介绍
Intel Sunny Cove架构介绍
继上一次Intel更新他们的桌面级处理器的架构已经过去了将近6年的时间了,不 得不说,Skylake是一代非常成功的架构,也可能是从P6以来Intel使用时间最长的 一代处理器架构,支撑Intel走到现在还在主流和服务器市场上面占据着上风。 首先我们要理清一点,Ice Lake是整个处理器架构的代号,而现在的Intel处理器架 构中包括了内核、GPU、以及Uncore部分的其他IO单元,所以我们并不只是针对 CPU的内核微架构进行解析,而是对于整个体系结构。
可变速率着色(VRS) VRS全称Variable Rate Shading,是一种新的允许GPU根据画面 区域的重要性调整着色精度的技术,具体效果我们之前的新闻有 介绍过,可以看一下:来对比一下VRS可变速率着色技术带来的性 能提升吧 3DMark将添加该技术基准测试一文中的图片对比。
第11代图形架构
第11代图形架构
内部架构优化
首先通过增加单个Slice中含有的子Slice来 扩大规模,使得每周期的计算次数增加。其 次是在缓存系统上做文章,扩大了三级缓存 的容量,Intel方面公布的是EU的三级缓存 有3MB,并且还有0.5MB的本地共享内存。另 外还有通过处理器的内存控制器升级,能够 用上更高的内存带宽。
复杂的结构所导致的就是整体的延迟会增加 ,Intel将原因归结在电源控制上面,原本 分离式的芯片很容易管理电源状态,但是整 合进来之后每一个部分都有自己的电源状态 需要管理,需要更为精细化的电源管理系统 ,而这就增加了总体的延迟。不过更为精细 化的电源管理还是有好处的,那就是可以提 高能耗效率,Intel方面称满载的一个TB3接 口的芯片外加链路层将使用300mW的功率, 四个加起来也只有1.2W。
要开始成为处理器性能的一个
瓶颈所在了,在我们的测试中
,内存带宽对于性能的影响还 前面在讲内核的AI加速时提到了Uncore部分加入了
是比较明显的。
GNA这个针对AI的硬件加速单元,目前并不知道太多有
关于它的细节,就连具体名字都有两种说法,目前已
知的是该单元的功耗非常低,甚至会在SoC其余部分关
闭的情况下继续工作,旨在提供稳定的AI加速性能,应
Ice Lake处理器结构图
02.
CPU架构解析
Sunny Cove内核微架构:IPC平均提升18%
前端缓冲区:加大加大加大 x86处理器的内核主要可以简单地分成两 个部分,前端部分与后端执行部分,前端 部分主要完成“取指译码”的工作,后端 主要为指令的具体执行单元,前后端之间 有缓冲区,用于存放解译融合完毕的微指 令。Intel很早就在内核中引入了“微指令 融合”的技术来提高效率,融合过的微指 令会进入缓冲区然后被分配给后端执行部 分进行具体的执行。Intel目前认为,如今 程序更多的瓶颈位于访存和前端指令分派 上,Sunny Cove的前端部分改进就体现了 这一理念,所以这次缓冲区就被扩大了不 少。
Skylake与Sunny Cove内核架构对比图,左Skylake,右Sunny Cove
前端部分的改进较小,主要是改进了预取器与分支预测器的性能, 增加了微指令缓存的大小使得其能够满足每周期5(6)指令的发射
后端:更宽
上Skylake,下Icelake,注意看Port 后端也有不小的改变,Sunny Cove的 执行端口相比Skylake多了两个,达到 了10个之多。并且端口的用途更为精 细化,有专门用于读取和存储地址的 端口,并且专用于存取数据的端口数 量均为两个。
相关文档
最新文档