第04章向量处理机

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i Tc ij = max[Tstart + n]Tclk j i = (Tstart + n)Tclk
33／46
4.4 向量处理机的性能评价
假设第i个编队中所有向量指令处理的向量元素个数均为n。 Tci ：第i个编队的执行时间；
ij ：第i个编队中第条指令所使用向量功能部 Tstart 件的启动时钟周期数。
量功能部件使用冲突的条件之外 )
◆ 在进行链接的时候，只有在前一条向量指令
的第一个结果元素送入结果向量寄存器的那一个时钟周期才可以进行链接，若错过该时刻就不能进行链接。
◆ 只有当前一条向量指令全部执行完毕，释放
相应的向量寄存器资源后才能执行后面的向量指令。
20／46
4.3 提高向量处理机性能的常用技术
器加1、条件转移指令执行等。
28／46
4.4 向量处理机的性能评价

Tvf ：向量处理单元流水线的流过时间，它是从向量指令开始执行到得到第一个
计算结果（向量元素）所需的时间。
相当于通过时间？

行
ቤተ መጻሕፍቲ ባይዱ
Tc ：向量处理单元流水线“瓶颈”段的执
时间。 ◆ 如果向量处理单元流水线不存在“瓶颈”段，每段的执行时间等于一个时钟周期，则上式也可以写为： Tvp = [s + e + (n-1)]Tclk
S2相加；将计算结果从向量寄存器V2存入存储器的向量A
24／46
4.3 提高向量处理机性能的常用技术
◆ 当N ＞64时，就需要进行分段开采。在进
行分段开采时，首先必须根据向量长度计算出循环次数K ： K= N 64
一般来说，N并不一定总是64的倍数，所以如果N/64有余数，那么余数L为： N L = N － 64× 64
6. 向量循环或分段开采技术
如果向量的长度大于向量寄存器的长度，该如何处理呢？
◆ 向量循环：长向量循环分段处理的程序结构。
把长向量分成固定长度的段，然后循环分段处理，一次循环只处理一个向量段。
◆ 这种分段向量处理技术也称为分段开采。
◆ 将长向量循环分段处理是由系统硬件和软件控
制完成的，对程序员透明。
4.1 向量处理方式和向量处理机
1. 向量处理方式 D＝A×（B＋C ） A、B、C、D ── 长度为 N 的向量
3／46
(1) 水平(横向)处理方式 Ki ＝bi ＋ci Di ＝Ki ×ai 相关：N 次功能切换：2N 次
T
T
4／46
4.1 向量处理方式
(2) 垂直(纵向)处理方式. 将整个向量按相同的运
◆ Vk ← 主存 ◆ 主存 ← Vi
13／46
4.3 提高向量处理机性能的常用技术
14／46
4.3 提高向量处理机性能的常用技术
4. 链接技术当两条指令出现“写后读”相关时，若它们不存在功能部件冲突和向量寄存器(源或目的)
冲突，就有可能把它们所用的功能部件头尾相
接，形成一个链接流水线，进行流水处理。链接特性实质上是把流水线“定向”的思想
流水线的流水时间)为：
相当于标量流水线的通过时间
[（1+6+1）] + [（1+7+1）] = 17 拍
则三条向量指令总执行时间为： [（1+6+1）] + [（1+7+1）] +（N-1）= N + 16 拍
19／46
4.3 提高向量处理机性能的常用技术
5. 向量链接的一些主要要求：
(除了要保证无向量寄存器使用冲突和无向
17／46
4.3 提高向量处理机性能的常用技术
访存（6 拍）
存储器
V0
V1
V2
V3
V4
浮点加（6 拍）
浮点乘（7 拍）
图 3.44 通过链接技术实现指令重叠执行
◆ 三条向量指令全部用串行方法执行，则总
的执行时间为：
[（1+6+1） + N-1] + [（1+6+1） + N-1] +[（1+7+1） + N-1] = 3N + 22 拍
4.4 向量处理机的性能评价
◆ 对于一组向量指令，其执行时间主要取决于
三个因素：

向量的长度向量操作之间是否链接

向量功能部件的冲突和数据的相关性
◆ 把几条能在同一个时钟周期内一起开始执行的
向量指令集合称为一个编队。
31／46
4.4 向量处理机的性能评价
例4.9 假设每种向量功能部件只有一个，那
张晨曦编著
华中科技大学计算机学院
2 0 13 年 4 月
1／46
第四章向量处理机
4.1 向量的处理方式
4.2 向量处理机的结构 4.3 提高向量处理机的常用技术
4.4 向量处理机性能评价
4.5 向量处理机
2／46
4.1 向量处理方式
向量处理方式
◆ 向量处理机：具有向量数据表示和相应向量
指令的流水线处理机。 ◆ 标量处理机: 不具有向量数据表示和相应向量指令的处理机。
数据(每个元素)存入寄存器或者功能部件，都需要一拍
18／46
4.3 提高向量处理机性能的常用技术
◆ 前两条向量指令并行执行之后，再执行第
三条向量指令，则总的执行时间为：
[（1+6+1） + N-1] + [（1+7+1） + N-1] = 2N + 15 拍
◆ 采用向量链接技术，所需拍数(亦称为链接
◆ 当一条向量指令的两个源操作数分别是两条
先行向量指令的结果寄存器时，要求先行的两条向量指令产生运算结果的时间必须相等，即要求有关向量功能部件的延迟时间相等。
◆ 只有所有可以链接执行的向量指令的向量长
度相等时，它们之间才能链接执行，否则它们之间也不能链接执行。
21／46
4.3 提高向量处理机性能的常用技术
26／46
For (I=0 to K-1) V0←B
{
；从存储器中将向量B[L+I*64…L+I*64+63] 读入向量寄存器V0
循环
V1←S1*V0
；向量B中的每个元素分别和常数S1相乘；
K次 ,
分段
处理
V2←S2+V1
A←V2 }
；向量V1中的每个元素分别和常数S2相加
；将计算结果V2存入存储器的向量 A[L+I*64…L+I*64+63]
25／46
S1←5.0 S2←1.0
；将常数5.0送入标量寄存器S1 ；将常数1.0送入标量寄存器S2
VL←L
V0←B
；在向量长度寄存器VL中设置向量长度L
；从存储器中将向量B[0..L-1]读入向量寄存器V0
处理余数部分, 计算L 个元素
V1←S1*V0 ；向量B中的每个元素分别和常数S1相乘； V2←S2+V1 ；向量V1中的每个元素分别和常数S2相加 A←V2 ；将计算结果从向量寄存器V2存入存储器的向量A[0..L-1]
引入到向量执行过程的结果。
针对块内的元素.
15／46
16／46
4.3 提高向量处理机性能的常用技术
例 4.7 对上述向量运算 D=A*(B+C) ，若向量长度N≤64，向量元素为浮点数，则在 B 、 C取到 V0、V1后，就可用以下三条向量指令求解：（1） V3←存储器(访存，载入A) （2） V2←V0＋V1(浮点加) （3） V4←V2*V3(浮点乘，存D) 解：链接过程如图3.44所示：
27／46
第四章向量处理机
4.4 向量处理机的性能评价
衡量向量处理机性能的主要参数： 1.向量指令的处理时间
◆ 执行一条向量长度为n的向量指令所需的时间为：
Tvp = Ts + Tvf + (n-1)Tc

对比P58 公式3.2
Ts ：向量处理单元流水线的建立时间，包括：向量起始地址的设置、计数
◆ 向量处理机：常用每秒取得多少个浮点运算
结果表示机器速度，以MFLOPS(Million of Floating Point Per Second)作为测量单位。
另一种评定计算机速度的方法：比较法。（选择一台速度指标得到公认的机器作为标准机，给定一些典型的基准程序。）
10／46
第四章向量处理机
算处理完, 再去处理别的类的运算
K＝B＋C D＝K×A
相关：１次功能切换：１次
对处理机结构的要求：存储器-存储器型操作的运算流水线对存储器的带宽要求很高。N! 例如：STAR-100，CYBER-205
5／46
6／46
4.1 向量处理方式
(3) 分组(纵横)处理方式横向分组纵向处理
把向量分成长度为某个固定值的若干组，组内按纵向方式处理，依次处理各组。各组内：相关：１次向量指令
各组：
功能切换：２次静态多功能流水线
7／46
4.1 向量处理方式
8／46
4.2 向量处理机的结构
每个Vi可放64个元素
决定元素个数
决定元素对个数
9／46
4.2 向量处理机的结构
向量处理机的速度评价方法
◆ 标量处理机：通常用每秒执行多少指令
MIPS(Million Instructions Per Second) 来衡量机器的运算速度。
么下面的一组向量指令能分成几个编队？
LV MULTSV LV ADDV V1，Rx V2，R0，V1 V3，Ry V4，V2，V3
SV
Ry，V4
32／46
4.4 向量处理机的性能评价
解：第一编队：LV 第二编队：MULTSV； LV 第三编队：ADDV 第四编队：SV

一个编队内所有向量指令执行完毕所需要的时间为：以第二编队举例
指令的处理。
12／46
4.3 提高向量处理机性能的常用技术
Vi冲突：指的是并行工作的各向量指令的源向量或结果向量的Vi有相同的。向量功能部件冲突：指同一个向量功能部件被一条以上的并行工作向量指令所使用。 3. CRAY-1向量指令类型
◆ Vk ← Vi op Vj
◆ Vk ← Si op Vj
S2←1.0
VL←N
；将常数1.0送入标量寄存器S2
；在向量长度寄存器VL中设置向量长度N
23／46
4.3 提高向量处理机性能的常用技术
V0←B V1←S1*V0
；从存储器中将向量B读入向量寄存器V0 ；向量B中的每个元素分别和常数S1 相乘
V2←S2+V1
A←V2
；向量V1中的每个元素分别和常数
V 0 ～ V7
每个向量运算部件
◆ 向量长度寄存器VL ◆ 向量屏蔽寄存器VM
每个Vi块是具有64个元素的向量, 共有8个块! 即8个向量，每个向量64个元素，每个元素字长为64 bit. CRAY-1向量处理的显著特点：只要不出现Vi 冲突和向量功能部件冲突，各个Vi之间和各个向量功能部件之间都能并行工作，大大加快了向量
29／46
4.4 向量处理机的性能评价

s：向量处理单元流水线建立所需的时
钟周期数；

e：向量流水线流过(通过)所需的时钟周期数；
Tclk：时钟周期时间。
◆ 可以再改写为：
Tvp = （Tstart + n）Tclk
Tstart ：向量功能部件启动所需的时钟
周期数；

n：向量元素个数。
30／46
Tn = n MVL
× (Tloop
+ Tstart + m ×MVL ) n MVL
× MVL)
+ [ Tloop + Tstart + m ×(n =
]
n MVL
× (Tloop
+ Tstart ) + mn
MVL：向量处理机的向量寄存器长度。
35／46
4.4 向量处理机的性能评价
例4.10 在某向量处理机上执行DAXPY的向量指令序列，也即计算双精度浮点向量表达式Y=a×X+Y。其中X和是Y双精度浮点向量，最初保存在外部存储器中，a是一个双精度浮点常数，已存放在浮点寄存器F0中。计算该表达式的向量指令序列如下： LV MULTFV V1，Rx V2，F0，V1
4.3 提高向量处理机性能的常用技术
1. CRAY-1简介
◆ 美国CRAY公司 ◆ 1976年
◆ 每秒亿次浮点运算
◆ 主频：80MHz
字长：64位
2. CRAY-1的基本结构
◆ 向量运算部件：６个流水部件
整数加，逻辑运算，移位浮点加，浮点乘，求倒数
11／46
4.3 提高向量处理机性能的常用技术 ◆ 向量寄存器组：8×64 ◆ 每个 Vi
22／46
4.3 提高向量处理机性能的常用技术
例4.8 设A和B是长度为N的向量，考虑在 Cray-1向量处理器上实现如下的循环操作。 DO 10 I = 1，N 10 A(I) = 5.0 * B(I) + 1.0 ◆ 当N ≤64时，可以用如下指令序列实现上述循环操作：
S1←5.0 ；将常数5.0送入标量寄存器S1

经过编队后的向量指令序列总的执行时间为： m为编队数
i Tv = Tci = ( Tstart + n )Tclk i =1 i =1 i = (Tstart + mn)Tclk i =1 m m m
= (Tstart + mn)Tclk
34／46
4.4 向量处理机的性能评价

编队并采用分段开采技术后，向量指令序列执行所需的总的时钟周期数为：

第04章 向量处理机

第04章向量处理机