《计算机系统结构》第六章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分析:
1. 实现链接除了无向量寄存器使用冲突和无功能部件 使用冲突外,还有时间 时间上的要求,只有当前一条指 时间 令的第一个结果分量送入结果向量寄存器的那一个 时钟周期方可链接,若错过该时刻就不能进行链接, 只有当前一条向量指令全部执行完毕,释放向量寄 存器资源后才能执行后面指令。 2. 另外,当一条向量指令的两个源操作数分别是两条 先行指令的结果寄存器时,要求先行的两条指令产 生运算结果的时间必须相等,即要求有关功能部件 的延迟时间相等 延迟时间相等,此外还要求这两条向量指令的向 延迟时间相等 向 量长度必须相等,否则也不能链接。 量长度必须相等
向量流水线技术(P347)——前言 第六章 向量流水线技术(P347) 前言
向量处理机结构目前已成为解决数值计算问题的一种最重 要的高性能结构。 要的高性能结构。 向量处理机的性能价格比是很引人注目的, 向量处理机的性能价格比是很引人注目的,因为与相同价 格的串行处理机相比,它们的向量运算吞吐量要高出1~ 格的串行处理机相比,它们的向量运算吞吐量要高出 ~2 个数量级。但是, 个数量级。但是,这种吞吐量提高只是对特定结构问题而 也就是说,局限于那些可以转化为向量运算的问题。 言,也就是说,局限于那些可以转化为向量运算的问题。 本章任务了解向量处理机特点、一般结构, 本章任务了解向量处理机特点、一般结构, 向量处理机特点 并掌握提高向量处理机性能方法 提高向量处理机性能方法。 并掌握提高向量处理机性能方法。
6.2 典型工作方式 CRAY-1是世界上第一台向量流水处理巨型机。 是世界上第一台向量流水处理巨型机。 是世界上第一台向量流水处理巨型机
(1) CRAY-1技术术语 技术术语 向量寄存器组V0,V1,……,V7。 向量寄存器组 , , , 。 分量计数器 链接方式(P370) 链接方式 启动、输出延迟( 启动、输出延迟(各1拍)。 拍
为实现向量化处理,向量处理机操作部件一般采用流水线结 为实现向量化处理, 下面是典型的向量加法器结构: 构。下面是典型的向量加法器结构:
第一节
向量处理机的结构
(1)设法维持连续数据流(提供连续的 和B)。 )设法维持连续数据流(提供连续的A和 )。 (2)设法降低对存储器压力。 )设法降低对存储器压力。
第一节
向量处理机的结构
(2)寄存器 寄存器结构 )寄存器-寄存器结构
使主存有较高带宽的另一种方法是由一级或多级中间存储 器形成一个层次结构存储器系统, 器形成一个层次结构存储器系统,其中带宽最高的这级存 储器安排在距处理器最近位置。即寄存器一寄存器结构。 储器安排在距处理器最近位置。即寄存器一寄存器结构。 CRAY-1是世界上第一台向量流水处理巨型机 。 是美国 是世界上第一台向量流水处理巨型机。 是世界上第一台向量流水处理巨型机 Cray公司于 公司于1976年提供产品。 运算速度达亿次 / 秒以上 年提供产品。 公司于 年提供产品 运算速度达亿次/ 巨型机。 巨型机。速度这么高的一个原因是它采用了层次结构的存 储器系统。 储器系统。
不使用链接技术的指令组时间( 18行开始 行开始) 6.3.1.2 不使用链接技术的指令组时间(第18行开始) 指令之间不论是存在冲突还是相关关系,都不能编入同一编队。 指令之间不论是存在冲突还是相关关系,都不能编入同一编队。 (编队:几条能在一个时钟内一起开始执行的向量指令称为一个编队) 编队:几条能在一个时钟内一起开始执行的向量指令称为一个编队) 对下列指令组编队,并求出每个编队的开始、 出每个编队的开始 例6.4-6.5 对下列指令组编队,并求出每个编队的开始、获得第一个分量 6.4结果、获得最后一个分量结果的时间(参见P387 6.4, P387表 结果、获得最后一个分量结果的时间(参见P387表6.4,但是与下面推导数 据有出入) 据有出入) V1, LV V1,Rx V2,F0, MULTSV V2,F0,V1 V3, LV V3,Ry V4,V2, ,V2,V3 ADDV V4,V2,V3 Ry,V4 SV Ry,V4 编队:由于指令1 编队:由于指令1与2之间关于V1相关、指令3与4之间关于V3相关、指令4与5 之间关于V1相关、指令3 V1相关 之间关于V3相关、指令4 V3相关 之间关于V4相关,所以它们必须分在不同的编队。 V4相关 之间关于V4相关,所以它们必须分在不同的编队。结果如下 编队1 指令1 编队1:指令1 编队2 指令2 指令3 编队2:指令2、指令3 编队3 指令4 编队3:指令4 编队4 指令5 编队4:指令5
(2) 链接技术(369) 链接技术( ) 前一条指令结果不必送回存储器直接作为后一条指令的操作数, 前一条指令结果不必送回存储器直接作为后一条指令的操作数,甚至可在前 一条指令完成之前就使用其结果。 一条指令完成之前就使用其结果。 D=A*(B+C)向量长度<=64, ( + )向量长度< , B和C已取至 和 V1, 已取至V0和 , 和 已取至 V3←A V2 ←V0+V1 + V4 ←V2*V3 第一、二条指令既无寄存器冲 第一、 突,也无功能部件冲突,可并 也无功能部件冲突, 行执行。 行执行。 第三条与第一、 第三条与第一、二条指令均存在 先写后读的相关冲突, 先写后读的相关冲突,可将第 三条与第一、二条指令链接。 三条与第一、二条指令链接。
(3) 冲突及其分类 指令运算符号相同; 功能部件冲突 ── 指令运算符号相同; Vi变量冲突 ── 指令中使用的 变量相同,具体有 种形式, 指令中使用的Vi变量相同 具体有3种形式 变量相同, 种形式, 变量冲突 即左同名、右同名、上右下左同名。 即左同名、右同名、上右下左同名。 冲突: 冲突:① A=B+C ② A=B+C ③ A=B+C A=D*E D=B*E B=D*E 相关: 相关: ④ A=B+C D=A*E (4) CRAY-1分析指令的 条策略 分析指令的3条策略 分析指令的 无相关, 同时启动; 无相关,无冲突 ── 同时启动; 有相关, 链接启动; 有相关,无冲突 ── 链接启动; 顺序执行; 有冲突 ── 顺序执行; (链接:前条指令结果不必送回存储器直接作为后条指令操作数,甚至可在 链接:前条指令结果不必送回存储器直接作为后条指令操作数,
简化的Cray-l的框图:主存与流水结构运算器间有一级或两级中间 的框图: 简化的 的框图 存储器。 存储器。 中间存储器与CACHE比特点:不透明;访问快;支持新数据结构 比特点: 中间存储器与 比特点 不透明;访问快;
第一节
向量处理机的结构
(3)两种结构的简单比较: )两种结构的简单比较:
第一种结构是依靠主存来保证流水线所需的操作数。 第一种结构是依靠主存来保证流水线所需的操作数。因此 主存必须具有至少和运算器所要求带宽一样高的带宽。 主存必须具有至少和运算器所要求带宽一样高的带宽。这 就要求主存或者存取速度足够快, 就要求主存或者存取速度足够快,或者分为多个独立的存 储模块,或者两者都具备, 储模块,或者两者都具备,因为运算器要求的最大带宽非 常高。 常高。 第二种结构是通过容量比主存小得多的中间存储器即寄存 器来保证很高的带宽。这样, 器来保证很高的带宽。这样,低速存取主存就不会妨碍流 水结构运算器连续运行。 水结构运算器连续运行。第二种结构的另一好处是流水结 构运算器可以重叠进行,因为高速寄存器带宽足以满足几 构运算器可以重叠进行,因为高速寄存器带宽足以满足几 个流水结构运算部件的带宽要求。 个流水结构运算部件的带宽要求。
第一节
向量处理机的结构
假设一个存储周期占两个处理机周期。 假设一个存储周期占两个处理机周期。 下图是计算C=A+B最理想方法。 最理想方法。 下图是计算 + 最理想方法
第一节
向量处理机的结构
典型系统: CDC的STAR-100,1973年完成。 年完成。 典型系统: 的 , 年完成 主要技术参数: 主频: 万字, 主要技术参数: 主频:40ns;字长:64位;主存容量:100万字,磁芯存储 ;字长: 位 主存容量: 万字 微妙, 个字, 器,32体,存储周ቤተ መጻሕፍቲ ባይዱ为 体 存储周期为1.28微妙,每个体的数据宽度为 个字, 微妙 每个体的数据宽度为8个字 STAR-100存储系统的频带宽度为: 存储系统的频带宽度为: 微妙=2*字/秒 存储系统的频带宽度为 (32*8)/1.28微妙 ) 微妙 字秒
第六章
向量流水线技术---向量流水线技术----向量处理机的结构 ----
6.1 特点 多数为巨型机,绝大多数向量处理机都采用流水线结构。 多数为巨型机,绝大多数向量处理机都采用流水线结构。当 一条流水线不能达到所要求性能时,设计者往往采用多条单功 一条流水线不能达到所要求性能时,设计者往往采用多条单功 能流水线。 能流水线。
前条指令完成之前就使用其结果) 前条指令完成之前就使用其结果)
(5)计算向量程序执行时间工具 ── 多流水线时空图(结合P391题 计算向量程序执行时间工具 多流水线时空图(结合P391题 P391 6.6实例学习 6.6实例学习 )
向量处理机的性能评价(P386) 6.3 向量处理机的性能评价(P386) 一共有4个性能指标:Tvp、 一共有4个性能指标:Tvp、R∞、n1/2、nv。 向量指令处理时间Tvp 6.3.1 向量指令处理时间Tvp 单条向量指令执行时间( 行开始) 6.3.1.1 单条向量指令执行时间(第9行开始) Tvp = Ts + Tvf + ( n - 1 ) Tc 其中: 其中: Tvp —— 一条向量指令执行总时间 Ts —— 配套标量指令的折算时间
向量处理机设计中要解决两个问题: 向量处理机设计中要解决两个问题:
向量处理机一般采取以下技术措施: 向量处理机一般采取以下技术措施:
1)用多独立存储器模块达到需要带宽。 (1)用多独立存储器模块达到需要带宽。例STAR100,32体。 , 体 向量寄存器。 (2)增设高速中间存储器 向量寄存器。 )增设高速中间存储器——向量寄存器
流水线流过时间, Tvf —— 流水线流过时间,即计算第一个分量所需时间 n Tc —— 向量中包含的分量数 向量中包含的分量数 —— 流水线“瓶颈”段时间, Tc = max{Δti} 流水线“瓶颈” 时间, max{Δti}
(注:该公式仅比标量流水线时间公式Tk = ( k + n - 1 ) 该公式仅比标量流水线时间公式Tk max{Δti}多了一项“辅助标量指令折算时间”Ts而已 参见P286 {Δti}多了一项 而已, P286公 max{Δti}多了一项“辅助标量指令折算时间”Ts而已,参见P286公 式5.22 )
根据采用技术措施不同, 根据采用技术措施不同,向量处理机分为两种不 同结构: 同结构:
(1)存储器 存储器结构 )存储器——存储器结构 (2)寄存器 寄存器结构 )寄存器——寄存器结构
第一节
向量处理机的结构
(1)存储器 )存储器——存储器结构 存储器结构
主存储器由多个存储器模块构成。 主存储器由多个存储器模块构成。流水线运算器与主存储器系 统间有三条相互独立的数据通路,各数据通路可同时工作。 统间有三条相互独立的数据通路,各数据通路可同时工作。
由于同步的要求, 由于同步的要求,数据进入和流出每个 功能部件,包括访存都需要1拍时间 拍时间。 功能部件,包括访存都需要 拍时间。
假设向量长度为N, 假设向量长度为 , 若采用链接技术,则执行时间为: 若采用链接技术,则执行时间为: )+(1+ + )+( )+(N- ) (1+ 6+1)+( +7+ 1)+( -l) + + )+( = N+16拍 + 拍 若这三条指令全部用串行方法,则执行时间为: 若这三条指令全部用串行方法,则执行时间为: [ (1+6+1)+N-1]+[(1+6十1)+N-1]+[(1+7+1)+N-1] + + + - + + 十 + - + + + + - = 3N+ 22拍 + 拍 若前两条指令并行执行,第三条指令串行执行,则执行时间为: 若前两条指令并行执行,第三条指令串行执行,则执行时间为: [(1+ 6+1)+ N-1]+[( 1+7+ l)+ N-1] [( + + )+ - +[( + + )+ - = 2N+ 15拍 + 拍
相关文档
最新文档