高级计算机系统结构期末考试复习总结
计算机体系结构期末考试知识点与答案
计算机体系结构期末考试知识点与答案体系结构复习重点.doc1.冯.诺依蔓计算机的特点答:冯·若依曼计算机的主要特点如下:存储程序方式。
指令和数据都是以字的方式存放在同一个存储器中,没有区别,由机器状态来确定从存储器读出的字是指令或数据。
指令串行执行,并由控制器集中加以控制、单元定长的一维线性空间的存储器使用低级机器语言,数据以二进制形式表示。
单处理机结构,以运算器作为中心。
其实,他最大的特点就是简单易操作。
2. T(C)=<K*K',D*D',W*W'>所描述的三个层次(8页)答:3个层次为控制器、算术逻辑部件、基本逻辑部件3. 计算机系统结构的分类(5页)4. 计算机系统中的数据表示(38页)5. 指令系统设计的原则答:指令系统的设计原则是,应特别注意如何支持编译系统能高效、简易地将源程序翻译成目标代码。
首先是正交性:又称分离原则或互不相干原则。
即指令中各个有不同含义的字段之间,在编码时应互相独立、互不相关。
规整性:对相似的操作数做出相同的规定。
可扩充性:要保留一定余量的操作码空间,为以后的扩展所用。
对称性:为了使编译能更加方便,通常希望操作具有对称性。
6. 流水操作中的相关答:流水操作过程中会出现一下的3个相关:资源或结构相关、数据相关、和控制相关。
资源相关是指当有多条指令进入流水线后在同一机器周期内争用同一功能部件所发生的冲突。
数据相关:这是由于流水线中的各条指令的重叠操作使得原来对操作数的访问顺序发生了变化,从而导致了数据相关的冲突。
控制相关主要是转移指令引起的,比起数据相关来,他会使流水线丧失更多的性能。
7. 向量机中对向量的各种运算可以采用的加工方式(149页)答:向量机中对向量的各种运算可以采用不同的加工方式,但比较有效的加工方式应是尽量避免出现数据相关和尽量减少对向量功能的转换。
一种普通加工方式称为横向加工,它是按向量顺序计算的。
另外一种加工方式称为垂直加工,即它是先纵向加工所有B和C向量中元素对的相加操作。
计算机系统结构考点总结
计算机系统结构考点总结计算机系统结构是计算机科学与技术领域的重要分支,涉及计算机硬件和软件的组成及其相互关系。
为了帮助大家更好地掌握这一领域的核心知识,本文将针对计算机系统结构的考点进行详细总结。
一、计算机系统结构基本概念1.计算机系统结构的定义及发展历程2.计算机系统结构的分类:冯·诺伊曼结构、哈佛结构、堆栈式结构等3.计算机系统性能指标:指令周期、CPU时钟周期、主频、缓存命中率等二、中央处理器(CPU)1.CPU的组成:算术逻辑单元(ALU)、控制单元(CU)、寄存器组等2.指令集架构:复杂指令集计算机(CISC)、精简指令集计算机(RISC)3.CPU缓存:一级缓存、二级缓存、三级缓存及其工作原理4.多核处理器:核数、并行计算、线程级并行等三、存储系统1.存储器层次结构:寄存器、缓存、主存储器、辅助存储器等2.主存储器:DRAM、SRAM、ROM等3.磁盘存储器:硬盘、固态硬盘、光盘等4.存储器管理:分页、分段、虚拟存储器等四、输入输出系统1.I/O接口:并行接口、串行接口、USB、PCI等2.I/O设备:键盘、鼠标、显示器、打印机等3.I/O控制方式:程序控制、中断、直接内存访问(DMA)等4.I/O调度策略:先来先服务(FCFS)、最短作业优先(SJF)、扫描算法等五、总线与通信1.总线分类:内部总线、系统总线、I/O总线等2.总线标准:ISA、PCI、PCI Express等3.通信协议:TCP/IP、UDP、串行通信等4.网络拓扑结构:星型、总线型、环型、网状等六、并行计算与分布式系统1.并行计算:向量机、SIMD、MIMD等2.分布式系统:分布式计算、分布式存储、负载均衡等3.并行与分布式编程:OpenMP、MPI、MapReduce等4.并行与分布式算法:排序、搜索、分布式锁等通过以上考点的总结,相信大家对计算机系统结构有了更加全面和深入的了解。
计算机系统结构复习总结
计算机系统结构复习总结计算机系统结构复习总结一、计算机系统结构概念1.1 计算机系统结构:程序员所看到的计算机的基本属性,即概念性结构与功能特性。
*注意:对不同层次上的程序员来说,由于使用的程序设计语言不同,可能看到的概念性结构和功能特性会有所不同。
1.2 计算机系统的层次结构现代计算机是一种包括机器硬件、指令系统、系统软件、应用程序和用户接口的集成系统。
现代计算机结构图*注意:计算机结构的层次模型依据计算机语言广义的理解,可将计算机系统看成由多级“虚拟”计算机所组成。
从语言层次上画分可得下图:计算机结构的层次模型1.3计算机系统结构组成与实现计算机系统结构:是计算机系统的软件与硬件直接的界面计算机组成:是指计算机系统结构的逻辑实现计算机实现:是指计算机组成的物理实现*计算机系统结构、组成与实现三者间的关系:计算机系统结构不同会影响到可用的计算机组成技术不同,而不同的计算机组成又会反过来影响到系统结构的设计。
因此,计算机系统结构的设计必须结合应用来考虑,要为软件和算法的实现提供更多更好的硬件支持,同时要考虑可能采用和准备采用哪些计算机组成技术,不能过多或不合理地限制各种计算机组成、实现技术的采用与发展。
计算机组成与计算机实现可以折衷,它主要取决于器件的来源、厂家的技术特长和性能价格比能否优化。
应当在当时的器件技术条件下,使价格不增或只增很少的情况下尽可能提高系统的性能。
1.4 计算机系统结构的分类计算机结构分类方式主要有三种:(1)按“流”分类按“流”分类法是Flynn教授在1966年提出的一种分类方法,它是按照计算机中指令流(Instruction Stream)和数据流(Data Stream)的多倍性进行分类。
指令流是指机器执行的指令序列,数据流是指指令流调用的数据序列。
多倍性是指在计算机中最受限制(瓶颈最严重)的部件上,在同一时间单位中,最多可并行执行的指令条数或处理的数据个数。
*注意:按“流”分类法,即Flynn分类法的逻辑结构类型:①SISD计算机②SIMD计算机③MISD计算机④MIMD计算机(2)按“并行性”和“流水线”分类(3)按计算机系统结构的最大并行度进行分类1.5计算机系统的设计与实现随着大规模集成电路技术的发展和软件硬化的趋势,计算机系统软、硬件间界限已经变得模糊了。
计算机系统结构期末复习
计算机系统机构知识点总结1.名词解释1)翻译:翻译是先用转换程序将高一级机器级上的程序整个地变换成低一级机器级上可运行的等效程序,然后再在低一级机器上实现的技术。
2)解释:解释是在低一级机器级上用它的一串语句或指令来仿真高一级机器级上的一条语句或指令的功能,通过对高一级程序中的每条语句或指令逐条解释来实现的技术。
3)CPI:表示执行每条指令所需要的平均时钟周期数。
4)MIPS:是一个用来描述计算机性能的单位,即每秒执行百万条指令。
5)MFLOPS:是一个用来描述计算机性能的单位,即每秒执行百万次浮点操作。
6)基准程序:是性能测试程序,并假设他能刻画某一类应用问题的处理和数据移动特征。
基准程序用来测量和预测计算机系统的性能,并能提示它们的体系结构的弱点和特点。
7)基准程序组:是一套基准程序的控制测试条件及过程的一组特点规则,包括输入数据,输出结果以及性能指标。
8)基准程序系列:是一套基准程序组。
9)CISC:复杂指令系统计算机。
10)RISC:精简指令系统计算机。
11)加载/存储结构:即只允许LOAD指令和STORE指令执行存储器操作,其他指令均对寄存器进行操作。
12)窗口重叠技术:为了能更简单、直接的实现过程与过程之间的参数传递。
大多数RISC 机器的CPU中都设置有数量较大的寄存器组,让每个过程使用一个有限数量的寄存器窗口,并让调用过程的低位寄存器与被调用的高位寄存器重叠使用。
13)延迟转移技术:将转移指令与其前面的与转移指令无关的一条或几条指令对换位置,让成功转移总是在紧跟的指令被执行之后发生,从而使预取的指令不作废,同时可节省一个或几个机器周期。
14)退耦CISC/RISC体系结构:在CPU芯片中有一个前端部分,它将x86代码转换成RISC类指令供后端的RISC核心去完成超标量和/或超流水线执行。
15)后RISC:商品化微处理器中存在的一种逆向发展趋势是将越来越多的性能加到RISC微处理器中,某加入的特性仍属于RISC类型,但也有许多加入的特性明显的是非RISC或甚至是属于CISC类型的。
计算机系统结构期末复习
第一章计算机系统结构定义计算机=软件+硬件(+网络)两种定义:定义1:Amdahl于1964年在推出IBM360系列计算机时提出:程序员所看到的计算机系统的属性,即概念性结构和功能特性定义2:计算机系统结构主要研究软硬件功能分配和对软硬件界面的确定计算机系统的多级层次模型第6级专用应用语言机器特定应用用户(使用特定应用语言)(经应用程序翻译成高级语言)第5级通用高级语言机器高级语言程序员(使用通用高级语言)(经编译程序翻译成汇编语言)第4级汇编语言机器汇编语言程序员(使用汇编语言)(经汇编程序翻译成机器语言、操作系统原语)第3级操作系统语言机器操作系统用户(使用操作系统原语)(经原语解释子程序翻译成机器语言)第2级传统机器语言机器传统机器程序员(使用二进制机器语言)(由微程序解释成微指令序列)第1级微指令语言机器微指令程序员(使用微指令语言)(由硬件译码器解释成控制信号序列)第0级硬联逻辑硬件设计员第0级由硬件实现,第1级由微程序实现,第2级至第6级由软件实现,由软件实现的机器称为:虚拟机从学科领域来划分:第0和第1级属于计算机组织与结构,第3至第5级是系统软件,第6级是应用软件。
它们之间仍有交叉。
第0级要求一定的数字逻辑基础;第2级涉及汇编语言程序设计的内容;第3级与计算机系统结构密切相关。
在特殊的计算机系统中,有些级别可能不存在。
计算机组成:是计算机系统结构的逻辑实现确定数据通路的宽度•确定各种操作对功能部件的共享程度•确定专用的功能部件•确定功能部件的并行度•设计缓冲和排队策略•设计控制机构•确定采用何种可靠性技术计算机实现:是指计算机组成的物理实现处理机、主存储器等部件的物理结构•器件的集成度和速度•专用器件的设计•器件、模块、插件、底版的划分与连接•信号传输技术•电源、冷却及装配技术,相关制造工艺及技术等计算机系统结构、计算机组成和计算机实现是三个不同的概念。
系统结构是计算机系统的软硬件的界面;计算机组成是计算机系统结构的逻辑实现;计算机实现是计算机组成的物理实现。
计算机系统结构知识点复习考点归纳总结
计算机系统结构知识点复习考点归纳总结令)控制计算机硬件的层次,汇编语言机器级则是用(助记符)来控制计算机硬件的层次。
22、缓存技术是为了(解决处理器与主存速度不匹配的问题)而引入的。
23、DMA访问是指(直接内存访问)技术,可以减少CPU的负担,提高数据传输效率。
24、在多处理机系统中,(任务)级并行性是指多个任务同时执行,(数据)级并行性是指一个任务中的多个数据同时执行。
25、计算机系统中的(指令流水线)技术可以提高CPU 的运行效率,将多个指令的执行过程重叠起来,从而减少CPU的空闲时间。
26、计算机系统中的(虚拟存储器)技术可以将主存和辅存结合起来,使得程序能够访问比主存更大的地址空间,从而提高系统的性能。
27、计算机系统中的(分布式系统)是指将多个计算机连接起来,共同完成一个任务,可以提高系统的可靠性和性能。
28、计算机系统中的(并行计算)技术可以将一个大问题分解成多个小问题,同时在多个处理器上进行计算,从而提高计算速度和效率。
29、计算机系统中的(云计算)是指将计算资源和服务通过网络提供给用户,可以实现资源的共享和高效利用。
4096字节之间)当程序需要访问某一页时。
操作系统会将该页从磁盘上读入主存,然后再进行访问。
这种方式可以提高存储器的利用率,但也会增加访问时间和开销。
并行性是指在同一时间段内完成多项任务的能力。
它可以分为最低耦合、松散耦合和紧密耦合三种类型,取决于物理连接的紧密度和交叉作用能力的强弱。
开发并行性的途径有时间重叠、资源重复和资源共享。
并行性的开发需要综合考虑硬件、软件、语言、算法和性能评价等因素。
资源重复是指通过重复设置硬件资源来提高可靠性或性能。
最典型的例子是双工系统。
资源重复不仅可以提高可靠性,而且可以进一步用多计算机或机群系统来提高系统的速度性能。
并行处理技术的研究需要综合考虑硬件、软件、语言、算法和性能评价等因素。
沿时间重叠技术途径发展的异构型多处理机系统的典型结构代表是流水线处理机。
高级计算机体系结构总结
1.摩尔定律内容及其对现代计算机的影响?答:摩尔定律是由英特尔名誉董事长戈登摩尔经过长期观察指出的。
主要内容是集成电路芯片上所集成的晶体管数将每隔18个月翻一番,微处理器的性能将提高一倍,价格下降一半。
影响:(1)归纳了信息技术进步的速度,比如半导体芯片的发展;(2)带动了芯片产业自热化得竞争,是公司发展的驱动力;(3)指导着高科技产业中设计者们的工作,让生产找到了提高产品性能的途径。
摩尔定律实际上是关于人类信念的定律,当人们相信某件事情一定能做到时就会努力去实现它。
2.Pipling指令集流水线段各是什么?答:一条指令流水线由五段组成:(1)取指令(IF):发送程序计数器PC到内存,取出当前指令,更新PC;(2)指令译码(ID):判断指令类型,从寄存器取操作数(3)计算有效地址或者执行(EX):计算内存操作数的有效地址,分支跳转的有效地址,执行(4)访存取数(MEM):用有效地址去访存取数或存数,用分支跳转有效地址更新PC(5)写回(结果写回寄存器WB)3.什么原因导致流水线停止,怎样解决?答:要使流水线具有良好的性能,必须使流水线畅通流动,不发生断流,但由于流水过程中发生以下三种相关冲突而停止:结构相关,数据相关,控制相关。
结构相关:当数据和指令放在同一个存储器且只有一个访问口时,便发生两条指令争用存储器资源的相关冲突,解决办法:一是指令停顿一排再启动,插入一个气泡,二是增设一个存储器,将指令和数据分别放在两个存储器中。
数据相关:在一个程序中,如果必须等前一条指令执行完毕后,才能执行后一条指令,那么这两条指令就是数据相关的,解决办法:一是插入气泡,二是流水CPU的运算器中特意设置若干运算结果缓冲寄存器,暂时保留运算结果,以便于后继指令直接使用;三是推迟后继指令的执行,直到前面的指令的结果产生为止,这样大大影响流水线的吞吐率。
控制相关:是由转移指令引起的,当执行转移指令时,依据转移条件产生的结果,可能为顺序取下一条指令,也可能转移到新的目标地址取指令,从而使流水线发生断流,为减少转移指令对流水线性能的影响,可采用延迟转移法和转移预测法。
计算机体系结构期末考试知识点与答案复习过程
计算机体系结构期末考试知识点与答案体系结构复习重点.doc1.冯.诺依蔓计算机的特点答:冯·若依曼计算机的主要特点如下:存储程序方式。
指令和数据都是以字的方式存放在同一个存储器中,没有区别,由机器状态来确定从存储器读出的字是指令或数据。
指令串行执行,并由控制器集中加以控制、单元定长的一维线性空间的存储器使用低级机器语言,数据以二进制形式表示。
单处理机结构,以运算器作为中心。
其实,他最大的特点就是简单易操作。
2. T(C)=<K*K',D*D',W*W'>所描述的三个层次(8页)答:3个层次为控制器、算术逻辑部件、基本逻辑部件3. 计算机系统结构的分类(5页)4. 计算机系统中的数据表示(38页)5. 指令系统设计的原则答:指令系统的设计原则是,应特别注意如何支持编译系统能高效、简易地将源程序翻译成目标代码。
首先是正交性:又称分离原则或互不相干原则。
即指令中各个有不同含义的字段之间,在编码时应互相独立、互不相关。
规整性:对相似的操作数做出相同的规定。
可扩充性:要保留一定余量的操作码空间,为以后的扩展所用。
对称性:为了使编译能更加方便,通常希望操作具有对称性。
6. 流水操作中的相关答:流水操作过程中会出现一下的3个相关:资源或结构相关、数据相关、和控制相关。
资源相关是指当有多条指令进入流水线后在同一机器周期内争用同一功能部件所发生的冲突。
数据相关:这是由于流水线中的各条指令的重叠操作使得原来对操作数的访问顺序发生了变化,从而导致了数据相关的冲突。
控制相关主要是转移指令引起的,比起数据相关来,他会使流水线丧失更多的性能。
7. 向量机中对向量的各种运算可以采用的加工方式(149页)答:向量机中对向量的各种运算可以采用不同的加工方式,但比较有效的加工方式应是尽量避免出现数据相关和尽量减少对向量功能的转换。
一种普通加工方式称为横向加工,它是按向量顺序计算的。
另外一种加工方式称为垂直加工,即它是先纵向加工所有B和C向量中元素对的相加操作。
计算机体系结构_期末考试重点复习
一、名词解释1.透明性2.系列机3.软件兼容4.指令级并行5.定向技术6.VLIW7.Superscalar8.虚拟Cache9.Victim Cache10.Cache 2:1 经验规则11.强制性失效12.冲突失效13.RIAD14.通道15.机群16.延迟分支17.前瞻执行18.伪相联二、填空1.决定CPU性能的因素是CPI﹑IC和f。
2.软件兼容的根本特征是向后兼容。
3.根据操作数存储地址的不同。
把指令集分成堆栈型指令集、累加器型指令集和通用寄存器型指令集。
4.在各种寻址方式中使用频率最高的是立即寻址和偏移寻址。
5.通常可按在CPU中操作数的存储方法、指令中显式表示的操作数个数、操作数的寻址方式、指令集所提供的操作类型、操作数的类型和大小这5个因素对计算机指令集结构进行分类。
6.MIPS中寄存器包括:32个通用寄存器、32个浮点寄存器、一些特别的寄存器。
7.先行控制器处理机结构:包括三个独立的控制器和四个缓冲栈。
其中三个控制器为:存储控制器、指令分析部件、运算控制器。
四个缓冲栈:先行指令缓冲站、先行读数站、先行操作站和后行写数站。
8.计算机系统中提高并行性的技术途径有时间重叠、资源重复和资源共享三种。
9.衡量流水线性能的参数有吞吐率、效率和加速比三种。
10.流水冲突有三种,分别是:结构冲突、数据冲突和控制冲突。
11.通道分为字节多路通道、选择通道和数组多路通道三种。
12.输入/输出系统包括I/O设备和I/O设备与处理机的连接。
13.按照流水线所完成的功能来分,流水线可分为单功能流水线和多功能流水线。
14.在经典5段流水线中,一条指令的执行需要5个时钟周期,,它们分别是:取指令周期(IF)、指令译码/读寄存器周期(ID)、执行/有效地址计算周期(EX)、存储器/分支完成周期(MEM)、写回周期(WB)。
15.解决流水线结构冲突的方法有:流水化功能单元、资源重复、暂停流水线。
16.从编译技术的角度,降低流水线分支损失的方法有:预测分支失败、预测分支成功、延迟分支。
计算机体系结构期末考试知识点与答案
体系结构复习重点、doc1、冯、诺依蔓计算机得特点答:冯·若依曼计算机得主要特点如下:存储程序方式。
指令与数据都就是以字得方式存放在同一个存储器中,没有区别,由机器状态来确定从存储器读出得字就是指令或数据。
指令串行执行,并由控制器集中加以控制、单元定长得一维线性空间得存储器使用低级机器语言,数据以二进制形式表示。
单处理机结构,以运算器作为中心。
其实,她最大得特点就就是简单易操作。
2、 T(C)=<K*K',D*D',W*W'>所描述得三个层次(8页)答:3个层次为控制器、算术逻辑部件、基本逻辑部件3、计算机系统结构得分类(5页)4、计算机系统中得数据表示(38页)5、指令系统设计得原则答:指令系统得设计原则就是,应特别注意如何支持编译系统能高效、简易地将源程序翻译成目标代码。
首先就是正交性:又称分离原则或互不相干原则。
即指令中各个有不同含义得字段之间,在编码时应互相独立、互不相关。
规整性:对相似得操作数做出相同得规定。
可扩充性:要保留一定余量得操作码空间,为以后得扩展所用。
对称性:为了使编译能更加方便,通常希望操作具有对称性。
6、流水操作中得相关答:流水操作过程中会出现一下得3个相关:资源或结构相关、数据相关、与控制相关。
资源相关就是指当有多条指令进入流水线后在同一机器周期内争用同一功能部件所发生得冲突。
数据相关:这就是由于流水线中得各条指令得重叠操作使得原来对操作数得访问顺序发生了变化,从而导致了数据相关得冲突。
控制相关主要就是转移指令引起得,比起数据相关来,她会使流水线丧失更多得性能。
7、向量机中对向量得各种运算可以采用得加工方式(149页)答:向量机中对向量得各种运算可以采用不同得加工方式,但比较有效得加工方式应就是尽量避免出现数据相关与尽量减少对向量功能得转换。
一种普通加工方式称为横向加工,它就是按向量顺序计算得。
另外一种加工方式称为垂直加工,即它就是先纵向加工所有B与C向量中元素对得相加操作。
计算机系统结构期末知识点总结(DOC)五篇
计算机系统结构期末知识点总结(DOC)五篇第一篇:计算机系统结构期末知识点总结(DOC)单元1 1.系统结构:由程序员设计者所看到的一个计算机系统的属性,及概念性结构和功能特性。
2.层次结构:第0级和第1级具体实现机器指定功能的中央控制部分;第二级是传统机器语言机器;第三级是操作系统机器;第四级是汇编语言机器;第五级是高级语言机器;第六级是应用语言机器;电子线路--微程序机器级--传统机器级--操作系统级---汇编语言级--高级语言级--应用语言级 4.Amdahl定律:系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的使用频率或占用总执行时间的比例有关。
5.9.CPU时间:一个程序所花的CPU时间(CPU的执行时间,不包括I/O等待时间)。
CPU时间=CPU时钟周期数*时钟周期长度=CPU时钟周期数/频率 CPU时间=(CPI×IC(指令条数))/ 频率时钟周期:由于计算机的时钟速度是固定的,它的运行周期称为时钟周期。
10.CPI(Cycle Per instruction):每条指令执行时所花费的平均时钟周期数。
IC:每个时钟周期平均执行的指令条数CPI = CPU时钟周期数 / IC 则 CPU时间=(CPI×IC)/ 频率11.Te:一个标准测速程序的全部执行时间Ti:其中所有第i种指令的累计时间13.MIPS(每秒百万条指令数):衡量机器性能的唯一可靠的标准就是真正的执行程序的时间,可以用MIPS来作为衡量程序执行时间的一个指标。
优点:直观、方便。
主要缺点:(1)不同指令的执行速度差别很大(2)指令使用频度差别很大(3)有相当多的非功能性指令单元2 2.数据表示是指计算机硬件能够直接识别,可以被指令系统直接调用的那些数据类型。
例如:定点、逻辑、浮点、十进制、字符、字符串、堆栈和向量等3.数据表示原则:1)缩短程序的运行时间。
2)减少CPU与主存储器之间的通信量。
计算机系统结构 总复习
∑ 而且设置有足够地缓冲寄存器,若以最快的方式用该流水计算: AiBi i =1
① 画出时空图;(9 分) ② 计算实际的吞吐率、加速比和效率。(6 分) 15. 静态多功能流水线由 6 个功能段组成,如图 E_3 所示。其中,s1、s4、s5、s6 组
成乘法流水线,s1、s2、s3、s6 组成加法流水线,各个功能段时间均为△t,假设 该流水线的输出结果可以直接返回输入端,而且设置有足够地缓冲寄存器,若以 最快的方式用该流水计算:∏(Ai+Bi)(其中 i=1..4,∏为连乘符号) ① 画出时空图;(9 分) ② 计算实际的吞吐率、加速比和效率。(6 分) 16. (20 分)设指令流水线由取指令、分析指令和执行指令 3 个部件构成,每个部件 经过的时间为△t,连续流入 12 条指令。分别画出标量流水处理机以及 ILP 均为 4 的超标量处理机、超长指令字处理机、超流水处理机的时空图,并分别计算它们 相对于标量流水处理机的加速比。 17. (15 分)给定以下的假设,试计算直接映象 Cache 和两路组相联 Cache 的平均访 问时间以及 CPU 时间。 ① 理想 Cache(命中率为 100%)情况下的 CPI 为 2.0,时钟周期为 2ns,平均每条指 令访存 1.2 次。 ② 两种 Cache 容量均为 64KB,块大小都是 32 字节。 ③ 组相联 Cache 中的多路选择器使 CPU 的时钟周期增加了 10%。 ④ 这两种 Cache 的失效开销都是 80 ns。 ⑤ 命中时间为 1 个时钟周期。 ⑥ 64 KB 直接映象 Cache 的失效率为 1.4%,64 KB 两路组相联 Cache 的失效率为 1.0%。
① 画出处理过程的时空图。(9 分) ② 计算其吞吐率、加速比和效率。(6 分) 12. 有一条动态多功能流水线由 5 段组成(如图 E_2 所示),加法用 1、3、4、5 段,
计算机系统结构考点总结
计算机系统结构考点总结计算机系统结构是指计算机硬件和软件之间的组织关系,它决定了计算机系统的性能、可靠性和可扩展性。
它是计算机科学中的一个重要领域,涉及到计算机的各个方面,包括中央处理器、存储器、输入输出设备以及各种通信和控制设备。
计算机系统结构的考点主要包括以下几个方面:1.中央处理器(CPU):中央处理器是计算机系统的核心部件,负责执行计算机程序中的指令。
它由控制单元和算术逻辑单元组成,控制单元负责指令的解码和执行,算术逻辑单元负责执行算术运算和逻辑运算。
中央处理器的性能取决于其时钟频率、指令集和缓存结构等因素。
2.存储器:存储器用于存储计算机程序和数据。
计算机系统通常包括主存储器和辅助存储器。
主存储器是CPU直接访问的存储介质,其速度较快但容量较小;辅助存储器用于长期存储数据,容量较大但速度较慢。
存储器的组织和访问方式对计算机系统的性能有重要影响。
3.输入输出设备:输入输出设备用于与外部环境进行信息交换。
常见的输入设备包括键盘、鼠标和扫描仪等,输出设备包括显示器、打印机和音频设备等。
输入输出设备的种类和性能对计算机系统的使用体验和功能扩展能力有重要影响。
4.总线和通信:总线是计算机系统中各个组件之间进行数据传输的通道。
它包括地址总线、数据总线和控制总线等,用于传输指令、数据和控制信号。
通信是计算机系统中各个计算机之间进行数据交换的方式,常见的通信方式包括以太网、无线网络和蓝牙等。
5.操作系统:操作系统是计算机系统的核心软件,负责管理计算机的资源和控制计算机的运行。
它提供了文件管理、进程管理、内存管理和设备管理等功能,为用户提供了友好的接口和良好的使用体验。
6.并行计算和分布式系统:并行计算是指多个处理器同时进行计算,以提高计算速度和处理能力。
分布式系统是指多台计算机通过网络相互连接,共同完成计算任务。
并行计算和分布式系统在科学计算、大数据处理和人工智能等领域具有重要应用。
7.虚拟化和云计算:虚拟化是指将一个物理资源划分为多个逻辑资源,使多个用户可以共享物理资源。
期末复习1.《计算机系统结构》重点知识总结
《计算机组成原理与结构》重要知识点第一章概论一、基本概念1.冯.诺依曼体制?存储程序方式?冯•诺依曼体制包含三个要点:(1)采用二进制代码表示信息,以便计算机识别;(2)采用存储程序工作方式,才能使计算机自动地对信息进行处理;(3)由存储器、运算器、控制器、输入/输出设备等功能部件组成计算机硬件系统。
存储程序工作方式:事先编制程序,事先存储程序,自动、连续地执行程序。
2.控制流?数据流?控制流:控制计算机工作的信息,即指令或命令。
数据流:计算机加工处理的对象,即数值和非数值数据。
传统的诺依曼机采用控制流(指令流)驱动方式:按指令序列依次读取指令,根据指令所包含的控制信息对数据进行处理,在程序执行过程中,始终由指令流驱动计算机工作。
数据流驱动方式是对传统诺依曼机工作方式的根本改变:只要数据准备好,有关指令就可并行执行,如数据流计算机。
3.模拟信号?数字信号?数字信号有哪两种?模拟信号:在时间上连续变化的电信号,用信号的某些参数模拟信息。
数字信号:在时间上或空间上断续变化的电信号,依靠彼此离散的多位信号的组合表示信息。
数字信号有两种:脉冲信号和电平信号。
脉冲信号:在时间上离散的电信号,利用脉冲的有无表示不同的状态。
电平信号:在空间上离散的电信号,利用信号电平的高低表示不同的状态。
4.总线及其组成?一组能为多个部件分时共享的公共的信息传送线路。
总线由一组传送线与相应控制逻辑构成(包括CPU内设置控制逻辑、总线控制器)。
按照传输的信息类型可分为地址总线、数据总线、控制总线。
5.接口的概念?主机与外设之间的连接逻辑,控制外设的I/O操作。
6.基本字长?一般指参加一次定点运算的操作数的位数。
7.CPU主频?时钟频率?外部频率或基频,也叫系统时钟频率。
CPU主频=外频×倍频系数;CPU主频是指CPU内核的工作频率,即CPU的时钟频率,计算机的操作在时钟信号的控制下分步执行,每个时钟信号周期完成一步操作,时钟频率的高低在很大程度上反映了CPU速度的快慢。
高级计算机系统结构期末考试复习总结
第一章量化设计与分析基础1.计算机性能提升表现在哪些方面:半导体技术不断提高,如特征尺寸和时钟频率;计算机体系结构不断改进,如高级语言编译器、标准化的操作系统和指令更为简单的RISC 体系结构。
2.并行分类:1)应用程序的并行分类:数据级并行(DLP):同时操作多数据任务级并行(TLP):创建了一些能够独立处理但大量采用并行方式执行的工作任务2)硬件的体系结构:指令级并行(ILP):在编译器帮助下。
利用流水线的思想开发数据级并行,利用推理执行的思想以中等水平开发数据集并行。
向量体系结构和图像处理单元(GPUs):将单条指令并行应用于一个数据集,来达到数据集并行线程级并行:在紧耦合硬件模型中开发数据集并行或任务及并行,这种模型允许在线程之间进行交互。
请求级并行:在程序员或操作系统制定的大量去耦合任务之间开发并行3.Flynn’s分类是如何分类的?Flynn’s分类主要分为四类:1)单指令流、单数据流(SISD):一条指令处理一个数据,可以利用指令级并行(ILP)2)单指令流、多数据流(SIMD):将大量重复设置的处理单元按一定方式互连成阵列,在单一控制部件CU(Contrul Unit)控制下对各自所分配的不同数据并行执行同一指令规定的操作,主要应用于向量体系结构、多媒体扩展指令和图像处理单元(Graphics processor units) 3)多指令流、单数据流(MISD):用多个指令作用于单个数据流,没有商业实现4)多指令流多数据流(MIMD):每个处理器都提取自己的指令,对自己的数据进行操作,主要用于开发线程级并行TLP(紧耦合MIMD)和请求级并行RLP(松耦合MIMD)4.什么是“真正”的计算机体系结构?1)满足目标和功能需求的组成和硬件;2)限制条件下最大化性能:成本、功耗、可用性;3)包括指令集体系结构(ISA),微体系结构,硬件5.计算题:可靠性的计算平均无故障时间:Mean time to failure (MTTF),MTTF是故障率的倒数。
高级计算机体系结构-课程复习与总结.doc
高级计算机体系结构-课程复习与总结高级计算机体系结构课程复习与总结,课程描述,高级计算机体系结构是研究生的重要学科基础课、学位课。
本课程从计算机体系结构的定义和描述开始,讲述提高计算机系统的性能的策略和技术,以及实现方法。
结合具体计算机体系结构,采用定量分析方法讲述优化计算机系统的原理和技术。
,同学的话,基本知识的学习需要通过读书,计算机体系结构的研究有三条主线:1、并行性2、多处理机系统3、多级存储结构对计算机系统结构如何评测,有哪些方法、定律?定性分析与定量分析的差别在哪里?,课程的目的,真正理解和掌握计算机体系结构性能改进、和优化的原理和方法。
学习对计算机系统分析和评价的方法。
努力达到“学思结合、知行统一、融会贯通”。
,课程主题,,体系结构研究涉及到硬件,逻辑门,单元,模块,IC,电路板,计算机:硬件和软件,体系结构,数字逻辑,计算机原理,操作系统数据结构,场效应管,数字电子技术,计算机系统内部组成,1,2,3,5,4,6,7,,ISA,USB,,PCI,,IDE,,Mem.,,CPU,,,AGP,计算机的划代,多核技术日趋成熟,2008,IBM/AMD,45nm,原生四核,计算机实现技术的发展,外形图,芯片图,从4004的2300个晶体管到今天拥有4亿1000万晶体管的双核微处理器,从12伏特到1.2伏特,20万倍:10倍,技术挑战与体系结构设计,处理器性能与存储系统性能之间存在巨大差距(存储墙:MemoryWall),技术挑战与体系结构设计,处理器的主频与I/O总线时钟频率之间存在巨大差距(I/O 墙:I/Owall),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,500,1000,150 0,2000,2500,3000,3500,386,486-33,486DX2,486DX4,P-100,P-150, P-200,PII-300,PIII-600,PIII-800,PIII-1G,P4-1.5G,P4-2.0G,P4-2.5G,P 4-3.0G,处理器,主频(MHz),,,处理器主频,,I/O总线频率,技术挑战与体系结构设计,交叉融合性能/价格设计,技术挑战与体系结构设计,流水线、相关消解、超标量、重排序、预测、推测、向量、DSP,寻址、保护、例外处理,,磁盘、磁带,相干、带宽、延迟,猝发技术、交叉、总线协议,RAID,VLSI,存储器层次结构,,,流水线和指令级并行,,,L1Cache,InstructionSetArchitecture,,L2Cache,,DRAM,技术挑战与体系结构设计,M,,,互连网络,S,,,,,P,,M,,P,,M,,P,,M,,P,,…,拓扑、路由、带宽、延迟、可靠性,网络接口,共享主存、消息传递、数据并行,处理器-存储器-开关,多处理器、网络和互连,技术挑战与体系结构设计,新型计算模型、理论和计算技术光学计算机超导计算机神经计算机量子计算机分子生物计算机,ISA指令集体系结构,计算机系统结构的论题,计算机系统结构的论题-续,课程之间的关系及任务,计算机的分类,计算机无处不在已经实现三大主流计算机技术的分类和特征,讨论所关注的是,系统结构的改进方法和技术相关编译器的改进方法和技术核心内容:计算机设计量化研究方法的发展所使用的分析方法对程序的经验观察、实验和模拟量化研究方法,CA部件的位置,计算机机系统结构的基本概念,计算机系统的层次结构计算机系统由硬件和软件组成从计算机语言的角度,可以把计算机系统按功能划分成多级层次结构层次模型中的每一级都对应一个机器这里的“机器”只对一定的观察者而存在,系统结构等同于体系结构CA,CA层次描述,微程序机器M0具有L0机器语言(微指令系统),第0级实际机器,传统机器M1具有L1机器语言(机器指令系统),操作系统机器M2具有L2机器语言(作业控制语言等),汇编语言机器M3具有L3机器语言(汇编语言),高级语言机器M4具有L4机器语言(高级语言),应用语言机器M0具有L5机器语言(应用语言),第1级实际机器,第2级虚拟机器,第3级虚拟机器,第4级虚拟机器,第5级虚拟机器,,,,,,微指令由硬件直接执行,由微指令程序解释机器指令,一般用机器语言程序解释作业控制语句,汇编语言程序经汇编程序翻译成机器语言程序,高级语言程序经编译程序翻译成汇编语言(或是某种中间语言程序,或是机器语言程序),应用语言程序经应用程序包翻译成高级语言程序,透明性(Transparency),不同级别的程序员所看到的是计算机系统的不同的属性。
系统结构期末考试小总结--绝对有原题
1.计算机性能的高速增长受益于电路技术的发展体系结构技术的发展2.计算机系统=软件+硬件/固件3.从计算机语言的角度,把计算机系统按功能划分成多级层次结构。
4.应用语言机器高级···汇编···操作系统机器传统机器微程序机器5.虚拟机:由软件实现的机器。
6.语言实现的两种基本技术◆翻译:◆解释:7.计算机系统结构指的是层次结构中传统机器级的系统结构,其界面之上的功能包括操作系统级、汇编语言级、高级语言级和应用语言级中所有软件的功能。
界面之下的功能包括所有硬件和固件的功能。
8.计算机组成(Computer Organization)指的是计算机系统结构的逻辑实现,包括机器级内的数据流和控制流的组成以及逻辑设计等。
9.数据通路宽度(在数据总线上一次并行传送的信息位数多少);10.功能部件的并行度(功能部件的控制和处理方式是采用顺序串行,还是采用重叠、流水或分布处理)11.计算机实现指的是计算机组成的物理实现器件技术在实现技术中起着主导作用。
12.实现费用都应包括研制费用和重复生产费用13.计算机系统性能指标体现在时间和空间两个方面。
程序实际运行时间应该是衡量机器时间(速度)性能最可靠的标准。
14.计算CPU的程序执行时间Tcpu有3个因素:程序执行的总指令条数IC、平均每条指令的时钟周期数CPI、主时钟频率fc15.目前常用的测试程序可以分为五类:(按测试可靠性由高至低的顺序列出)(1) 实际应用程序(2) 修正的(或者脚本化)应用程序(3) 核心测试程序(4) 小测试程序(5) 合成测试程序16.设计计算机系统时,一般应遵循如下定量设计原理:哈夫曼压缩原理(大概率事件优先的原则);Amdahl定律;程序访问的局部性定律17.程序的局部性原理◆程序的时间局部性:◆程序的空间局部性:18.计算机系统“由中间开始”设计的方法中间:多级层次结构中的软、硬件交界面。
高级计算机系统结构部分知识点整理
高级计算机系统结构部分知识点整理高级计算机系统结构是指计算机系统中更高级别的部分,可以包括处理器架构、内存系统、输入输出系统等。
以下是高级计算机系统结构部分的知识点整理:一、处理器架构1. 处理器分类:微处理器、多核处理器、超级处理器等。
2. 处理器主频与性能关系:频率提高时,单指令性能会有所提高,但不会线性增加。
3. 处理器指令集:CISC和RISC指令集。
RISC指令集一般具有固定长度和简单的指令格式,可以提高指令执行速度。
4. 处理器缓存:一级缓存(L1)、二级缓存(L2)、三级缓存(L3)等。
缓存可以提高处理器的效率。
5. 处理器流水线:将指令分为不同的阶段,分别执行,提高处理器的工作效率。
二、内存系统1. 存储器分类:主存(RAM)、辅存(硬盘、闪存、光盘等)。
2. 存储器层次结构:寄存器、缓存、主存、辅存。
3. 存储器访问方式:随机存储、顺序存储、直接存储等。
4. 存储器读写速度:主存比较快,辅存比较慢。
5. 存储器的容量和价格:容量和价格成反比,随着技术不断升级,存储器的容量在不断增加,价格在不断降低。
三、输入输出系统1. 输入输出设备的分类:字符型设备(鼠标、键盘)、块型设备(硬盘、光盘)、串行设备(打印机)。
2. 输入输出接口:串行接口(RS-232)、并行接口(USB、IDE)。
3. 设备驱动程序:用于设备与操作系统之间进行通信。
4. DMA控制器:可以控制数据在设备和内存之间的传输,提高I/O性能。
四、操作系统1. 操作系统的功能:管理计算机的硬件和软件资源,提供系统调用接口,管理进程、内存、文件系统、网络等。
2. 操作系统的类型:单用户单任务系统、单用户多任务系统、多用户多任务系统。
3. 进程管理:包括进程调度、进程通信、进程同步等。
4. 存储器管理:包括虚拟内存、页面置换等。
5. 文件系统管理:包括文件的创建、读取、写入和删除等。
以上是高级计算机系统结构部分的知识点整理,了解这些知识点可以更好地理解计算机的工作原理,从而提高对计算机系统的使用和维护能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章量化设计与分析基础1.计算机性能提升表现在哪些方面:半导体技术不断提高,如特征尺寸和时钟频率;计算机体系结构不断改进,如高级语言编译器、标准化的操作系统和指令更为简单的RISC 体系结构。
2.并行分类:1)应用程序的并行分类:数据级并行(DLP):同时操作多数据任务级并行(TLP):创建了一些能够独立处理但大量采用并行方式执行的工作任务2)硬件的体系结构:指令级并行(ILP):在编译器帮助下。
利用流水线的思想开发数据级并行,利用推理执行的思想以中等水平开发数据集并行。
向量体系结构和图像处理单元(GPUs):将单条指令并行应用于一个数据集,来达到数据集并行线程级并行:在紧耦合硬件模型中开发数据集并行或任务及并行,这种模型允许在线程之间进行交互。
请求级并行:在程序员或操作系统制定的大量去耦合任务之间开发并行3.Flynn’s分类是如何分类的?Flynn’s分类主要分为四类:1)单指令流、单数据流(SISD):一条指令处理一个数据,可以利用指令级并行(ILP)2)单指令流、多数据流(SIMD):将大量重复设置的处理单元按一定方式互连成阵列,在单一控制部件CU(Contrul Unit)控制下对各自所分配的不同数据并行执行同一指令规定的操作,主要应用于向量体系结构、多媒体扩展指令和图像处理单元(Graphics processor units) 3)多指令流、单数据流(MISD):用多个指令作用于单个数据流,没有商业实现4)多指令流多数据流(MIMD):每个处理器都提取自己的指令,对自己的数据进行操作,主要用于开发线程级并行TLP(紧耦合MIMD)和请求级并行RLP(松耦合MIMD)4.什么是“真正”的计算机体系结构?1)满足目标和功能需求的组成和硬件;2)限制条件下最大化性能:成本、功耗、可用性;3)包括指令集体系结构(ISA),微体系结构,硬件5.计算题:可靠性的计算平均无故障时间:Mean time to failure (MTTF),MTTF是故障率的倒数。
平均修复时间:Mean time to repair (MTTR)平均故障间隔时间:Mean time between failures (MTBF) = MTTF + MTTR可用性:Availability = MTTF / MTBF例:设磁盘子系统的组件及MTTF如下:10个磁盘,1000000小时MTTF;1个ATA控制器,500000小时MTTF;1个电源,200000小时MTTF;1个风扇,200000小时MTTF;1根ATA电缆,1000000小时MTTF;采用简化假设,寿命符合指数分布,各故障相互独立,试计算整个系统的MTTF.解答:系统故障率=10*1/1000000+1/500000+1/200000+1/200000+1/1000000=23000FIT(每10亿小时)MTTF=1/故障率=43500小时第二章存储器层次结构设计1.层次化存储寄存器→多级CACHE→内存→磁盘2.命中时间:命中时访问需要的时间,包括判断是否命中的时间;缺失代价:从内存中替代块的时间;3.块放置策略有全相联映射和组相联映射两种策略全相联映射:一个块可以放在CACHE中的任何位置;需要检索CACHE中的所有项:并行比较器组相联映射:每个块有n个位置可放的cache称为n路组相联cache;存储器中的一个块对应到cache中唯一的组,但是可以放在组内的任意位置上4.1)命中方法的两种方式有写直达法和写回法写直达法:保持CACHE和主存的一致;写回法:修改过的块被替换时才写入主存;2)不命中(写缺失)的两种方式有写分配和写不分配写分配:分配CACHE中的块,并写入CACHE;写不分配:不分配,直接写主存。
5.缺失率是什么?导致缺失的原因是什么?缺失率是指CACHE访问不命中的比率。
导致缺失的原因有强制缺失、容量缺失和冲突缺失强制缺失:第一次访问相应cache块,cache中肯定没有改cache块容量缺失:cache块被移除后又被访问冲突缺失:重复访问的多个地址映射在CACHE的同一位置6.性能的定量计算:程序执行时间=CPU执行程序的时间+等待存储访问的时间基于CPI的计算:存储器阻塞时钟周期=(存储器总访问次数/指令数)*缺失率*缺失代价平均访问时间(AMAT)=命中时间+缺失率*缺失代价举例1:假设指令cache的缺失率为2%,数据cache的缺失率为4%,处理器的CPI为2(没有存储器阻塞),且每次缺失的代价为100个时钟周期,那么配置一个从不发生缺失的理想的cache,处理器的速度快多少?假定全部LOAD和STORE的频率为36%.解:指令缺失时钟周期:1*2%100=2.0I数据缺失:136%*4%*100=1.44I总存储器阻塞:2.0 I + 1.44 I = 3.44 I总CPU : 2 + 3.44 = 5.44配置理想cache: 5.44 / 2 = 2.72 倍举例2:处理器时钟周期的时间1ns,缺失代价是20个时钟周期,缺失率为每条指令0.05次缺失,cache的访问时间(包括命中判断)为1个时钟周期。
假设读操作和写操作的缺失代价相同并且忽略其它写阻塞。
请计算AMAT.解:每条指令的平均存储器访问时间为:AMAT = 命中时间+缺失率缺失代价=1+0.0520=2个时钟周期举例3:假定处理器基本的CPI为1.0,时钟频率为4GHz。
假定主存访问时间为100ns,其中包括缺失处理时间。
设一级cache中每条指令缺失率为2%。
如果增加一个二级cache,命中或缺失访问的时间都是5ns,而且容量大到必须使访问主存的缺失率减少到0.5%,这时的处理器速率能提高多少?解:主存的缺失代价:100ns/(0.25ns/时钟周期)=400个时钟周期只有一级cache时:总的CPI=1.0+2%*400=9对于两级cache:二级cache的缺失代价:5ns/(0.25ns/时钟周期)=20个时钟周期总的CPI=1+2%*20+0.5%*400=3.4有二级cache的处理器性能是没有二级cache性能的9.0/3.4=2.6倍6.层次化存储优化方法有6种基本的CACHE优化方法:1)更大的cache块:强制缺失减少;容量和冲突缺失增加,缺失代价增加;2)更大的CACHE容量:缺失率降低;命中时间,功耗增加;3)更高的相联度:冲突缺失减少;命中时间增加,功耗增加;4)更多级CACHE:内存访问时间减少;5)读缺失优先级更高:缺失代价降低;6)缓存索引期间避免地址转换:减少命中时间;第三章指令级并行1.开发指令级并行的目标:最小化CPI(执行指令平均时钟周期数)流水线CPI =理想流水线CPI +结构冒险停顿+数据冒险停顿+控制冒险停顿2.Load指令的5个阶段或5级流水线的分法?5个阶段的具体内容?Load指令的5个阶段:Ifetch (取指)、Reg/Dec (取数和译码)、Exec (执行) 、Mem (读存储器) 和Wr(写寄存器)Ifetch (取指) : 从指令存储器取指令并计算PC+4(指令存储器、Addr)Reg/Dec (取数和译码) : 寄存器取数,同时对指令进行译码(寄存器堆读口、指令译码器) Exec (执行) : 计算内存单元地址(扩展器、ALU)Mem (读存储器) : 从数据存储器中(数据存储器)Wr(写寄存器): 将数据写到寄存器中(寄存器堆写口)3.用什么解决数据冒险?方法1:硬件阻塞(stall)方法2:软件插入“NOP”指令方法3:编译优化:调整指令顺序方法4:合理实现寄存器堆的读/写操作即前半时钟周期写,后半时钟周期读,若同一个时钟内前面指令写入的数据正好是后面指令所读数据,则不会发生数据冒险方法5:转发(Forwarding或Bypassing 旁路)技术,若相关数据是ALU结果,可通过转发解决;若相关数据是上条指令DM读出内容,不能通过转发解决,随后指令需被阻塞一个时钟或加NOP指令。
称为Load-use数据冒险!4.如何解决控制冒险?方法1:硬件上阻塞(stall)分支指令后三条指令的执行使后面三条指令清0或其操作信号清0,以插入三条NOP指令方法2:软件上插入三条“NOP”指令(以上两种方法的效率太低,需结合分支预测进行)方法3:分支预测(Predict)简单(静态)预测:总是预测条件不满足(not taken),即:继续执行分支指令的后续指令。
可加启发式规则:在特定情况下总是预测满足(taken),其他情况总是预测不满足。
如:循环顶(底)部分支总是预测为不满足(满足)。
能达65%-85%的预测准确率动态预测:根据程序执行的历史情况,进行动态预测调整,能达90%的预测准确率注:采用分支预测方式时,流水线控制必须确保错误预测指令的执行结果不能生效,而且要能从正确的分支地址处重新启动流水线工作方法4:延迟分支(Delayed branch)(通过编译程序优化指令顺序!)把分支指令前面与分支指令无关的指令调到分支指令后面执行,也称延迟转移5.动态预测基本方法采用一位预测位:总是按上次实际发生的情况来预测下次,其特点:1)1表示最近一次发生过转移(taken),0表示未发生(not taken)2)预测时,若为1,则预测下次taken,若为0,则预测下次not taken3)实际执行时,若预测错,则该位取反,否则,该位不变4)可用一个简单的预测状态图表示5)缺点:当连续两次的分支情况发生改变时,预测错误采用二位预测位1)用2位组合四种情况来表示预测和实际转移情况2)按照预测状态图进行预测和调整3)在连续两次分支发生不同时,只会有一次预测错误两位预测状态图基本思想:只有两次预测错误才改变预测方向00状态时预测发生(强转移),实际不发生时,转到状态01(弱转移),下次仍预测为发生,如果再次预测错误(实际不发生),才使下次预测调整为不发生11。
第四章数据级并行1.SIMD 并行的3种实现方法:向量体系结构、SIMD 扩展和图形处理单元(GPUs)向量体系结构的基本思想:读存储器中散布的数据集至“vector registers”;寄存器操作;分散结果存储至存储器;SIMD 扩展的基本思想:固定了操作中操作数的数目:向量体系结构采用向量长度寄存器;SIMD扩展没有复杂的寻址模式:步幅和集中-分散寻址模式;没有遮罩寄存器。
图形处理单元(GPUs)的基本思想:异构执行模型是CPU 为主机, GPU 为加速器;开发类C 的编程语言;统一所有的GPU并行为CUDA 线程;编程模型“SIMT”。
2.GPU 架构的3种方法各有什么异同点?相同点:NVIDIA GPU 架构与向量机类似,擅长数据级并行;集中-分散;遮罩寄存器;大的寄存器组。