体系结构第4章第1讲

合集下载

计算机系统结构多媒体教程课件_第四章存储系统

2013-8ቤተ መጻሕፍቲ ባይዱ31 《计算机系统结构》多媒体课件 15
结论：CPU在执行程序时，所用到的指令和数据的MEM 单元地址分布不会是随机的，而是相对集中成自然的块或页面(MEM中较小的连续单元区)。
2013-8-31
《计算机系统结构》多媒体课件
5
Embedded , desktop, server computers
2013-8-31 《计算机系统结构》多媒体课件 6
1、MEM容量、速度、价格的矛盾 2、存贮体系层次 3、程序的局部性 4、存贮体系的性能参数
2013-8-31 《计算机系统结构》多媒体课件 7
2013-8-31
《计算机系统结构》多媒体课件
2
introduction
In 1980 microprocessors were often design without caches,while many come with two levels of caches on the chip. Why? !!!!
A A
Tm
2013-8-31
Tm
9
《计算机系统结构》多媒体课件
(3)频宽Bm： * MEM连续访问时，每单位时间内存取的信息量以bit/s OR Byte/s为单位。 * 单体MEM ：Bm =W/TM * 多体并行MEM ：Bm =W·m/TM 理想状态下MEM满负荷工作的最大频宽。 * 实际上由于MEM不可能一直处于RD/WR , 所以实际频宽 < 最大频宽。
1、MEM 容量 * Sm＝W*L*m * W:MEM 存储体字长（以 bit OR Byte 为单位） L:单个存贮体字数 m：并行工作的MEM 体个数 * Sm 单位为***bit OR ***B

自考《计算机系统结构》第4章精讲

第四章　指令系统的设计原理和风格本章属重点章。

指令系统是计算机外特性的重要内容，本章主要介绍了两种不同风格的指令系统：RISC和CISC.在学习这两种指令系统之前，我们先了解⼀下什么是指令系统。

⼀、指令系统的设计（领会）指令系统是指机器所具有的全部指令的集合。

它反映了计算机所拥有的基本功能。

它是机器语⾔程序员所看到的机器的主要属性之⼀。

通常我们说的加法指令、传输数据指令等等就是计算机的指令，这些指令就是告诉计算机从事某⼀特殊运算的代码，⼀种计算机系统确定的这些指令的集合我们就说它是这种机器的指令系统。

那么指令系统的设计要做什么？就是要确定它的指令格式（就是指令有多少位长，哪⼏位表⽰地址，哪⼏位表⽰操作等）、类型（如堆栈型、寄存器型等分类）、操作（⽐如运算、数据传送啊什么的都是指令中要确定的操作）以及操作数的访问⽅式（⼀个指令要访问数据，是按其地址访问还是按内容访问等也要由指令设计来解决）。

我们知道，由多条指令构成的程序是要以⼆进制的形式放到存储器中的，早期的存储器很昂贵，因此导致指令设计者尽量增强⼀条指令的复杂性以减少程序的长度。

还⽤微程序（就是保存在专⽤的存储器中的⼀⼩段程序，运⾏时只要⽤⼀条指令来启动它就可⽤来代替好多条指令）来改进代码密度。

这样的设计倾向形成了⼀种传统的指令设计风格，即认为计算机系统性能的提⾼主要依靠增加指令复杂性及其功能来获取。

这就是称为复杂指令系统（CISC）的设计风格。

我们现在⽤的PC机多是⽤这种设计风格的指令系统，⽐如MMX多媒体扩展指令等，都是增加进去的指令，是复杂指令。

后来，通过测试，这种不断增加指令复杂度的办法并不能使系统性能得到很⼤提⾼，反倒使指令系统实现更困难和费时。

所以在70年代中期⼜出现了另⼀种称为"简化指令系统（RISC）"的设计风格。

它的基本思想是，简单的指令能执⾏得更快以及指令系统只需由使且频率⾼的指令组成。

（插话）指令系统在设计时，应特别注意的是如何能使编译系统⾼效、简易地将源程序翻译成⽬标代码。

-Unlicensed-4-物联网应用支撑层-01概述

<< 上一页
2 下一页 >>
韶关学院通识教育课程
第4篇应用支撑层技术
第1讲应用支撑层技术概述第2讲数据库系统第3讲海量信息存储
第4讲搜索引擎技术
第5讲大数据挖掘
<< 上一页
3 下一页 >>
韶关学院通识教育课程
第1讲应用支撑层技术概述
1.1应用支撑层的功能
1.2应用支撑层的关键技术
<< 上一页
4 下一页 >>
韶关学院通识教育课程
第1讲应用支撑层技术概述
应用支撑层, 位于感知识别层和网络传输层
之上, 应用接口层之下, 是物联网智慧的源泉。
当感知识别层生成的大量信息经过网络层传输汇聚到应用支
撑层, 应用支撑层解决数据如何存储（数据库与海量存储技术）
、如何检索（搜索引擎）、如何使用（数据挖掘与机器学习）、如何不被滥用（数据安全与隐私保护）等问题。
及基于感知数据决策和行为的理论和技术。
<< 上一页
6 下一页 >>
韶关学院通识教育课程
1.1应用支撑层的功能
应用支撑层主要提供对网络获取数据的智能处理和服务支撑平台。其中: ★服务支撑平台是指具体包括面向服务的架构平台、海量数据集成服务平台、云计算平台,实现数据的注册、发现元数据、编
制信息资源目录、分类编码、并行计算、数据挖掘、智能搜索
<< 上一页
5 下一页 >>
韶关学院通识教育课程
1.1应用支撑层的功能
应用支撑层主要提供对网络获取数据的智能处理和服务支撑平台。其中: ★数据的智能处理是指感知数据管理与处理技术, 是实现以数据为中心的物联网的核心技术, 包括数据处理与数据分析2大过程,

高级体系结构ppt课件

I1
2
2
3
3
4
4
5
5
H
6 7
G
6 7 J
Ω网的特点(2)：
并不是所有的置换在Ω网中一次通过便可以实现。
Ω网是阻塞网络：出现冲突时，可以采用几次通过的方法来解决冲突。
Ω网的广播功能： 0018个输出端
第0级
第1级
0
1
2 3
4 5
6 7
第2级 0 1
2 3
4 5
6 7
44开关构成的Ω网：多路洗牌
000
000
001
001
010
010
011
011
100
100
101
101
110
110
111
111
0
12
3
4
56
7
6. PM2I函数（加减2i）共有2n个互连函数，对N个结点的网络为
PM PM
2i 2i
( (
j j
) )
j 2i j 2i
mod mod
N N
其中，0 j N 1，0 i n 1，n log 2 N
000
000
001
001
010
010
011
011
100
100
101
101
110
110
111
111
0
12
3
4
56
7
Cube2: cube2 (X2 X1X0 ) (X2 X1X0 )
000
000
001
001
010
010
011

4 1体系结构视图PPT课件

用例模型分析模型设计模型实现模型
取款
取款
取款
取款
用例的分析、设计和实现
用例模型
分析模型
取款
出纳员接口吐钞器帐户提取
三种不同构造型的分析类
≪实体类≫ ≪边界类≫ ≪控制类≫
：实体对象一般是系统中长效且持久
的对象
:边界对象处理系统与环境之间的通信，
建立系统与参与者间的交互模型
:控制对象执行与特定用例有关的行为，
4+1体系结构视图
最终用户
功能
软件管理
逻辑视图实现视图
设计人员 /测试人员
用例视图
行为
过程视图展开视图
系统集成人员性能
可扩展性吞吐量
系统工程师系统拓扑结构交付、安装
举例：自动取款机(ATM)系统的用例模型用例模型捕获、表示系统的功能性需求
取款
存款
银行储户
在不同帐户间转帐
用例的分析、设计和实现
分析模型出纳员接口
吐钞器
设计模型
显示
吐钞传感器
提取帐户
提取
帐户
数字键盘
吐钞输送器储户管理
永久类
读卡机
点钞机
事务管理帐户管理
《分析子系统》 ATM接口
出纳员接口
《分析子系统》控制逻辑
《分析子系统》帐户管理
提取
吐钞器
转帐
帐户
出纳员
存入
有三个子系统的分析模型,在影射到设计模型之前需要把分析类型分解到各个分析子系统中
Coad/Yourdon方法中主题的概念：主题是把一组具有较强联系的类组织在一起而得到的类的集合。
主题概念及其用途

体系结构——4TK

P(k)为k 的概率密度函数（k=1，2，…… m）
每个主存周期所能访问到的平均字数要求访存申请的k个地址中，没有分体冲突的最长序列k m
B
k * p(k )
k 1
m
15
第四章存贮体系
§4.1 存储体系的形成和性能三、并行存贮系统对频宽的影响
2、访存冲突分析影响p(k)的主要原因是转移指令，设程序的转移概率为 k=1:从第一个存贮体中读出的指令就是跳转指令，p(1)= k=2:从第一个存贮体中读出的指令不是跳转指令，而从第二个存贮体中读出的指令是跳转指令，p(2)=(1-p(1))* =(1- ) k=3:从第一、二个存贮体中读出的指令不是跳转指令，而从第三个存贮体中读出的指令是跳转指令， p(3)=(1-p(1)-p(2))* =[1- -(1- ) ] =(1- )2 k=m-1: p(m-1) = (1- )m-2*
主要目的：扩大存储器容量实现方法：用地址码的高位区分存储体号
11
第四章存贮体系
§4.1 存储体系的形成和性能二、并行存贮系统
3、多体单字存储器——低位交叉编址存储器
主要目的：提高存储器访问速度实现方法：用地址码的低位区分存储体号
12
第四章存贮体系
§4.1 存储体系的形成和性能二、并行存贮系统
当H=0.99时, e2=1/(0.99+5(1-0.99))=0.96 e 越接近1 越好
28
第四章存贮体系
§4.1 存储体系的形成和性能
五、存贮体系的性能参数提高存储系统速度的两条途径：
一是提高命中率H ——采用预取技术
二是两个存储器的速度不要相差太大

计算机系统结构第4章

第4章存贮体系图4-1主存-辅存存储层次
第4章存贮体系
虚拟存储器是从主存容量满足不了要求提出来的。在主存和辅存之间，增设辅助的软、硬件设备，让它们构成一个整体，所以也称为主存-辅存存储层次。如图4-1所示。从 CPU看，速度是接近于主存的，容量是辅存的，每位价格是接近于辅存的。从CPU看，速度是接近于主存的，容量是辅存的，每位价格是接近于辅存的。从速度上看，主存的访问时间约为磁盘的访问时间的10-5，即快10万倍。从价格上看，主存的每位价格约为磁盘的每位价格的103，即贵1000倍。如果存储层次能以接近辅存的每位价格去构成等于辅存容量的快速主存，就会大大提高存储器系统的性能价格比。
序(多用户)环境，而Cache存储器既可以是单用户环境也可以是多用户环境。
第4章存贮体系
4.1.3
为简单起见，以图4-4的二级体系(M1,M2)为例来分析。设ci为Mi的每位价格,SMi为Mi的以位计算的存储容量，TAi为 CPU访问到Mi中的信息所需的时间。为评价存储层次性能，引入存储层次的每位价格c、命中率H和等效访问时间TA。
第4章存贮体系
为了进行段式管理，每道程序在系统中都有一个段(映像)表来存放该道程序各段装入主存的状况信息。参看图4-6，段表中的每一项(对应表中的每一行)描述该道程序一个段的基本状况，由若干个字段提供。段名字段用于存放段的名称，段名一般是有其逻辑意义的，也可以转换成用段号指明。由于段号从0开始顺序编号，正好与段表中的行号对应，如2段必是段表中的第3行，这样，段表中就可不设段号(名)字段。装入位字段用来指示该段是否已经调入主存，“1”表示已装入，“0”表示未装入。在程序的执行过程中，各段的装入位随该段是否活跃而动态变化。

计算机体系结构第2版课件第4章第1讲

每遍循环时间下降为14个时钟节拍
每个元素平均使用3.5个时钟节拍
比较
循环展开，没有指令调度
每个元素7拍
没有循环展开，有指令调度
每个元素6拍
循环展开总结
对指令进行移动是有效的展开是有用的用不同的寄存器
换名更多的寄存器
消除额外的测试开销在循环展开时分析LOAD/STORE指令进行
有14个指令流出节拍
每遍循环7个时钟节拍共计使用9个寄存器
循环展开+指令调度
1. Loop: 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
L.D L.D L.D L.D ADD.D ADD.D ADD.D ADD.D S.D S.D DADDUI S.D BNE S.D
节拍有效比率50% 1拍空转 (占17%) 2拍循环控制 (占33%)
如何进一步减少空转和循环控制占用的比率?
循环展开
如果将循环展开3次得到4个循环体(假设向量包含了4的倍数的元素)
Loop:
L.D F0,0(R1) ADD.D F4,F0,F2 S.D 0(R1),F4 L.D F6,-8(R1) ADD.D F8,F6,F2 S.D -8(R1), F8 L.D F10,-16(R1) ADD.D F12,F10,F2 S.D -16(R1), F12 L.D F14,-24(R1) ADD.D F16,F14,F2 S.D -24(R1), F16 DADDUI R1,R1,#-32 BNE R1,R2,Loop
R1,R2,Loop
调度后 F0,0(R1) R1,R1,#-8 F4,F0,F2
R1,R2,Loop 8(R1),F4
如何进行调度

计算机系统结构课件第4章

第4章存贮体系并行访问存储器
图 4.2 单体多字(m=4)存贮器
第4章存贮体系优点：简单、容易。缺点：访问的冲突大。主要冲突：取指令冲突（条件转移时）读操作数冲突（需要的多个操作数不一定都存放在同一个存储字中）写数据冲突（必须凑齐n个数才一起写入存储器）读写冲突（要读出的一个字和要写入的一个字处在同一个存储字内时，无法在一个存储周期内完成）。
在多任务或多用户系统中，可以把不同的任务分配在不同的存储器中来提高存储器的访问速度。
第4章存贮体系
低位交叉访问
MDR0 低位部分：存储体体号 b=log2m 高位部分：体内地址 a=log2n 0 m 2m 3m … (n-1)m
W
MDR1 1 m+1 2m+1 3m+1 … (n-1)m+1
第三层
通用寄存器M1 高速缓冲存储器M2
第一层
容量增加
第二层Leabharlann 辅助存储器M4脱机大容量存储器M5
第四层第五层
每级存储器的性能参数可以表示为 Ti， Si ， Ci 。存储系统的性能可表示为： Ti<Ti+1 ； Si<Si+1 ； Ci>Ci+1。
第4章存贮体系
存贮器容量SM=W·l·m。 W--存贮体的字长(单位为位或字节) l--每个存贮体的字数
图 4.7 Cache—主存存贮层次
第4章存贮体系
存储系统
组成主要目的
Cache存储系统
由Cache和主存储器构成提高存储器速度从系统程序员的角度看，速度接近 Cache的速度存储容量是主存的容量, 每位价格接近主存储器

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4.1
寄存器换名
数据写后写和先读后写相关停顿 4.1
指令动态调度（记分牌和 Tomasulo算法）
各种数据相关停顿
4.2
动态分支预测
控制相关停顿
4.3
前瞻（Speculation）
所有数据/控制相关停顿
多指令流出（超标量和超长指令字）
提高理想CPI
4.3
4.4
计算机体系结构 4
软件和硬件的支持
上述技术中有些技术主要是硬件支持
3 ADD.D 4 Stall 5 Stall 6 S.D 7 DADDUI
LD stall ADDD stall stall SD ? SUBI
无调度 F0,0(R1) F4,F0,F2
0(R1),F4 R1,R1,#8
计算机体系结构 15
循环无调度执行
时钟 1 2 3 4 5 6 7 8
LD stall ADDD stall stall SD SUBI ? BNEZ
无调度 F0,0(R1)
计算机体系结构 12
循环无调度执行
时钟 1 2
LD ? ADDD
无调度 F0,0(R1)
F4,F0,F2
计算机体系结构 13
循环无调度执行
时钟 1 2 3 4
LD stall ADDD ? SD
无调度 F0,0(R1)
F4,F0,F2 0(R1),F4
计算机体系结构 14
循环无调度执行
时钟 1 2 3 4 5 6 7
循环级并行：循环体中指令之间的并行性开发循环级并行的基本技术方法
指令调度（scheduling）循环展开（loop unrolling）换名（renaming）
计算机体系结构 6
4.1.1循环展开调度的基本方法
循环展开是展开循环体若干次，将循环级并行转化为指令级并行的技术
这个过程既可以通过编译器静态完成，也可以通过硬件动态进行
循环展开实例
对于下面的源代码，在不进行指令调度和进行指令调度两种情况下，分析代码一次循环的执行时间 for (i=1; i<=1000; i++) x[i] = x[i] + s关的
多遍循环可以同时执行而不会导致结果的错误
变量分配寄存器
F4,F0,F2
0(R1),F4 R1,R1,#8
R1,LOOP
如果分支指令使用上一条指令的结果作为分支条件，将要延迟1节拍
计算机体系结构 16
循环无调度执行
时钟 1 2 3 4 5 6 7 8 9
LD stall ADDD stall stall SD SUBI stall BNEZ
无调度 F0,0(R1) F4,F0,F2
由于数据的取操作的结果可以毫无停顿的通过相关通路机制传送到数据存部件，所以延迟为0
定向通道或旁路机制
分支指令，由整数流水线执行
分支条件检测调整到ID段
如果分支指令使用上一条指令的结果作为分支条件，将要延迟1节拍
分支指令有1个节拍的延迟槽
浮点运算一般为64位
无结构冒险
计算机体系结构 9
本章中使用的浮点流水线的延迟如下表
产生结果指令浮点计算浮点计算浮点数据取操作（LD）浮点数据取操作（LD）
使用结果指令另外的浮点计算浮点数据存操作（SD）浮点计算浮点数据存操作（SD）
延迟时钟数 3 2 1 0
计算机体系结构 8
流水线其他特性说明
整数流水线采用改进的MIPS整数流水线
开发循环级并行性的另外一个重要技术是向量处理技术
具有向量处理指令的典型机器是向量计算机，有关向量处理和向量计算机的内容本章不作讨论
本章中的分支指令就是指条件转移指令
计算机体系结构 7
本章通用浮点流水线延迟表
编译器在完成这种指令调度时，受限于以下两个特性
一是程序固有的指令级并行性二是流水线功能部件的执行延迟
循环展开寄存器换名的动态调度（基本的
Tomasulo’s）动态分支指令预测每个周期多发射前瞻技术
所有的技术都必须和软件，特别是编译器合作完成
计算机体系结构 5
几个基本概念
基本（程序）块：一段除了入口和出口以外不包含其它分支的线性代码段
程序平均每6~7条指令就会有一个分支必须在多个基本块之间开发指令级的并行性
0(R1),F4 R1,R1,#8 R1,LOOP
计算机体系结构 17
循环无调度执行
时钟 1 2 3 4 5 6 7 8 9 10
LD stall ADDD stall stall SD SUBI stall BNEZ ?
无调度 F0,0(R1)
F4,F0,F2
0(R1),F4 R1,R1,#8
R1,LOOP 分支指令有1个节
整数寄存器R1用作循环计数器，初值为向量中最高端地址元素的地址
浮点寄存器F2用于保存常数S 为简单起见，假定最低端元素的地址为8
否则需要另外的指令来将它和R1做比较
计算机体系结构 11
MIPS汇编语言程序
程序转换成MIPS汇编语言程序
Loop:
LD ADDD SD SUBI BNEZ
F0,0(R1) ;F0为向量元素 F4,F0,F2 ;加常数F2 0(R1),F4 ;保存结果 R1,R1,#8 ;修改指针 R1,Loop ;循环控制
第四章指令级并行
主要内容
4.1 4.2 4.3 4.4
指令级并行的概念指令的动态调度控制相关的动态解决技术多指令流出技术
计算机体系结构 1
计算机体系结构 2
计算机体系结构 3
本章研究的技术及克服的停顿
技术基本流水线调度
主要克服的停顿数据先写后读相关停顿
相关章节 4.1
循环展开
控制相关停顿
拍的延迟槽
计算机体系结构 18
循环无调度执行
时钟 1 2 3 4 5 6 7 8 9 10
LD stall ADDD stall stall SD SUBI stall BNEZ stall
无调度 F0,0(R1) F4,F0,F2
0(R1),F4 R1,R1,#8 R1,LOOP
计算机体系结构 19
循环无调度执行结果分析
每遍循环需要10个时钟节拍只有3个时钟节拍(L.D, ADD.D, S.D)
有效比率为30% 空转5个时钟节拍 (50%) 循环控制2个时钟节拍 (20%)
调度代码，减少空转
计算机体系结构 20
调度代码
时钟
未调度
1 L.D
F0,0(R1) L.D
2 Stall