系统结构——阵列处理机和相联处理机

合集下载

自考《计算机系统结构》问答题总结（6）

第六章 1、试分析阵列处理机特点（1）阵列处理机提⾼速度是利⽤资源重复，利⽤并⾏性中的同时性；（2）处理单元同等地担负起各种运算，其设备利⽤率可能不那么⾼；（3）速度提⾼在硬件价格⼤幅度下降情况下，潜⼒巨⼤；（4）互连络对系统性能影响显著；（5）互连络使阵列处理机⽐固定结构的单功能流⽔线灵活；（6）阵列处理机结构和所采⽤并⾏算法紧密联系；（7）阵列处理机还必须提⾼标量处理速度。

总之，阵列处理机实质上是专门对付数组运算的处理单元阵列组成的处理机、专门从事处理单元阵列控制及标量处理的处理机和专门从事输⼊输出及操作系统管理的处理机组成的⼀个异构型多处理机系统。

2、试⽐较阵列机的两种基本形式（1）分布式存储器阵列机。

a、各处理单元PE有局部存储器，被分布数据只能被本处理单元直接访问。

b、在控制部件CU内有主存储器。

运⾏时所有指令都在CU中，只把适合并⾏处理的“向量类”指令播给各PE，并控制各PE并⾏执⾏。

c、各PE可通过互连ICN交换数据。

d、PE通过CU连到管理处理机SC上，⽤于管理系统资源。

（2）集中式共享存储器阵列机。

a、K个存储体集中组成，经互连络为全部N个处理单元共享。

其中K等于数据处理单元数。

b、互连⽤于处理单元与存储分体之间进⾏转接构成数据通路。

3、试⽐较多级互连的⼏种络 ATRAN——拓扑结构：第I级交换单元处于交换⽅式时，实现Cubei；控制⽅式：级控制分级控制；交换单元：⼆功能交换单元。

间接⼆进制N⽅体——拓扑结构：第I级交换单元处于交换⽅式时，实现Cubei；控制⽅式：单元控制；交换单元：⼆功能交换单元。

多级混洗omega——拓扑结构：每⼀级有⼀个全混拓扑和⼀列四功能交换单元；控制⽅式：单元控制；交换单元：四功能交换单元。

多级PM2I——拓扑结构：每级按PM2I连接；控制⽅式：级控制或单元控制；交换单元：⼆功能交换单元。

全排列Benes——拓扑结构：三维⽴⽅体多级络与它的逆络连在⼀起，省去中间重复⼀级；控制⽅式：单元控制；交换单元：⼆功能交换单元。

第6章并行处理机

2
1
0
7
6
5
4
4
5
6
7
0
1
2
3
5
4
7
6
1
0
3
2
6
7
4
5
2
3
0
1
7
6
5
4
3
2
1
0
i
Cube Cube Cube0 Cube2 Cube0 Cube Cube0
0
1
+
Cube1
+ Cube2
1
+ Cube
2
+ Cube1
+ Cube2
转上页
返回下页
功能：控制信号不同，功能不同。交换功能：组间次序不变，组内元素镜像。 Cube0：4组2元交换， Cube1：2组4元交换+4组2元交换， Cube2：1组8元交换+2组4元交换。
(4)例题例1：编号0~F的PE间，要实现下列通信配对：
(7,D),(6,C),(5,F),(4,E),(3,9),(2,8),(1,B),(0,A) 画出互连网络结构图，写出控制方式级各开关状态。
1.循环互连网络（时间性）
循环
组成：DTRin、DTRout、 PE0来 MUX、IN。
结构：
去PE0
一个单级IN+MUX。
特点：节省了设备，
PEN-1来
增每加个M了U时X可间单，独控制。去PEN-1
∶∶
DTRin DTRout
DTRin DTRout
MUX
单
级
循环
互
连
网

中国海洋大学计算机系统结构课程大纲(理论课程)

中国海洋大学计算机系统结构课程大纲（理论课程）中国海洋大学计算机系统结构课程大纲(理论课程)英文名称Computer Architecture【开课单位】计算机科学与技术系【课程模块】学科基础【课程编号】【课程类别】选修【学时数】 48 (理论实践 ) 【学分数】 3一、课程描述本课程大纲根据2011年本科人才培养方案进行修订或制定。

(一)教学对象计算机科学与技术专业大学三年级学生(二)教学目标及修读要求1、教学目标(课程结束后学生在知识、技能和态度三个层面达到的目标) 本课程的结束后，学生应掌握计算机系统结构的基本概念、基本原理、基本结构和基本分析方法，初步了解和掌握几种高性能计算机系统的架构;初步具备计算机系统的架构分析能力，初步具备计算机系统性能的评测技能;对现有的主流计算机系统能有一个比较全面的了解，开阔眼界和思路，为今后进一步的学习、研究和工作奠定基础。

2、修读要求(简要说明课程的性质，与其他专业课程群的关系，学生应具备的基本专业素质和技能等)本课程是一门专业理论课。

由于计算机系统是一个复杂的系统，在学生已经学习了“计算机组成原理”、“计算机操作系统”、“汇编语言程序设计”、“高级语言程序设计”等计算机硬件和软件方面的多门课程之后，通过学习“计算机系统结构”这门课程才能够建立起计算机系统的完整概念。

(三)先修课程(参照2011版人才培养方案中的课程名称，课程名称要准确) 先修课程:“高级语言程序设计”;“计算机组成原理”;“操作系统”。

二、教学内容(一)第1章计算机系统结构的基本概念1、主要内容:1.1 计算机系统结构1.2 计算机系统设计技术1.3 系统结构的评价标准1.4 计算机系统结构的发展2、教学要求:(按照掌握、理解、了解三个层次对学生学习提出要求)掌握计算机系统层次结构，计算机系统结构、计算机组成、计算机实现定义及三者之间的关系，透明性概念，Amdahl定律，CPU性能公式，局部性原理，MIPS 定义，MFLOPS定义，计算机系统结构的分类;理解计算机系统设计方法，系统结构的评价标准;了解冯?诺依曼计算机特征，计算机系统结构的发展，价格、软件、应用、VLSI和算法对系统结构的影响。

第6章阵列处理机

第6章并行处理机和相联处理机图61具有分布式存储器的阵列处理机构形第6章并行处理机和相联处理机为了高速有效地处理向量数据这种构形要求能把数据合理地预分配到各个处理单元的局部存储器中使各处理单元pei主要用自己的局存pemi中的数据运算
第 6 章并行处理机和相联处理机
第6章阵列处理机
6.1 阵列处理机的原理
第 6 章并行处理机和相联处理机
6.1.2 ILLIACⅣ的处理单元阵列结构由于阵列处理机上的并行算法的研究是与结构紧密联系在一起的，因此，下面先介绍一下ILLIACⅣ阵列机上处理单元的互连结构。ILLIACⅣ是采用如图6-1所示的分布存储器构形，其处理单元阵列结构如图6-3所示。其中，PUi 为处理部件，包含64位的算术处理单元PEi、所带的局部存储器PEMi和
用到下面的累加和并行算法。即使如此，就K的并行来说，
速度的提高也不是8倍，而只是8/log28，接近于2.7倍。
第 6 章并行处理机和相联处理机
3.累加和这是一个将N个数的顺序相加转为并行相加的问题。为得到各项累加的部分和与最后的总和，要用到处理单元中的活跃标志位。只有处于活跃状态的处理单元才能执行相应的操作。为叙述方便取N=8，即有8个数A(I)顺序累加，其中 0≤I≤7。在SISD计算机上可以写成下列FORTRAN程序： C=0
PEM内，且在全部64个PEM中，让A、B和C的各分量地址
均对应取相同的地址α、α+1和α+2，如图6-4所示。这样，实现矩阵加只需用下列三条ILLIACⅣ汇编指令：
第 6 章并行处理机和相联处理机
LDA ADRN
Hale Waihona Puke ALPHA ;全部(α)由PEMi送PEi的累加器RGAi ALPHA+1 ;全部(α+1)与(RGAi)浮点加，结果送 RGAi

02325计算机系统结构复习资料

第一章计算机系统结构的基本概念从处理数据的角度看，并行级别有位串字串，位并字串，位片串字并，全并行。

位串字串和位并字串基本上构成了SIMD。

位片串字并的例子有：相联处理机STARAN，MPP。

全并行的例子有：阵列处理机ILLIACIV。

从加工信息的角度看，并行级别有存储器操作并行，处理器操作步骤并行，处理器操作并行，指令、任务、作业并行。

存储器操作并行是指可以在一个存储周期内并行读出多个CPU字的，采用单体多字、多体单字或多体多字的交叉访问主存系统，进而采用按内容访问方式，位片串字并或全并行方式，在一个主存周期内实现对存储器中大量字的高速并行操作。

例子有并行存储器系统，以相联存储器为核心构成的相联处理机。

处理器操作步骤并行是指在并行性概念中引入时间因素，让多个处理过程在时间上错开，轮流重复地执行使用同一套设备的各个部分，加快硬件周转来赢得速度。

例子有流水线处理机。

处理器操作并行是指一个指令部件同时控制多个处理单元，实现一条指令对多个数据的操作。

擅长对向量、数组进行处理。

例子有阵列处理机。

指令、任务、作业并行是指多个独立的处理机分别执行各自的指令、任务、作业。

例子有多处理机，计算机网络，分布处理系统。

并行性的开发途径有时间重叠(Time Interl eaving )，资源重复(Resou rceReplication)，资源共享(ResourceSharing)。

时间重叠是指在并行性概念中引入时间因素，让多个处理过程在时间上错开，轮流重复地执行使用同一套设备的各个部分，加快硬件周转来赢得速度。

例子有流水线处理机。

资源重复是指一个指令部件同时控制多个处理单元，实现一条指令对多个数据的操作。

例子有阵列处理机，相联处理机。

资源共享是指用软件方法让多个用户按一定时间顺序轮流使用同一套资源以提高资源的利用率，从而提高系统性能。

例子有多处理机，计算机网络，分布处理系统。

SISD:一个指令部件控制一个操作部件，实现一条指令对一个数据的操作。

02325 计算机系统结构(自考)第一章概论笔记(手写)

1计算机系统的的层次结构以现代通⽤计算机系统可以分成哪⼏级它们的相对位置各机器级的实现是⽤的翻译技术还是解释技术z⽬前情况来看MO ⽤硬件实现⼤的数2软件层⾼级语⾔通过软件MI ⽤微程序固件实现实现2汇编语⾔M 2M 5⽤软件实现ii 传统机器语⾔䎚鱲2瀶固件就是具备软件功能的⼀种硬件硬件实现作业控制语⾔微程序以什么是翻译技术什么是解释技术翻译技术⽤转换程序将⾼⼀级机器级上的程序整个地址转换为低⼀级机器级上的等效程序之后在低⼀级机器级上实现的技术解释技术在低级机器级上⽤⼀串语句或指令来仿真⾼级机器级上的⼀条语句或指令的功能是通过对⾼级机器级上的每条语句或指令逐条解释的技2.1计算机系统结构组成和实现的定义和研究⽅⾯1从计算机的层次结构⻆度来看系统结构system Architecture 是对计算机系统中各级界⾯的定义及其上下的功能分配iiiiii2计算机系统结构也称计算机系统的体系结构computer Architecture 它只是系统结构中的⼀部分指的传统机器语⾔机器级州的系统结构因此它是软件和硬件1固件的交接⾯是机器语算结论计算机系统结构研究的是软硬件之间的功能分配以及对传统机器级界⾯的确定为机器语⾔汇编语⾔程序设计者或编译程序⽣成系统设计或⽣成的程序能在机器结嘔趣魂䃴䏈臨嚹櫉出㒧瀃暶软礮嚻㗸磡璐璐额嚻嚻㓸年就⽬前的通⽤机和总其计算机系统结构的属性包括以D 硬件能够直接识别和处理的数据类型及格式等的数据表示系最⼩可寻址单位寻址种类地址计算等的寻址⽅式统通⽤寄存器的设置涨数量使⽤约定等的寄存器组织以⼆进制或汇编指令的操作类型格式排序⽅式控制机构等的指全系统构外主存的最⼩编址单位编址⽅式容量最⼤可编址空间等的存储系统组织以中断的处理与分级中断处理程序的功能与⼊⼝地址等的中断机构系统机器级的管态与⽤户态的定义与切换8输⼊1输出设备的连接使⽤⽅式流量操作结束出错指示等的机器级⼯10结构以系统各部分的信息保护⽅式和保护机构等属性_Énn 囎的讞囄龖嚻欏㺦䵴邈悦的縅辄算樾设计䯁ì点2专⽤部件的设置是否设置乘除法浮点运算字符处理地址运算等专⽤部件设置的数量与机器要达到的速度价格以及专⽤部件的使⽤频率有关机烈各种操作对部件的共享程度分时共享使⽤程度⾼虽然限制了速度但价格便宜设置部件的降低共享程度因操作系统并⾏度提⾼可提⾼速度但价格也会提⾼4功能部件的并⾏度是⽤顺序串⾏还是⽤重叠流⽔或分布式控制和处理iii 䨊i ǐiiiiiiii iiiiiiiiin 控制机构的组成⽅式⽤硬件还是微程序控制是单机处理还是的机或功能分布处理成7预估预判技术⽤什么原则为优化性能预测未来⾏为6计算机的实现computer Implementation指的是计算机组成的物理实现包括处理机珔等部件的物理结构器件的集成度和速度器件模块插件底板的划分与连接专⽤器件的设计微组装技术信号传输电源冷却及整机装配技术等7计算机实现的设计着眼于器件技术和微组装技术器件技术起着主导作⽤8指令系统的确定属于计算机系统结构指令的实现如取指令指令操作码译码计算操作数地址取数运算送结果等的操作的安排三和排序属于汢籃噍感实现这些指令功能的具体计电路器件的说⽜的装⾣䃢⼰技术属于计算机实现ftpmsn琺迹歛辔緪appointingpinetnn感乘法器加法⼀位移器的物理实现中的类型叔美成度数量价格以及微组装技术的确定和选择属于计算机实现-0ns中央处理机任存算外⼀箱溜畦侧的概念性结构图䃴嚻蜘理雄和醚-嚻制品外诞级槬以瑡⼼纙斌䴍出硬件⽅⾯2通道机实设备控制器i10机器1汇编指令系统数据表示是否采⽤通道⽅式输⼊1输出的确定属于计算机系统结构指令采⽤重叠流⽔还是其他⽅式解释数据通路宽度的确定通道采⽤结合型还是独⽴型属于计算机组成2.2系统结构组成和实现的相互关系和影响1相同结构如指令系统相同的计算机可以因速度不同⽽采⽤不同的组成⼀种组成也可以有多种不同的实现⽅法2组成也会影响结构了组成设计向上决定结构向下受限于实现技术4由于计算机组成和计算机实现关系密切有⼈将它们合称计算机实现即计算机系统的逻辑实现和物理实现ǜjiiiiii iiiiiiii能分配和确定程序设计者所看到的机器级界⾯的计算机系统结构称结论计算机系统结构设计的任务是进⾏软硬件的功能分配确定传统机器级的软硬件界⾯但作为计算机系统结构这⻔学科来讲实为程序设计者看到的计算机系统结构把着眼于如何更好更合理地实现分配给硬件的功能的计算机组成称为计算机设计者看到的计算机系统结构3计算机系统的软硬件取舍与设计思路引软硬件实现的优缺点1从原理上来讲软件的功能可以由硬件或固件来完成硬件的功能也可以由软件来模拟完成只是它们在性能价格实现的难易程度是不同的2软件实现的速度慢编制复杂编程⼯作量⼤程序所占存储空间量较的i 但是所花硬件少硬件的实现上也就相对简单容易硬件的成本低解题的灵活性和适性就好了具有相同功能的计算机系统其软硬件功能分配⽐例可以在很宽的范围内变化如下图⼀般来说提⾼硬件功能的⽐例可提⾼解题速度减少程序所需的时间但会增加硬件成本降低硬件利⽤率和计算机系统的灵活性及适应性提⾼软件功i ǘjf ǘǜǜ是⾼系统的灵活性适应性但是解题速度会下降软件设计费⽤和所需的存储器⽤量增加了原则D 应考虑在现有的硬器件主要是逻辑器件和存储器件的条件下系统要有⾼的性价⽐以实现费⽤速度和其他性能⽅⾯考虑2要考虑到准备采⽤和可能采⽤的组成技术使之尽可能不要过的或不合理地限制各种组成实现技术的采⽤了不能仅从硬的⻆度考虑如何便于应⽤组成技术的成果和便于发挥器件技术的发展还应从软的⻆度把如何为编译和操作系统的实现以及1⾼级语⾔程序的设计提供更的更好的硬件⽀持放在⾸位软硬件取舍的最终⽬标提⾼性能降低消耗评判性能的标准使⽤者响应时间完成任务的时间服务者吞吐量单位时间内的⼯作总量2软硬件取舍成本计算13软件开发费⽤C 软件重复设计的次数品硬件开发费⽤R 软件复制和存储的次数的更件实现的费⽤i Dn Nt Mn Ms 软件重复⽣产的费⽤例如批量部署1软件实现的费⽤Ds x clvtM tn Mn 硬件重复⽣产的费⽤⽣产计算机系统台数3.3计算机系统的定量设计原理真实程序的运⾏时间是衡量计算机性能的唯⼀可靠的①⼤概率事件优先原则喧⾛曼n 铡压n 缩原理oir提⾼经常性事件的处理速度经常性事件例如程序中的循环体②阿姆达尔Amdahl 定律定义系统性能的加速⽐确定对性能限制最⼤的部分计算改进某些部件所获得的性能提⾼③程序的局部性效旦璧和空间㞗盥改进效果好的⾼性能系统应是个各部分性能功能平衡得到提⾼的系统时间局部性现在正在使⽤的信息将来还要使⽤如程序中存在循环空间局部性将来要使⽤的信息与现在正在使⽤的信息在程序位置上是相邻的因为指令通常是顺序存放的数据也通常是以向量阵列树表等形式簇数据时间局部性空间局部性And 定律系统性能改进前⼆总执⾏时间部件加速⽐指令循环语句总加速⽐⼆系统性能改进后总执⾏时间瞿善⼆1-可改进⽐例可改进⽐例变量数据顺序语句字符串常量数据4计算机系统的设计⽅法①计算机系统⼀般有3种设计⽅法D 由上往下⾃顶向底专⽤机设计⽅法先考虑满⾜应⽤要再逐级向下设计串⾏设计⽅法周期⻓成本⾼难以量化2由下往上⾃底向顶通⽤机设计⽅法不考虑应⽤要求先根据已有条件设计硬件软件设计需要被动地适应硬件3⾃中间开始向两边设计它可以克服以上两⽅式中软硬件设计分离和脱节的致命缺点5软件应⽤器件的发展对系统结构的影响-5.1软件发展对系统结构的影响①软件的可移植性Portability 指的是软件不修改或只经少量修改就可由⼀台机器移到另⼀台机器上运⾏同⼀软件可应⽤于不同的环境软件兼容性i 向后兼容第⼀代电⼦管valve 1945-1954IBM 701机器档次当前机器第⼆代i 晶体管Transistor 19551964IBM7030㿚䨻容向后兰道时间第三代集成电路四1965-1974IBM张巧第四代⼤规模集成电路以红19741940IBM 3090Pc 第五代微处理器19902000IntelArm ②实现可移植性的常⽤⽅法D 采⽤系列机由同⼀⼚家⽣产的具有相同的系统结构但具有不同组成和实现的⼀系列不同型号的机器2模拟和仿真使件能够在具有不同系统结构的机器之间相互移植3i 实理软件移植的⼀种理想的⽅法例如Java 语⾔程序能在不同架构平台上运⾏模拟姚妣啊䲉犌⻰台瞅⼀雅额殆机⼀⼀刷啪镶处理器件发展历史通常⽤〇解释的⽅法去实现运⾏速度慢性能较差只适⽤于移植运⾏时间短使⽤次数少且在时间短上没有约束和受限制的软件仿真emulation ⽤⼀台现有的机器缩主机上的微程序〇去解释另⼀台机器⽬标机的指令集运⾏速度⽐模拟⽅法的快仿真只能在系统结构差距不⼤的机器之间使⽤区别模拟和仿真的区别在解释使⽤的语⾔模拟是⽤机器语⾔程序解释解释程序存储于主存中仿真使⽤微程序解释解释程序存储于控制存储器中③模拟与仿真的选择离频繁使⽤易于仿真的机器指令宜⽤仿真以提⾼速度较少使⽤的难以仿真的指令以及北操作宜⽤模拟即使两种机器系统差别不⼤往往也需要⽤模拟来完成机器间的映像11④3种⽅法的优缺点统⼀⾼级语⾔可以解决结构相同或完全不相同的机器间移植是未来发展⽅向但是⽬前难以解决只能做到相对统⼀系列机是当前遍采⽤的⽅法但只能实现同⼀系列内的软件兼容虽然允许发展变化但兼容的约束反过来会阻碍系统结构取得突破性的进展模灵活可实现不同系统结构间的软件移植但结构差别过⼤时效率速度会急剧下降伤真在速度上损失⼩但不灵活只能差别不⼤的系统之间使⽤否则效率也会过低且难以仿真需要与模拟结合才⾏此外发展异种机联⽹也是实现软件移植的⼀种途径5.2应⽤的发展对系统结构的影响不同的应⽤对计算机系统结构的设计提出了不同的要求应⽤需求是促使机算机系统结构发展的最根本的动⼒在不同的领域需要⾼性能的系统结构多媒体引了游戏⾼清影⾳⽹络应⽤⾼性能路由防⽕墙科学计算天⽓预报⽯油勘探班⽤户⻘尵器件⼚家⽣产时固定的器件的⽤户即机器设计者只能使⽤不能改变器件内部功能现场为⽤户根据需要可改变器件内部功能⽤户为专⻔按⽤户要求⽣产的⾼度集成的以红器件完全按照⽤户要求设计的⽤户⽚称为全⽤户⽚⼀般同⼀系列内各档机器可分别⽤通⽤⽚现场⽚和⽤户为实现6系统结构的并⾏性开发及计算机轰统的分类6.1并⾏性概念与开发6.1.1并⾏性的含义与级别①并⾏性包含同时性和并发性两重含义⾃然性simultaneity 指两个或约个事件在同⼀时刻发⽣并发性concurrency 指两个或㑜事件在同⼀⽇②䲜䉪厵并⾏鍳靠礜为了能并⾏处理以提⾼计算机解题的效率CnnD 计算机系统执⾏程序⻆度由低到⾼等级齽产操作之间的并⾏执⾏2指令之间放条指令的并⾏执⾏14作业或程序之间c______12计算机系统中处理数据⻆度由低到⾼等级冯⽒分类法1972冯泽云1位串字串同时只对⼀个字齹⼯整处理通常指串⾏单处理机⽆并⾏性2位并字串并⾏单处理机3i 位为串字并不⼀⼀对许的字的同⼀位称位⽚进⾏处理3并⾏性贯穿于计算机信息加⼯的各个步骤和阶段的i 存储器操作并⾏2处理器操作并骤并⾏了处理器并⾏tiiiiii inin4指令任务作业并⾏皊之⼆及以上的并⾏是所处之理机同0时对然⾦撧或相关的的组娄-対居进⾏处理操作上避流的数据流计算机6.1.2并发性开发的途径时间重叠i鼝相互错不轮流重叠使⽤同⼀套硬件设备的各个部分加快硬件周转来赢得速度②资源重复邈邈䟐群Replication重复设置硬件资源来提⾼可靠性或性能③资源共享逛䬒aresharing⽤软件⽅法让的个⽤户按⼀定时间顺序轮流使⽤同⼀套资源来提⾼资源利⽤率相应地6.1.3多机系统的耦合度耦合度⽤于反映的机系统中各机器之间物理连接的紧密度和交叉作⽤能⼒的强弱1各种脱机处理系统是最低耦合系统lease coupled system 2多台计算机通过通道或通信线路实现互连以较低频带在⽂件或数据集⼀级相互作⽤这种系统被称为松散耦合系统loosely a system或间接耦合系统Indirectly Coupled system3多台计算机通过总线或⾼速开关琏共享主存有较⾼的信息传输速率可实现数据集⼀级任务级作业级并⾏则称该系统为紧密耦合系统Tighcoupled system 或直接耦合系统Directly c oupled system 6.1.4计算机系统的分类弗林分类瀓按照指令流和数据流的的倍性进⾏分类共分为4类数据流由执令流调⽤的数据序列圝鬬管⾔䨻⽇搻䲜时处于同⼀执⾏阶段的指令或数据的最⼤数⽬单指令流单数据流GED Single Instruction stream Single Data stream 单指令流的数据流Gen single Instruction stream Multiple Data Stream 阵列处理机和相联处理机多指令流多数据流㟗⽆实现对应的应⽤传统的单处理计算机多指令流单数据流MIS D -。

自考-计算机系统结构--复习资料大全

1计算机系统的多级层次结构， , 1：M0微程序（微指令）机器、2：M1传统(机器指令）机器、3：M2操作系统(作业控制）机器、4：M3汇编语言机器、5：M4高级语言机器、6：M5应用语言机器；1—2为实际机器,3—6为虚拟机器2，各个机器级的实现的依靠, , 翻译和解释3, 翻译, translation, 是先用转换程序将高一级机器级上实现的程序整个地变换成低一级机器级上等效的程序，然后再在低一级机器上实现的技术。

4，解释, interpretation, 在低级机器级上用它的一串语句或指令来仿真高级机器级上的一条语句或指令的功能，通过高级机器语言程序中的每条语句或指令逐条解释来实现的技术.5, M0—M5各级的实现方式，, M0用硬件实现,M1用微程序(固件实现）,M2到M5大多采用软件实现.6, 虚拟机器的定义, , 以软件为主实现的机器7, 实际机器的定义, ，以硬件或固件实现的实际机器8 透明的定义,，客观存在的事物或属性从某个角度看不到，称之为透明9 计算机系统结构的定义， , 是系统结构的一部分,指的是传统机器级的系统结构，其界面之上包括操作系统、汇编语言、高级语言和应用语言级中所有的软件功能，界面之下包括所有硬件和固件的功能。

它是软件和硬件/固件的交界面，是机器语言、汇编语言、程序设计者，或者编译程序设计者看到的机器物理系统的抽象。

是研究软、硬件之间的功能分配以及对传统机器级界面的确定,提供机器语言、汇编语言设计者或编译程序生成系统为使其设计或生成的程序能在机器上正确运行应看到或遵循的计算机属性.10计算机系统结构的属性（需了解一部分）， , 1、数据表示;2、寻址方式；3、寄存器组织；4、指令系统；5、存储系统组织；6、中断机构;7、系统机器级的管态和用户态的定义与切换;8、I/O结构；9、信息保护方式和保护机构等等.11计算机系统结构不包含的内容,, 不包含“机器级内部”的数据流和控制流的组成，逻辑设计和器件设计等.12 计算机组成的定义,, 指的是计算机系统结构的“逻辑实现”，包括机器级内的数据流和控制流的组成以及逻辑设计等。

自考《计算机系统结构》第9章精讲

第九章并⾏处理技术本章讲述的重点内容就是阵列处理机和多处理机，对阵列机的基本结构、主要特点、以及阵列机的互连络和并⾏存储器的⽆冲突访问等内容要加强理解。

本章应掌握的概念有：阵列处理机、络拓扑结构、单级⽴⽅体络、多级⽴⽅体等。

⼀、并⾏处理技术（识记）：并⾏性主要是指同时性或并发性，并⾏处理是指对⼀种相对于串⾏处理的处理⽅式，它着重开发计算过程中存在的并发事件。

并⾏性通常划分为作业级、任务级、例⾏程序或⼦程序级、循环和迭代级以及语句和指令级。

作业级的层次⾼，并⾏处理粒度粗。

粗粒度开并⾏性开发主要采⽤MIMD⽅式，⽽细粒度并⾏性开发则主要采⽤SIMD⽅式。

开发计算机并⾏性的⽅法主要有：资源重复、时间重叠和资源共享三种⽅法。

⼆、SIMD并⾏计算机（阵列处理机）阵列机也称并⾏处理机。

它将⼤量重复设置的处理单元按⼀定⽅式互连成阵列，在单⼀控制部件CU（Contrul Unit）控制下对各⾃所分配的不同数据并⾏执⾏同⼀指令规定的操作，是操作并⾏的SIMD计算机。

它采⽤资源重复的措施开发并⾏性。

是以SIMD（单指令流多数据流）⽅式⼯作的。

1、阵列机的基本结构（识记）阵列机通常由⼀个控制器CU、N个处理器单元PE（Processing Element）、M个存储模块以及⼀个互连络部件（IN）组成。

根据其中存储器模块的分布⽅式，阵列机可分为两种基本结构：分布式存储器的阵列机和共享存储器的阵列机（理解⼆者不同之处）。

阵列机的主要特点：它采⽤资源重复的⽅法引⼊空间因素，这与利⽤时间重叠的流⽔线处理机是不⼀样的。

它是利⽤并⾏性中的同时性⽽不是并发性，所有的处理单元必须同时进⾏相同操作（资源重复同时性）（我们想象⼀下亚运会的开幕式⼤型团体操表演，每个⼈就是⼀个PE，他们听从⼀个总指挥的指令，同时进⾏⾃⼰的操作，很快地就能"计算"出⼀个结果（队形）来。

）它是以某类算法为背景的专⽤计算机，基本上是专⽤于向量处理的计算机（某类算法专⽤机）。

组成原理课件——第6章阵列处理机和相联处理机

ILLIAC Ⅳ的组成
第 6 章阵列处理机和相联处理机 PU56 PU63 PU0 PU57 PU1 PU58 PU7
PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU0
PU57
PU1
PU63
PU7
PU0
ILLIAC-IV的处理单元互连结构
第 6 章阵列处理机和相联处理机
特点: (1)闭合螺线阵列
的基本构件组合而成，模块性好；
第 6 章阵列处理机和相联处理机
2.互连函数互连网络的连接特征一般用一组互连函数表示。互连函数：出端编码是入端编码的排列、组合、移位、取反等操作的结果。表示所有入端与出端的连接关系。互连函数有2种表示方法： (1)输入输出对应表示法输入: 0 1 2 3 4 5 6 7 互连 0 1 N-1 输出: 1 0 3 2 5 4 7 6 函数 f(0) f(1) f(N-1) (2)函数式表示法：入端编码表示： x = bn-1…b0 n=log2N 出端编码表示：f(x) = 基于bn-1…b0的操作的结果。自变量和函数可以用二进制表示，也可以用十进制等表示
一．矩阵加矩阵加(配比加)是最简单的情况。假定两个8*8的矩阵 A、B相加，所得结果矩阵C也是一个8*8的矩阵。设A、B 的分量元素分别存在PEM i的Z,Z+1单元中,所得结果矩阵C 各分量存在PEM i 的Z+2单元中用下面三条指令可一次完成(64个处理单元并行) LDA Z；全部（Z）由PEMi送到PE的累加器RGAi ADRN Z+1；全部（Z+1）与（RGAi）进行浮点加，结果送RGAi STA Z+2；全部（RGAi）由PE送到PEMi的（Z+2）单元

计算机系统结构课后习题答案

计算机系统结构基本习题和答案填空题1、从（使用语言的）角度可以将系统看成是按（功能）划分的多个机器级组成的层次结构。

2、计算机系统结构的层次结构由高到低分别为（应用语言机器级，高级语言机器级，汇编语言机器级，操作系统机器级，传统机器语言机器级，微程序机器级）。

3、应用程序语言经（应用程序包）的（翻译）成高级语言程序。

4、高级语言程序经（编译程序）的（翻译）成汇编语言程序。

5、汇编语言程序经（汇编程序）的（翻译）成机器语言程序。

6、在操作系统机器级，一般用机器语言程序（解释）作业控制语句。

7、传统机器语言机器级，是用（微指令程序）来（解释）机器指令。

8、微指令由（硬件）直接执行。

9、在计算机系统结构的层次结构中，机器被定义为（能存储和执行相应语言程序的算法和数据结构）的集合体。

10、目前M0由（硬件）实现，M1用（微程序（固件））实现，M2到M5大多用（软件）实现。

以（软件）为主实现的机器成为虚拟机。

（虚拟机）不一定全用软件实现，有些操作也可用（固件或硬件）实现。

11、透明指的是（客观存在的事物或属性从某个角度看不到），它带来的好处是（简化某级的设计），带来的不利是（无法控制）。

12、计算机系统结构也称（计算机体系结构），指的是（传统机器级的系统结构）。

它是（软件和硬件/固件）的交界面，是机器语言汇编语言程序设计者或编译程序设计者看到的（机器物理系统）的抽象。

13、计算机组成指的是（计算机系统结构的逻辑实现），包括（机器级内的数据流和控制流）的组成及逻辑设计等。

计算机实现指的是（计算机组成的物理实现），它着眼于（器件）技术和（微组装）技术。

14、确定指令系统中是否要设乘法指令属于（计算机系统结构），乘法指令是用专门的高速乘法器实现还是用加法器实现属于（计算机组成），乘法器和加法-移位器的物理实现属于（计算机实现）。

15、主存容量与编址方式的确定属于（计算机系统结构），主存是否采用多体交叉属于（计算机组成），主存器件的选定属于（计算机实现）。

成都理工大学计算机系统结构试题

计算机系统结构一. 填空题(30分，每题1分)1、从（使用语言的）角度可以将系统看成是按（功能）划分的多个机器级组成的层次结构。

2、、计算机系统结构也称（计算机体系结构），指的是（传统机器级的系统机构）。

它是（软件/硬件（固件））的交界面，是机器语言汇编语言程序设计者或编译程序设计者看到的（机器物理系统）的抽象。

3. 主存容量与编址方式的确定属于（计算机系统结构），主存是否采用多体交叉属于（计算机组成），主存器件的选定属于（计算机实现）。

4. 费林按指令流和数据流的多倍性把计算机系统分成（SISD），（SIMD），（MISD）和（MIMD）四大类。

传统的单处理机属于（SISD），紧密耦合和松散耦合多处理机属于（MIMD）, 阵列处理机和相联处理机属于（SIMD）。

5.寻址方式指的是指令按什么方式寻找(或访问)到所需的操作数或信息的，具有分别面向( 主存)、( 寄存器)和堆栈的寻址方式。

6.根据所用的存储映象算法，虚拟存储器管理方式主要有段式、( 页式)和(段页式)三种。

7.基本输入输出方式有（程序控制输入输出方式），（中断输入输出方式），（DMA 方式），（通道输入输出方式），(外围处理机方式) 五种。

8.在同一器件技术水平上，进一步提高计算机系统性能的有效途径是（开发并行性）。

9. 从计算机信息加工的步骤和阶段的并行性看，并行性等级可分为（存储器操作并行），（处理机操作步骤并行），（处理机操作并行）和（作业或程序之间）。

二 . 选择题(20分，每题2分)1. 计算机系统结构设计者所关心的是________所看到的的计算机结构。

A)硬件设计人员B)逻辑设计人员C)机器语言或汇编语言程序员D)高级语言程序员2 .在计算机系统设计时，为了提高系统性能，应当注意________。

A)加快经常性使用指令的执行速度B)要特别精心设计少量功能强大的指令C)要减少在数量上占很小比例的指令的条数D)要加快少量指令的速度3 . 重叠寄存器技术主要用于解决在RISC系统中因________而导致的问题。

自考计算机科学与技术之系统结构简答题

简答题(本大题共5小题，每小题6分，共30分)1.什么是虚拟存储器？它有什么特点和作用？答：虚拟存储器是以主存与辅存为根据建立起来的一种存储体系，它使得程序能够像访问主存储器一样访问外部存储器。

虚拟存储器的地址空间可以大到CPU 勺最大寻址范围。

为了提高平均访存速度，将虚拟地址空间中访问最频繁的一小部分寻址范围映像到主存储器，其余的地址空间映像到外存储器，这样使得存储系统既具有外存的容量，又有接近于主存的访问速度。

2.并行处理计算机除分布处理、MPP口机群系统外，还有哪4种基本结构？及他们各自解决的基本问题？答：流水线计算机，阵列处理机，多处理机，数据流计算机。

流水线计算机解决拥塞控制，冲突防止，分支处理，指令和数据的相关处理，流水线重组，中断处理，流水线调度以及作业顺序的控制等。

阵列处理机解决处理单元灵活、规律的互连模式和互联网络设计，存储器组织，数据在存储器中的分布算法，针对具体应用题目的高效并行算法等问题，尽可能将标量循环运算转成向量运算以消除循环，避免相关。

多处理机解决处理机间互连和存储器组织等硬件结构，存储管理，资源分配，任务分解，系统死锁的防止，进程间的通讯和同步，多处理机的调度，系统保护等操作系统，高效并行算法和并行语言的设计等问题。

数据流计算机主要研究合适的硬件组织和结构，数据流程序图，能高效并行执行数据流语言以及解决目前数据流机存在的某些问题。

3.简述超长指令机系统设计的基本原则。

答：超长指令机系统设计的原则：(1)设立单一的控制流，只有一个控制器，每个时钟周期启动一条长指令；(2)超长指令字被分成多个控制字段，每个字段直接独立地控制每个功能部件；(3)含有大量的数据流通路和功能部件，由于编译器在编译时间已考虑可能出现的数据相关，故控制硬件简单；(4)在编译阶段完成超长指令中多个可并行操作的调度。

4.以IBM37(为例说明为什么把中断分类以及分成几类。

答：为处理一个中断请求，要调出相应的中断处理程序，如果中断源数少，则可用中断系统硬件直接形成相应中断服务程序入口，但对中大型多用途机器，中断源数目很多，若为每个中断源单独形成入口，不仅硬件实现难，代价大，而且在中断处理上没有必要，因不少中断源性质比较接近，可归成几类，这样可以对每类给定一个中断服务程序入口，再由软件分支转入相应中断处理部分，这样可以大大简化形成中断处理程序入口地址形成硬件。

精品文档-计算机组成与系统结构(裘雪红)-第9章

分析Omega网络为此提供的连接路径。
解我们利用图9.15来说明Omega网络的寻径过程。
第9章并行体系结构
6
2. 协处理器协处理器(Coprocessor)是为减轻主处理器负担、协助主处
理器完成特定工作的专用处理器，通过主处理器和协处理器的并行工作使计算机的速度得到提高。
第9章并行体系结构
7
3. 多处理器所有的CPU共享公共内存的并行计算机称为多处理器系统，
如图9.2(a)所示。运行在多处理器上的所有进程能够共享映射到公共内存的单一虚拟地址空间。任何进程都能通过执行LOAD 或者STORE指令来读或写一个内存字，其余工作由硬件来完成。
(4) 多指令流多数据流(Multiple Instruction-stream Multiple Data-stream，MIMD)。
第9章并行体系结构
13
图 9.3 计算机分类
第9章并行体系结构
14
9.3 阵列处理机和向量处理机
9.3.1 阵列处理机阵列处理机属于分布式内存SIMD(DM-SIMD)系统，它由许多
第9章并行体系结构
11
9.2 计算机体系结构的分类
Flynn于1966年提出了一种今天仍有价值的对所有计算机进行分类的简单模型，这种分类模型可以为计算机系统设计制定一个框架，这就是1.4.1节中介绍的Flynn分类法。
第9章并行体系结构
12
根据被调用的数据流和指令流的并行度，Flynn分类法将计算机归为以下四类:
在不同数据集合上执行同样指令序列、完成同样功能的完全相同的处理器组成。阵列处理机中的处理器共享一个控制器(所以它不是通常意义上的独立CPU)，控制器发布指令，指令由处理器阵列中的处理器执行。因为阵列机中的所有处理器是以步调一致的方式工作的，所以处理器之间不需要同步，这就大大简化了这种系统的设计。

系统结构课上练习1

1、从使用语言的角度，计算机系统的层次结构分为六级，其中最高层为（应用语言机器级),最低层（微程序机器级）。

2、汇编语言程序经（A ）的（）转换成机器语言程序。

A.汇编程序，翻译B.编译程序，解释C微指令程序，解释 D.应用程序包，翻译3、软件和硬件在（B ）上是等效的A.概念B、逻辑C、算法D、指令4、透明性是指客观存在的事物或属性（ D ）看不到。

A。

从软件角度B。

从硬件角度C。

从任何角度D。

从某种角度5、.用机器语言程序解释实现软件移植的方法称为（C ）A、仿真B。

翻译 C.模拟 D 解释从机器（汇编）语言程序员看，以下哪些是透明的？（书本课后题）指令地址寄存器；指令缓冲器；时标发生器；条件码寄存器；乘法器；主存地址寄存器；磁盘外设；先行进位链；移位器；通用寄存器；中断字寄存器。

假设高速缓存Cache 工作速度为主存的5倍，且Cache被访问命中的概率为90%，则采用Cache后，能使整个存储系统获得多高的加速比？解：r=5，f=0.91、标志符数据表示将（A ）直接联系在一起。

A、数据类型与数据本身B、数据表示与数据结构C、计算机系统结构与计算机组成D、高级语言语句与计算机组成2、数据表示指的是能由（A ）直接识别和引用的数据类型A硬件B软件 C 机器语言 D 数据结构3、浮点数中的阶码位数主要影响（A ）A.可表示数的范围B. 可表示数的精度C.计算机系统结构D. 计算机组成4、浮点数中的尾数的位数主要影响（D ）A.可表示数的数轴上分布的离散程度B.可表示数的范围和精度C.可表示数的范围D可表示数的精度5、在非负阶，正尾数，规格化的条件下，若机器数中阶码采用二进制p位，尾数采用rm进位制，则表示的最小值是（ A ）A.1*rm-1B.1-1*rm-m’C.rm-1D.rm(2p-1)*(1-rm-m’)某台处理机的各条指令使用频度如下所示：1)请分别设计这9条指令操作码的哈夫曼编码.2)设计两种码长的扩展操作码设主存由8个存储体按低位交叉编址方式组成，主存容量1MB，Cache容量4KB，要求一个主存周期从主存取得一个块。

计算机系统结构总复习

4
∑ 而且设置有足够地缓冲寄存器，若以最快的方式用该流水计算： AiBi i =1
① 画出时空图；（9 分） ② 计算实际的吞吐率、加速比和效率。（6 分） 15. 静态多功能流水线由 6 个功能段组成，如图 E_3 所示。其中，s1、s4、s5、s6 组
成乘法流水线，s1、s2、s3、s6 组成加法流水线，各个功能段时间均为△t，假设该流水线的输出结果可以直接返回输入端，而且设置有足够地缓冲寄存器，若以最快的方式用该流水计算：∏（Ai＋Bi）（其中 i＝1..4，∏为连乘符号） ① 画出时空图；（9 分） ② 计算实际的吞吐率、加速比和效率。（6 分） 16. （20 分）设指令流水线由取指令、分析指令和执行指令 3 个部件构成，每个部件经过的时间为△t，连续流入 12 条指令。分别画出标量流水处理机以及 ILP 均为 4 的超标量处理机、超长指令字处理机、超流水处理机的时空图，并分别计算它们相对于标量流水处理机的加速比。 17. （15 分）给定以下的假设，试计算直接映象 Cache 和两路组相联 Cache 的平均访问时间以及 CPU 时间。 ① 理想 Cache（命中率为 100%）情况下的 CPI 为 2.0，时钟周期为 2ns，平均每条指令访存 1.2 次。 ② 两种 Cache 容量均为 64KB，块大小都是 32 字节。 ③ 组相联 Cache 中的多路选择器使 CPU 的时钟周期增加了 10%。 ④ 这两种 Cache 的失效开销都是 80 ns。 ⑤ 命中时间为 1 个时钟周期。 ⑥ 64 KB 直接映象 Cache 的失效率为 1.4%，64 KB 两路组相联 Cache 的失效率为 1.0%。
① 画出处理过程的时空图。（9 分） ② 计算其吞吐率、加速比和效率。（6 分） 12. 有一条动态多功能流水线由 5 段组成（如图 E_2 所示），加法用 1、3、4、5 段，

系统结构 05 - 并行处理技术

13
5.1.2 实现并行性技术的途径
1）时间并行
时间并行指时间重叠，在并行性概念中引入时间因素，让多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。时间并行性概念的实现方式就是采用流水处理部件。这是一种非常经济而实用的并行技术，能保证计算机系统具有较高的性能价格比。目前的高性能微型机几乎无一例外地使用了流水技术。
开发并行性的目的是为了能进行并行处理，以提高计算机系统求解问题的效率。例如单体多字存储器每次访存时能同时读出多个字，以加快CPU的访存操作。再如超标量流水线，它通过在CPU中重复设置多条流水线，由多个相同的流水线子部件来同时完成对多条指令的解释。这些都是靠器件简单的重复来实现的。
5
1）并行性的定义
21
隐式并行性的开发是指采用传统的C、Fortran、Lisp（一种人工智能语言）或Pascal等语言来编写源程序。顺序编码的源程序可用并行化编译器编译成并行目标代码，此编译器必须能检测并行性，并能分配机器资源。
显式并行性的开发是指程序员直接利用并行程序设计语言C、 Fortran、Lisp或Pascal等开发出并行语言源程序。并行性在用户程序中显式说明，这将大大减轻编译器的负担，而编译器只需根据程序并行性说明，将资源分配给目标机器。
多处理机
多计算机
并行性发展系统结构树
20
标量处理机只能进行指令的顺序解释。（冯.诺依曼机器）先行（precession）技术的出现使I/E（指令读取/译码和执行）操作重叠起来，从而能实现功能并行性。支持功能并行性的方法有两种：一种是同时使用多个功能部件，另一种是在不同处理级别实施流水线技术。流水线技术对处理向量数据元素的重复相同的操作表现出强大的威力，从而产生了向量流水处理机，主要用于向量数据的并行处理。并行性的开发主要有两种途径，即隐式并行性与显式并行性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

级5
作业级（程序）
任务级（过程或程级4 序段）
通信需求与
调度开销
级3
子任务级（例行程序或子程序）
粗粒度
中粒度
并行程度
级2
循环或迭代
级1
指令或语句
现代计算机程序运行并行性级别
细粒度
五种程序执行级别体现了不同的算法粒度规模以及通信和控制要求的变化。级别越低，软件进程的粒度越细。一般情况，程序可在这些级别的组合状态下运行。
指令、任务、作业并行----较高级并行，属于MIMD计算机。
3. 程序划分和粒度
并行性的开发还可以按程序大小划分不同粒度的开发方式。并行粒度（granularity）或颗粒规模（grain size）---- 衡量软件进程所含计算量的尺度。测量方法是数一下颗粒并行处理的基本程序段。并行性粒度：每次并行处理的规模大小。用字母G表示
同时性（simultaneity）:指两个或多个事件在同一时刻发生在多个资源中。并发性（concurrency）:指两个或多个事件在同一时间间隔内发生在多个资源中。
二. 并行的等级和分类
1．从计算机系统处理数据的并行性来看，并行性等级从低到高可分：位串字串-----通常指传统的串行单处理机。位并字串-----通常指传统的并行单处理机。字并位串-----同时对多个字的同一位（称位片）进行处理，开始进入并行处理领域。全并行--------同时对多个字的全部或部分位组进行处理。
多存储体多操作部件
相联处理机并行处理机
同构型多处理机系统
可重构,容错多处理机
紧密耦合系统多机互连
多计算机系统
并行处理技术发展
时间重叠
先行控制高速缓存
指令操作宏流水线
异构型多处理机系统
高级语言数据库处理机
松散耦合系统、专用外围处理机
通信时延问题：计算机中不同的时延是由机器内部系统结构，实现技术和通信方式决定。系统结构和实现技术将会影响子系统间容许时延的选择。可以用平衡粒度和时延的办法来求得较好的计算机系统性能。
处理机间通信引起的时延：除数据通路中的信号延迟外，还受到通信方式的影响。一般情况下n个处理任务互相通信时，它们之间需有n（n-1）/2 条通信链路。由此看出复杂性是以平方关系增长，这将限制大型计算机系统中允许使用的处理机数量。
（5）作业（程序）级：对于少量几台高性能处理机构成的超级计算机开发这种粗粒度并行性切实可行。
小结：
✓ 细粒度并行性常在指令级或循环级上借助于并行化或向量化编译器来进行开发的。
✓ 任务或作业步骤（过程级）中粒度并行性开发需要程序员和编译器的共同作用。
✓ 开发程序作业级的粗粒度并行性主要取决于高效的操作系统和所用算法的效率。
第五章阵列处理机和相联处理机
一、概述二、并行处理技术的发展三、阵列处理机原理四、互连网络五、脉动阵列机六、相联处理机
一、概述
并行处理技术涉及：并行结构、并行软件、并行算法等多个方面。
一.并行性概念在数值计算，数据处理，信息处理或人工智能求解过程中，可能存在某些能同时进行运算或操作的部分。在同一时刻或同一时间间隔内完成多个性质相同或不同的任务。
➢资源共享（Resource Sharing）：利用软件的方法让多个用户按一定时间顺序轮流地使用同一套资源，以提高其利用率，这样相应地提高整个系统的性能。例如多道程序分时系统.
资源共享
多道程序分时系统虚拟存储器多终端远程终端
分布处理系统
局域计算机网
通信处理机计算机网
网络化
单处理机
资源重复
（3）子任务级：属于中粒度。子程序是在单处理机或多处理机的多道程序设计这一级进行的。这一级并行性由算法设计者或程序员开发而非用编译器开发。
（4）任务级：这是与任务、过程、程序段、协同程序级相对应的中粒度或粗粒度规模。典型粒度包含的指令几千条，检测本级的并行性比细粒度级困难得多，需要更多地涉及过程间的相关性分析。需编译器支持。
2．从计算机信息加工步骤和阶段看，并行性等级可分为：存储器操作并行----并行存储器系统和以相联存储器为核心构成的相联处理机。
处理器操作步骤并行----可以是一条指令的取指、分析、执行等操作步骤，也可以是具体运算，如流水计算机。处理器操作并行----为支持向量、数组运算，可以通过重复设置处理单元进行，如并行处理机
二、并行处理技术发展
提高计算机系统的并行性的技术途径： ➢时间重叠（Time Interleaving）：在并行性概念中引入时间因素。让多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。
➢资源重复（Resource Replication）：并行性概念中引入空间因素。通过重复设置的硬件资源来提高系统可靠性或性能。例如，通过使用两台或多台完全相同的计算机完成同样的任务来提高可靠性。
（1）指令级：并行性发生在指令内部微操作之间或指令之间。取决于程序的具体情况。可借助于优化编译器开发细粒度并行性，它能自动检测并行性并将源代码换成运行时系统能识别的并行形式。
（2）循环级：相当于迭代循环操作，典型循环包含的指令大约几百条，循环级并行性是并行机或向量计算机上运行的最优程序结构，并行处理主要由编译器在循环级中进行开发。
✓ 共享变量通信常用于支持中、细粒度计算。消息传递型多计算机用于中粒度和粗粒度的计算。通常情况下，粒度越细，并行性潜力越大，通信和调度的开销也越大。细粒度能提供较高的并行度，但与粗粒度计算相比，其通信开销也较大。大规模并行性通常是在细粒度级上开发。如：SIMD或 MIMD计算机上开发的数据并行性。
G=TW/TC TW：所有处理器进行计算的时间总和； TC：所有处理器进行通信的时间总和。（设系统共有P个处理器）当TC较大时，通信量大，则G较小处理粒度较细。反之对于粗粒度的并行，通信量较小。
时延（TC ）——机器各子系统间通信开销的时间量度。如：存贮时延是处理机访问存贮器所需时间；同步时延是两台处理机互相同步所需的时间。