第6章并行处理机

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我国超级计算机的发展和应用
银河-I巨型计算机 1983年12月 银河-II巨型计算机 1992年11月 银河-II主机为我国高性能向量中央处理机 共享主存紧耦合系统,基本字长64位,峰值速度为每秒10亿 次以上运算操作,拥有两个独立的输入输出子系统。各项技 术指标达到了八十年代中后期国际先进水平。 银河-III巨型计算机 1997年6月 银河III采用分布共享存储结构,峰值性能达到每秒130亿浮 点运算。具有良好的可扩展性,银河III在MPP资源管理与处 理机调度、并行I/O软件、高性能优化编译、网络软硬件设计 等技术方面均达到国内领先水平,系统综合技术达到当时国 际先进水平。
000 100
Z
001 X
101
(2)、PM2I单级网络
PM2I单级网络是“加减2 i”(Plus – Minus 2 i )单级网络的简称。能实现与 j 号处理单 元直接相连的是号为 j ± 2 i 的处理单元。即: PM2 +i ( j ) = j + 2 i mod N PM2 -i ( j ) = j - 2 i mod N 式中,0 ≤j ≤N-1, 0 ≤I ≤n-1,n = log 2 N 实际上PM2I互连网络只有2n-1种不同的互连函数。 最大距离:「n / 2」
(1)、立方体单级网络 Y
010
110
基本的单级互连网络
011 111
N个节点的立方体单级网络共有n = log 2 N 种互连函数,
Cube i (P n-1…P i …P 1P 0 )
= P n-1…P i …P 1P 0
最大距离:n,即反复使用单级网 络,最多经过n次传送就可以实现 任意一对入、出端间的连接。
PM2 +0
0
1
2
3
4
5
6
7
PM2 +1
0
1
2
3
4
5
6
7
PM2 ±2
0
1
2
3
4
5
6
7
(3)、混洗交换单级网络
000 0 001 1 010 2 011 3 100 4 101 5 110 6 111 7
混洗交换单级网络(Shuffle-Exchange)的连接规律是把全部按编 0 000 码顺序排列的处理单元从当中分为数目相等的两半,前一半和
2009年6月15日,国内首台百万亿次超级计算机“魔方”,在上海正式启用。“魔方” 不但是亚洲第一的超级计算机,也是目前美国本土之外唯一计算速度排名进入全球前十 的超级计算机,表明中国成为全球第二个能够研发百万亿次超级计算机的国家。
2009年10月29日,我国首台千万亿次超级计算机系统——“天河一号”由国防科学技 术大学研制成功。该系统突破了多阵列可配置协同并行体系结构、高速率可扩展互连通 信、高效异构协同计算、基于隔离的安全控制、虚拟化的网络计算支撑、多层次的大规 模系统容错、系统能耗综合控制等一系列关键技术,系统峰值性能达每秒1206万亿次双 精度浮点运算,内存总容量98TB,点点通信带宽每秒40Gb,共享磁盘容量为1PB,具有 高性能、高能效、高安全和易使用等显著特点,综合技术水平进入世界前列。
1010
A B 8 9 E F (1111) C (1100) D (1101) 2 (0010) 3 (0011) 0 (0000) 1 (0001) 6 7 4 (0100) 5
6
7
多级互连网络
单级网络只有有限的几种连接,因而在阵列机中必须经过多次循环,才能实现任意两个处理 单元之间的信息传送。多级网络则是由多个单级网络组合而成,以实现任意两个处理单元之 间的连接。 不同的多级网络表现在交换开关的功能、拓扑结构和所用的开关控制方式上的不同。 交换开关:具有两个入端和两个出端的交换单元,用作各种多级互连网络的基本构件。 拓扑结构:指的是各级交换开关之间的连接模式,可以有立方体、混洗、PM2I或它们的组 合 控制方式:指的是对各个交换开关进行转切控制的方式。常分为三种:级控制、单元控制、 部分级控制;
PU63


PU7
PU8



PU15
PU16

PU55
PU56
PU57
PU63
PU0
PU0
PU1
PU7
任意两个处理单元之间的最短距离不会超过√N-1步
PU0
PU1
PU2
PU3





PU4
PU5
PU6
PU7

PU8
PU9
PU10
PU11
PU12
PU13
PU14
PU15
6、SIMD计算机的互连网络 SIMD互连网络的设计目标: 结构要简单,以降低成本; 连接要灵活,以满足算法和应用的需要; 中转传送的步数要少,以提高阵列运算速度; 规整性、模块性要好,以便可以采用基本构件来组合,增强系统的可扩充性,也便于大规模集 成。 互连网络的连接规律可以用互连函数来表示,它反映了所有N个入端同时存在的入端j连至出端f (j)的函数关系。
曙光一号并行计算机是 1993 年我国自行研制的第一台用微处理器芯片(88100 微处理器)构成的 全对称紧耦合共享存储多处理机系统(SMP),最大支持 16 个 CPU(4 CPU 共享存储为一结点 主板,4 个主板通过 VME总线连接),系统外设采用 SCSI 设备,系统峰值定点速度每秒 6.4亿, 主存容量最大 768 MB。在对称式体系结构、操作系统核心代码并行化和支持细粒度并行的多线程 技术等方面实现了一系列的技术突破。硬件的技术突破包括多处理机共享内部总线协议设计、多 机中断控制器芯片设计等;软件包括 SNIX (Symmetric uNIX) 操作系统采用的细粒度加锁以及动 态分配 I/O 中断向量以实现多机系统对称式处理的方法;在 UNIX 核心中增加共享资源进程以及 成群调度 ( Gang Scheduling) 策略, 在用户空间以库函数的方式实现线程 ( Threads) 概念, 支持 中微粒度的并行计算等。
各个处理单元都遇到了与其他多个处理单元连接的机会。
4 100
5 101
6 110
7 111
全混交换单级网络——在全混的基础上再增加Cube 0交换函数。
在全混交换单级网络中,最远的两个入、出端号是全“0”和“1”,它们的连接需要 n 次交换 和 n-1 次混洗,所以最大距离为2n-1。
0
1
2
3
4
5
“神威”巨型计算机
1999年8月
“神威”计算机有384个CPU,内存总容 量为48GB,峰值运行速度达到了每秒 3840亿次。
国家最高科学技术奖 2010年 师昌绪 (著名材料科学家 ) 王振义 (血液学专家 ) 2009年 谷超豪 (著名数学家) 孙家栋(运载火箭与卫星技术专家) 2008年 王忠诚 (神经外科专家) 徐光宪(化学家) 2007年 闵恩泽(石油化工催化剂专家) 吴征镒(著名植物学家) 2006年 李振声(遗传学家,小麦远缘杂交的奠基人) 2005年 叶笃正(世界著名气象学家), 吴孟超(世界著名肝脏外科学家) 2004年 空缺 2003年 刘东生(著名地球环境科学家) 王永志(著名航天技术专家) 2002年 金怡濂(高性能计算机领域的著名专家) 2001年 王选(汉字激光照排系统创始人) 黄昆(著名物理学家) 2000年 吴文俊(世界著名数学家)
6 7
0 1
2 3 4 5
6 7
8 9 A B C D
E F
0级
0 2 1 3 4 6 5 7
8 A 9 B C E D
F 1级
0 4 1 5 2 6 3 7
8 C 9 D
A E B F
2级
0
8 1 9 2 A 3 B 4 C 5 D
6 E
7
F 3级
0 1 2 N=16 3 n =log2N=4 4 每一级N/2个二功能 5 交换 6 开关 7
4、并行处理机的构形
CU CUM
SC
I/O接口
D
PEM0
PEM1
PE0
PE1
ICN
PEMN-1 PEN-1
分布式存储器的并行处理机构形: 各处理单元的局部存储器只能被本处理单元直接访 问; 在CU中有存放程序和数据的主存储器; ILLIAC Ⅵ、MPP、DAP、CM-2、
MP-1
4、并行处理机的构形
多级立方体网络
0
0
A1
1
2
2
B3
3 4
4
C5
5
6
6
D7
7
0级
0
0
2 E2
1
1
3 F3
4
4
6 G6
5
5
7 H7
1级
0
0
4 I4
1
1
5 J5
2
2
6 K6
3
3
7 L7
2级
0
STARAN网络:
1
第 i 级交换单元处于交换
状态时,实现的是Cube i
互连函数,且都采用二功
2
能交换单元,和级控制方
式。
3
4 5
1989年,BBN公司的TC2000 1992年,Intel公司的Paragon,TMC公司的CM-5 1993年,Cray公司的T3D 1994年,IBM公司的SP2 1996年,Cray公司的T3E,Hitachi公司的SR2201,SGI公司的Origin2000,Intel公司的 ASCE RED。其中,1996年12月宣布的ASCI RED,运算速度超过了万亿次/秒。
第6章并行处理机
2.向量机鼎盛阶段(1976-1990) 1976年,CRAY公司推出CRAY-1向量机,开始了向量机的蓬勃发展,其峰值速度为
0.1Gflops. 1985年,CRAY-2,1G flops 1990年,SX-3,22G flops 1991年,Cray-YMP-C90,16Gflops
8 9 A
B C
D E F
0 (0000) 1 (0001) 2 (0010) 3 (0011) 4 (0100) 5 (0101) 输 6 (0110) 入 7 (0111) 端 8 (1000) 9 (1001) A (1010) B (1011) C (1100) D (1101) E (1110) F (1111)
向量机处理对提高计算机运算速度十分有利,有利于流水线的充分利用,有利于多功 能部件的充分利用,但由于时钟周期已接近物理极限,向量计算机的进一步发展已经不太可 能。
3. MPP(massively parallel processing 蓬勃发展阶段(1990年至今)
就在传统向量机逐渐萎缩的同时,迎来了大规模并行处理MPP机蓬勃发展的时代。各种新 技术层出不穷,大公司也纷纷介入。这一时期的代表机型有:
i入
i出
直连——i 入连 i 出, j 入连 j 出
交换——i 入连 j 出, j 入连 i 出
j入
j出
上播——i 入连i 出和 j 出, j 入空
下播——j 入连i 出和 j 出, i 入空
交换开关只有直连和交换两种功能的称为二功能交换单元; 交换开关可以有直连、交换、上播和下播等四种功能的称为四功能交换单元;
件CU控制下,同时对处理单元各自分配到的数据并行完成同一条指令所规定的操作。又叫 阵列处理机,
是典型的指令操作级并行的SIMD计算机
2、特点:特别适于求解向量、阵列类的计算问题
阵列处理机:依靠处理单元的资源重复设置,利用的是并行性中的同时性;实现的是操作 级的并行
解题专用性强,灵活性差,处理单元的时间利用率低,但提高速度的潜力大
CU
PE0
PE1
ICN
SC PEN-1
集中式共享存储器的并行处理机 构形:
系统存储器由N个存储体集中组 成,经互连网络ICN为全部N个 处理单元所共享
BSP
MM0
MM1
PEMN-1
I/O-CH
I/O
SM
5、处理单元阵列结构(以ILLIAC Ⅵ为例 )
PU63 PU7
PU56 PU0 PU8
PU57 PU1 PU9
“魔方”的诞生将中国的超级计算一下子带入了百万亿次计算时代,但是应用却仍 停留在几万亿次到几十万亿次的水平,中间至少相差了一代。因为现在能够写此类软件 的人才太过稀少,硬件跟软件的关系就像“修了一条好路,却没有好车”。
一、并行处理机
1、概念: 并行处理机是将重复设置的N个处理单元,按一定方式互连组成阵列,在单一控制部
向量流水处理机:依靠的是在系统同一套资ຫໍສະໝຸດ Baidu中各个处理机、部件、子部件在时间上的重 叠使用,利用的是并行性中的并发性
解题通用性强,灵活性好,流水线各部件的时间利用率高,提高速度受到限制。
3、实质:异构型的多处理机系统 专门进行向量/数组运算的处理单元阵列 专门进行标量运算和处理的控制处理机CU 专门进行输入输出和运行操作系统的管理处理机SC 互连网络特别重要,它规定了处理单元的连接模式,决定了SIMD能适应的算法类别
后一半在连至出端时正好一一隔开。
1 001 Shuffle(P n-1…P i …P 1P 0 ) = P n-2…P 1P 0 P n-1
特性:不可逆;
2 010
每全混一次,新的最高位就被移至最低位;当经过 n 次
全排列后,全部N各处理单元便又恢复到最初的排列顺序。在
3 011 多次全混的过程中,除了编号为全“0”和全“1”的处理单元外,
相关文档
最新文档