并行处理机和多处理机.ppt
《并行处理机和多处理机.ppt》由会员分享,可在线阅读,更多相关《并行处理机和多处理机.ppt(52页珍藏版)》请在三一文库上搜索。
1、第八章 并行处理机和多处理机 并行处理机又叫SIMD计算机。它是单一控制部件 控制下的多个处理单元构成的阵列,所以又称为阵 列处理机。 多处理机是由多台独立的处理机组成的系统。 并行处理机结构和实例 多处理机结构和实例 并行处理计算机模型 并行处理机定义: 多个PU按照一定方式互连,在同一个CU控制下 ,对各自的数据完成同一条指令规定的操作。 从CU看,指令是串行执行的,从PU看,数据是 并行处理的。 并行处理机也称为阵列处理机。按照佛林分类 法,它属于SIMD计算机。 并行处理机的应用领域: 主要用于高速向量或矩阵运算中。 8.1 并行处理机结构和实例 P0 M0 PE0 P1 M1 PE1
2、 P2 M2 PE2 Pn-1 Mn-1 Pen-1 互连网络 控制器 HJSiegel提出的并行处理机模型 下图是H.J.Siegel提出的SIMD计算机的操作模型 并行处理机的操作模型可用五元组来表示: M(N,C,I,M,R), 其中: N为PE个数。如IlliacIV有64个PE。 C为由控制部件CU直接执行的指令集, 包括标量指令和程序控制指令。 I为所有PE并行执行的指令集,包括 算术运算、逻辑运算、数据寻径、屏蔽以 及其它由每个活动的PE对它的数据所执行 的局部操作。 M为屏蔽操作集,每种屏蔽将PE划分 为允许操作和禁止操作两个子集。 R是数据寻径集,说明互连网络中PE 间通信所
3、需要的各种设置模式。 系统型号 SIMD计算系统 结构和性能 语言、编译器 和软件支持 MasPar MP-1系列 102416384个 PE, 26 GIPS或 1.3 Gflops; 每个 PE带16KB本地 存储器, X-Net网 格加一个多级交 叉开关互连网 Fortran77, MasPar Fortran (MPF)和MasPar 并行应用语言; X 窗口UNIX/OS, 符号调试程序, 可视化和动画制 作程序 典型并行处理机 Active Memory Technology DAP600 系列 1K位/PE方形网格 互连成4096PE的细 粒、位片SIMD阵 列,正交4-邻位链
4、接,20GIPS和 560Mflops峰值性 能 由主机VAX/VMS 或UNIX Fortran- plus 或DAP上 APAL提供,主机 的Fortran77或C; 与Fortran90标准有 关的Fortran-plus Thinking Machines公 司CM-2 65536个PE排成10 维超立方体, 每个 PE可有1M位存储 器, 32个PE共享 FPU选件, 峰值速 度28 Gflops和持续 速度5.6 Gflops 由VAX, Sun或 Symbolics 360主机 驱动, PARIS支持的 Lisp编译器、 Fortran90、C*和 *Lisp 并行处理机的基本结
5、构 两种SIMD计算机的基本结构: 分布存储器并行处理机 共享存储器并行处理机 一台并行处理机由五个部分组成: 多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP n目前的大部分并行处理机是基于分布式存储器模型的 系统。 n比较容易构成MPP(Massively Parallel Processor), 几十万个PE。 n必须依靠并行算法来提高PE的利用率。因此,应用领 域很有限。 nCU是控制部件,执行标量指令,并把向量指令广播到 各个PE中。在CU中通常有一个较大容量的存储器。 nIOP是输入输出处理机,或称为主机。在IOP上安装操 作系统,它
6、除了负担输入输出工作外,还负责程序的编辑 、编译和调试等工作。 n数据在局部存储器中的分布是一个很关键的问题。 n标量指令与向量指令可以并发执行。 1、分布存储器结构 LM0 互连网络 PE0 CU LM1 PE1 LMn-1 PEn-1 IOP n共享的多体并行存储器 SM 通过互连网络与各 处理单元PE相连。 n存储模块的数目等于或略大于处理单元的数目 。 n同时在存储模块之间合理分配数据,通过灵活 、高速的互连网络,使存储器与处理单元之间的数据 传送在大多数向量运算中都能以存储器的最高频率进 行,而最少受存储冲突的影响。 n共享存储器模型的处理单元数目一般不多,几 个至几十个。 nBur
7、roughs Scientific Processor (BSP)采用了这 种结构。16个PE通过一个1617的对准互连网络访问 17个共享存储器模块。 n存储器模块数与PE数互质可以实现无冲突并行 访问存储器。 2. 共享存储器并行处理机 PE0 互连网络 CU PE1PEn-1 IOP SM0 SM1SMk-1 n并行处理机的主要特点如下: n速度快,特别适于高速数值计算。 nSIMD依靠的是资源重复,而不是时间重叠。它 依靠增加PE个数,与流水线处理机主要依靠缩短时钟周 期相比,其提高速度的潜力要大得多。 n依赖于互连网络和并行算法。互连网络决定了PE 之间的连接模式,也决定了并行处理机
8、能够适应的算法 。 n需要有一台高性能的标量处理机。如果一台机器的 向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于 标量运算占10的题目来说,总的有效速度就不过是每秒一千万次 。 nSIMD基本上是一台向量处理专用计算机。尽管 它有一个功能很强的控制部件实际上起作标量处理机的 作用,但仍然必须和一台高性能单处理机配合工作,使 后者担负系统的全部管理功能。 并行处理机的特点 nIlliacIV 是最先采用SIMD结构的并行机 n随后一个方向是用位片PE制造的并行机,如 Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD 模式运行的同步MIMD计算
9、机。另一方向是用字宽运算PE的中 粒度SIMD计算机。 n并行处理机的两个发展方向: n保留阵列结构,但每个处理单元的规模减小,如一个 bit。去掉阵列结构和分布存储器。 nBurroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究 用的。MasPar MP1是中粒度并行处理机的典型代表。 n下面介绍并行处理机的两种典型代表: n采用阵列结构分布存储器的IlliacIV并行处理机 去掉阵列结构和分布存储器BSP并行处理机。 并行处理机实例 Illiac IV (Barnes等,1968) Goodyear MPP (Batcher,1980) BS
10、P (kuck和Stokes, 1982) DAP 610 (AMT,Inc.1987) CM-2 (TMC,1990) CM-5 (TMC,1991) MasPar MPI (Nickolls,1990) IBM GF-11 (Beetem等,1985) SIMD计算机发展过程 n1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。 n1966年美国国防远景研究规划局ARPR与伊利诺依 大学签定合同。原计划:256个PE,每个PE每240ns
11、处 理一个64位的浮点数,每个局部存储器PEM为2K?64位 ,总的运算速度为1GFLOPS。 n美国Burroughs公司和伊利诺依大学于1972年共同 设计和生产,1975年实际投入运行。用了4倍的经费, 只达到1/20的速度。只实现了8?864个PE,只达到 50MFLOPS。 nIlliacIV系统的影响非常大。它是并行处理机的典 型代表,也是分布存储器并行处理机的典型代表。 nIlliacIV系统由三大部分组成。IlliacIV处理机阵列 ,阵列控制器,一台标准的Burroughs B6700计算机。 1 IlliacIV 阵列处理机 n1、IlliacIV处理阵列 nIlliacI
12、V处理阵列由8864个PU组成。每个PU由处理部件PE 和它的局部存储器PEM组成。 n每一个PUi只和它的东、西、南、北四个近邻直接连接。 PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64 n南北方向上同一列的PU连成一个环,东西方向上构成一个闭 合螺线。 n采用闭合螺线最短距离不超过7步。而普通网格最短距离不超 过8步。 n例如:从PU0到PU36的距离:采用普通网格必须8步: PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35
13、PU36 或 (等于8步的很多,大于8步的更多) 如果采用闭合螺旋线,只需要7步: PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36 n普通网格必须8步: PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36 或 n闭合螺旋线只要7步: PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36 或 PU0 PU63 PU55 PU47 PU39 PU38 PU37 PU36 或 2、阵列控制器 n阵列控制器CU实际上是一台小型控制计
14、 算机。对阵列处理单元实行控制和完成标量 操作。标量操作与各PE的数组操作可以重叠 执行。 n控制器的功能有以下五个方面: (1) 对指令进行译码,并执行标量指令; (2) 向各处理单元发出执行数组操作指令所需 的控制信号; (3) 产生和向所有处理单元广播公共的地址; n(4) 产生和向所有处理单元广播公共的数 据; (5) 接收和处理PE、I/O操作以及B6700产生 的陷阱中断信号。 n2、输入输出系统 nIlliacIV的输入输出系统由磁盘文件系统 DFS、I/O分系统和一台B6700处理机组成。 nI/O分系统又由输入输出开关IOS、控制 描述字控制器CDC和输入输出缓冲存储器 BI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理机
链接地址:https://www.31doc.com/p-2247839.html