《计算机系统结构5-5.ppt》由会员分享,可在线阅读,更多相关《计算机系统结构5-5.ppt(31页珍藏版)》请在三一文库上搜索。
1、5.4 指令级高度并行的超级计算机,超标量处理机 超长指令字处理机 超流水线处理机,超标量处理机,采用多指令流水线(度=m) 配置多套功能部件、指令译码电路和多组总线,并且寄存器也备有多个端口和多组总线。 适合于求解稀疏向量、矩阵 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone(飓风)等,超标量处理机(续),度m=3的超标量处理机时空图,超标量处理机基本结构,一般流水线处理机: 一条指令流水线 一个多功能操作部件,每个时钟周期平均执行指令的条数小于1。 多操作部件处理机: 一条指令流水线 多个独立的操作部件,操作部件可以采用流水线,也可以不流
2、水 多操作部件处理机的指令级并行度小于1 超标量处理机典型结构: 多条指令流水线 先进的超标量处理机有:定点处理部件CPU,浮点处理部件FPU,图形加速部件GPU 大量的通用寄存器,两个一级高速Cache 超标量处理机的指令级并行度大于1,举例: Motorola公司的MC88110,10个操作部件 两个寄存器堆:整数部件通用寄存器堆,32个32位寄存器;浮点部件扩展寄存器堆,32个80位寄存器。每个寄存器堆有8个端口,分别与8条内部总线相连接,有一个缓冲深度为4的先行读数栈和一个缓冲深度为3的后行写数栈。 两个独立的高速Cache中,各为8KB,采用两路组相联方式。 转移目标指令Cache,
3、在有两路分支时,存放其中一路分支,超标量处理机MC88110的结构,单发射与多发射,单发射处理机: 每个周期只取一条指令、只译码一条指令,只执行一条指令,只写回一运算结果 取指部件和译码部件各设置一套 可以只设置一个多功能操作部件,也可以设置多个独立的操作部件 操作部件中可以采用流水线结构,也可以不采用流水线结构 设计目标是每个时钟周期平均执行一条指令,ILP(Instruction Level Parallelism )的期望值1,单发射处理机的指令流水线时空图,单发射与多发射(续),多发射处理机: 每个周期同时取多条指令、同时译码多条指令,同时执行多条指令,同时写回多个运算结果 需要多个取
4、指令部件,多个指令译码部件和多个写结果部件 设置多个指令执行部件,复杂的指令执行部件一般采用流水线结构 设计目标是每个时钟周期平均执行多条指令,ILP的期望值大于1,多发射处理机的指令流水线时空图,WR,超标量处理机: 一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机 必须有两条或两条以上能够同时工作的指令流水线 先行指令窗口: 能够从指令Cache中预取多条指令 能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测 窗口的大小:一般为2至8条指令 采用目前的指令调度技术,每个周期发射2至4条指令比较合理,举例,Intel公司的i860、i960、Pentium处理机, Moto
5、lora公司的MC88110处理机,IBM公司的Power 6000处理机等每个周期都发射两条指令 TI公司生产的SuperSPARC处理机以及Intel的Pentium III处理机等每个周期发射三条指令 操作部件的个数多于每个周期发射的指令条数。4个至16个操作部件 超标量处理机的指令级并行度:1ILPm;m为每个周期发射的指令条数。,超流水线处理机,两种定义: 一个周期内能够分时发射多条指令的处理机称为 超流水线处理机。 指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机。 提高处理机性能的不同方法: 超标量处理机是通过增加硬件资源为代价来换取处理机性能的。 超流水线处理机则通
6、过各硬件部件充分重叠工作来提高处理机性能。 两种不同并行性: 超标量处理机采用的是空间并行性 超流水线处理机采用的是时间并行性,指令执行时序,每隔1/n个时钟周期发射一条指令,流水线周期为1/n个时钟周期 在超标量处理机中,流水线的有些功能段还可以进一步细分 例如:ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水段。也有些功能段不能再细分,如WR功能段一般不再细分。 因此有超流水线的另外一种定义:有8个或8个以上流水段的处理机称为超流水线处理机,超流水线处理机(续),每个时钟周期分时发射3条指令的超流水线,举例: MIPS R4000,MIPS R4000处理机每个时钟周期包含两
7、个流水段,是一种很标准的超流水线处理机结构。指令流水线有8个流水段 有两个Cache,指令Cache和数据Cache的容量各8KB,每个时钟周期可以访问Cache两次,因此在一个时钟周期内可以从指令Cache中读出两条指令,从数据Cache中读出或写入两个数据。 主要运算部件有整数部件和浮点部件,MIPS R4000处理机的流水线操作,MIPS R4000正常指令流水线工作时序,超标量超流水线处理机,把超标量与超流水线技术结合在一起,就成为超标量超流水线处理机 指令执行时序 超标量超流水线处理机在一个时钟周期内分时发射指令n次,每次同时发射指令m条,每个时钟周期总共发射指令m n条。,每时钟周
8、期发射3次,每次3条指令,三种指令级并行处理机性能比较,超标量处理机、超流水线处理机和超标量超流水线处理机相对于单流水线普通标量处理机的性能曲线。,结论,三种处理机的性能关系超标量处理机的相对性能最高,其次是超标量超流水线处理机,超流水线处理机的相对性能最低,主要原因如下: 超标量处理机在每个时钟周期的一开始就同时发射多条指令,而超流水线处理机则要把一个时钟周期平均分成多个流水线周期,每个流水线周期发射一条指令;因此,超流水线处理机的启动延迟比超标量处理机大。,结论(续),条件转移造成的损失,超流水线处理机要比超标量处理机大。 在指令执行过程中的每一个功能段,超标量处理机都重复设置有多个相同的
9、指令执行部件,而超流水线处理机只是把同一个指令执行部件分解为多个流水级;因此,超标量处理机指令执行部件的冲突要比超流水线处理机小。,结论(续),实际指令级并行度与理论指令级并行度的关系 当横坐标给出的理论指令级并行度比较低时,处理机的实际指令级并行度的提高比较快。 当理论指令级并行度进一步增加时,处理机实际指令级并行度提高的速度越来越慢。 在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当,否则,有可能造成花费了大量的硬件,但实际上处理机所能达到的指令级并行度并不高。 目前,一般认为,m 和 n 都不要超过4。,超标量、超流水、超标量超流水处理机的主要性能,超长指令字处理机(VLIW),VLIW (Very Long Instruction Word) 是将水平型微码和超标量处理两者结合的结构 指令字长可达数百位,多个功能部件并发工作,共享大容量寄存器堆。 是一种单指令多操作码多数据的系统结构(SIMOMD),超长指令字处理机(续),超长指令字处理机(续),小结,流水线方式 相关问题:转移、数据、控制、指令 时空图分析 超标量、超流水线、VLIW 向量的流水处理,
链接地址:https://www.31doc.com/p-2922576.html