欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第5章-计算机体系结构.ppt

    • 资源ID:2909755       资源大小:757.52KB        全文页数:94页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第5章-计算机体系结构.ppt

    计算机体系结构,讲授人: 蔡娟,第5章流水和指令级高级并行的超级机,5.1 指令的重叠执行方式 5.2 流水线技术 5.3 超标量处理机 5.4 超流水线处理机 5.5 超标量超流水线处理机,提高指令执行速度的主要途径: (1) 提高处理机的工作主频 (2) 采用更好的算法和设计更好的功能部件 (3) 采用指令级并行技术 三种指令级并行处理机: (1) 流水线处理机和超流水线(Super- pipelining)处理机 (2) 超标量(Superscalar)处理机 (3) 超长指令字(VLIW: Very Long Instruction Word)处理机,5.1 指令的重叠执行方式 1、顺序执行方式 执行n条指令所用的时间为: 如果每段时间都为t,则执行n条指令所用的时间为: T=3nt,取指令k,分析k,执行k,取指令k+1,分析k+1,执行k+1,主要优点: 控制简单,节省设备。 主要缺点: 执行指令的速度慢,功能部件的利用率很低。 2、一次重叠执行方式 一种最简单的流水线方式 如果两个过程的时间相等,则执行n条指令的时间为:T=(1+2n)t,取指,分析,执行,取指,分析,执行,取指,分析,执行,主要优点: 指令的执行时间缩短 功能部件的利用率明显提高 主要缺点: 需要增加一些硬件 控制过程稍复杂,如果三过程的时间相等,执行n条指令的时间为:T=(2+n)t 理想情况下同时有三条指令在执行 处理机的结构要作比较大的改变,必须采用先行控制方式,取指k+2,分析k+2,执行k+2,取指k+1,分析k+1,执行k+1,取指k,分析k,执行k,3、二次重叠执行方式,1、采用二次重叠执行方式,必须解决两个问题: (1) 有独立的取指令部件、指令分析部件 和指令执行部件 独立的控制器: 存储控制器、指令控制器、运算控制器 (2) 要解决访问主存储器的冲突问题 取指令、分析指令、执行指令都可能要访问存储器 2、解决访存冲突的方法: (1) 采用低位交叉存取方式: 这种方法不能根本解决冲突问题。 取指令、读操作数、写结果。,先行控制方式的原理,(2) 两个独立的存储器:独立的指令存储器和数据存储器。 如果再规定,执行指令所需要的操作数和执行结果只写到通用寄存器,那么,取指令、分析指令和执行指令就可以同时进行。 在许多高性能处理机中,有独立的指令Cache和数据Cache。 这种结构被称为哈佛结构。 (3) 采用先行控制技术。 先行控制技术的关键是缓冲技术和预处理技术。 缓冲技术是在工作速度不固定的两个功能部件之间设置缓冲栈,用以平滑它们的工作。 在采用了缓冲技术和预处理技术之后,运算器能够专心于数据的运算,从而大幅度提高程序的执行速度。,第五章 标量处理机,5.1 先行控制技术 5.2 流水线技术 5.3 超标量处理机 5.4 超流水线处理机 5.5 超标量超流水线处理机,5.2.1 流水线工作原理 5.2.2 流水线的分类 5.2.3 线性流水线的性能分析 5.2.4 非线性流水线的调度技术,5.2 流水线技术,空间并行性: 设置多个独立的操作部件 多操作部件处理机 超标量处理机 时间并行性: 采用流水线技术。 不增加或只增加少量硬件就能使运算速度提高几倍 流水线处理机 超流水线处理机,5.2 流水线技术,5.2.1 流水线工作原理 1、简单流水线 流水线的每一个阶段称为流水步、流水步骤、流水段、流水线阶段、流水功能段、功能段、流水级、流水节拍等。,分析器 分析k+1,流水 锁存器,执行部件 执行k,流水 锁存器,输 入,输 出,t1,t2,在每一个流水段的末尾或开头必须设置一个寄存器,称为流水寄存器、流水锁存器、流水闸门寄存器等。会增加指令的执行时间。 为了简化,在一般流水线中不画出流水锁存器。,2、一种指令流水线 一般4至12个流水段,等于及大于8个流水段的称为超流水线处理机,取指,形成操 作数地址,译码,取操 作数,执行,保存 结果,3、流水线的时空图 一条简单流水线的时空图:,分析k,分析k+1,分析k+2,分析k+3,执行k,执行k+1,执行k+2,执行k+3,时间,空间,0,t1,t2,t3,t4,t5,一个浮点加法器流水线的时空图(由求阶差、对阶、尾数加和规格化4个流水段组成):,ED1,时间,空间,0,t1,t2,t3,t4,t5,ED2,ED3,ED4,ED5,EA1,EA2,EA3,EA4,EA5,MA1,MA2,MA3,MA4,MA5,NL1,NL2,NL3,NL4,NL5,t6,t7,t8,NL:规格化,MA:尾数加,EA:对阶,ED:求阶差,4、流水线的主要特点 只有连续提供同类任务才能充分发挥流水线的效率: 对于指令流水线:要尽量减少因条件分支造成的“断流” 对于操作部件:主要通过编译技术,尽量提供连续的同类操作 在流水线的每一个流水线段中都要设置一个流水锁存器 时间开销:流水线的执行时间加长 是流水线中需要增加的主要硬件之一,各流水段的时间应尽量相等 流水线处理机的基本时钟周期等于时间最长的流水段的时间长度 流水线需要有“装入时间”和“排空时间”,1、线性流水线与非线性流水线 流水线的各个流水段之间是否有反馈信号 线性流水线(Linear Pipelining) 每个流水段都流过一次,且仅流过一次 非线性流水线(Nonlinear Pipelining) 在流水线的某些流水段之间有反馈回路或前馈回路 线性流水线能够用流水线连接图唯一表示 非线性流水线必须用流水线连接图流水线预约表等共同表示,5.2.2 流水线的分类,S1,输入,S2,S3,输出,前馈回路,反馈回路,一种简单的非线性流水线,2、按照流水线的级别来分 处理机级流水线, 又称为指令流水线 (Instruction Pipelining)例如:在采用先行控制器的处理机中,各功能部件之间的流水线,先行指令 缓冲栈,输入,先行控制方式 中的指令流水线,先行指令 分析器,先行读数栈 先行操作栈,取指,译码,取操作数,指令执 行部件,后行 写数栈,输出,执行,写结果,处理机之间的流水线称为宏流水线 (Macro Pipelining) 每个处理机对同一个数据流的不同部分分别进行处理,求阶差,输入,输出,t1,对阶,尾数加,规格化,t2,t3,t4,P1,输 入,任务1,M,M,P2,任务2,M,P3,任务3,输 出,部件级流水线(操作流水线) 如浮点加法器流水线,3、单功能流水线与多功能流水线 单功能流水线: 只能完成一种固定功能的流水线 Cray-1计算机中有12条;YH-1计算机有18条;Pentium有一条5段的定点和一条8段的浮点流水线;Pentium有三条指令流水线,其中两条定点指令流水线,一条浮点指令流水线。,多功能流水线: 流水线的各段通过不同连接实现不同功能 Texas公司的ASC计算机中的8段流水线,能够实现:定点加减法、定点乘法、浮点加法、浮点乘法、逻辑运算、移位操作、数据转换、向量运算等。,4、静态流水线与动态流水线 静态流水线: 同一段时间内,多功能流水线中的各个功能段只能按照一种固定的方式连接,实现一种固定的功能。 只有连续出现同一种运算时,流水线的效率才能得到充分的发挥。 动态流水线: 在同一段时间内,多功能流水线中的各段可以按照不同的方式连接,同时执行多种功能。,1,时间,空间,0,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,1,2,3,4,1,2,3,1,2,1,输入,求阶差,对阶,尾数加,规格化,尾数乘,累加,输出,静态流水线时空图,浮点加法,定点乘法,1,时间,空间,0,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,输入,求阶差,对阶,尾数加,规格化,尾数乘,累加,输出,动态流水线时空图,1,2,3,5,4,6,1,2,3,5,4,1,2,3,4,1,2,3,浮点加法,定点乘法,按照数据表示方式: 标量流水线和向量流水线 按照控制方式:同步流水线和异步流水线 顺序流水线与乱序流水线: 乱序流水线又称为无序流水线、错序流水线或异步流水线等,S1,就绪,回答,S2,就绪,回答,S3,就绪,回答,输出,就绪,回答,输入,5、流水线的其他分类方法,衡量流水线性能的主要指标有: 吞吐率、加速比和效率 1、吞吐率(Though Put) 求流水线吞吐率的最基本公式:TP = n / Tk n为任务数, Tk为完成n个任务所用时间 各段执行时间相等,输入连续任务情况下完成n个连续任务需要的总时间为: Tk= (k+n-1) t k为流水线的段数, t为时钟周期,5.2.3 线性流水线的性能分析,1,时间,空间,S1,2,3,n-1,n,S2,S3,S4,1,2,3,n-1,n,1,2,3,n-1,n,1,2,3,n-1,n,kt,(n-1) t,nt,(k-1)t,T,吞吐率: 最大吞吐率为: 各段执行时间不相等、输入连续任务情况下: 吞吐率为: 最大吞吐率为:,流水线各段执行时间不相等的解决办法,S1,输 入,t1=t,S2,t2=3t,S3,t3=t,S4,t4=t,输 出,1,时间,空间,S1,S2,S3,S4,ti,(n-1)t2,Tk,2,3,n,1,2,3,n,1,2,3,n,1,2,3,n,二是将 “瓶颈”流水段重复设置:,S1,输入,输出,t,S2-1,t,S2-2,t,S2-3,t,S3,t,S4,t,S2(3t),S1,输入,输出,t1=t,S2-1,S2-1,S2-1,S3,S4,t3=t,t4=t,t2=3t,一是将“瓶颈”流水段细分(如果可分的话):,1,时间,空间,2,3,n,S1,流水段重复设置的流水线,S2-1,4,5,6,1,4,-2,-1,n-2,2,5,n-1,3,6,n,1,2,3,n,4,5,6,-2,-1,1,2,3,n,4,5,6,-2,-1,S2-2,S2-3,S3,S4,2、加速比(Speedup) 计算流水线加速比的基本公式: S = 顺序执行时间T0 / 流水线执行时间Tk 各段执行时间相等,输入连续任务情况下 加速比为: 最大加速比为: 各段执行时间不等,输入连续任务情况下实际加速比为:,K=6,K=10,任务 个数,加速比,10,2,4,6,8,1,1,2,4,8,16,32,64,128,计算流水线效率的一般公式:各流水段执行时间相等,输入n个连续任务 流水线的效率为: 流水线的最高效率为: 各流水段执行时间不等,输入n个连续任务 流水线的效率为:,3、效率(Efficiency),流水线各段的设备量或各段的价格不相等时: 流水线的效率为: 即: 其中,ai k,且,流水线的吞吐率、加速比与效率的关系: 因为 因此:E=TP· t ,S=k·E 5、流水线性能分析举例 对于单功能线性流水线,输入连续任务的情况,通过上面给出的公式很容易计算出流水线的吞吐率、加速比和效率。 例5.2:用一条4段浮点加法器流水线求8个浮点数的和: ZABCDEFGH,解: Z = (A+B) + (C+D) + (E+F) + (G+H),1,时间,空间,2,3,求阶差,4,5,6,7,1,2,3,4,5,6,7,1,2,3,4,5,6,7,1,2,3,4,5,6,7,对阶,尾数加,规格化,加数,A,C,E,G,A+B,E+F,B,D,F,H,C+D,G+H,A+B+C+D,E+F+G+H,结果,A+B,C+D,E+F,G+H,A+B+C+D,E+F+G+H,7个浮点加法共用了15个时钟周期。 流水线的吞吐率为: 流水线的加速比为: 流水线的效率为:,第五章 标量处理机,5.1 先行控制技术 5.2 流水线技术 5.3 超标量处理机 5.4 超流水线处理机 5.5 超标量超流水线处理机,5.3 超标量处理机 5.3.1 基本结构 5.3.2 单发射与多发射,超标量处理机: Intel公司的i860, i960, Pentium处理机Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等。 超流水线处理机: SGI公司的MIPS R4000, R5000, R10000等。 超标量超流水线处理机: DEC公司的Alpha等。,k段流水 线基准标 量处理机,m度 超标量,n度超 流水线,(m,n)度 超标量 超流水,机器类型,机器流水 线周期,同时发射 指令条数,指令发射 等待时间,指令级并 行度ILP,1个时 钟周期,1条,1个时 钟周期,1,1,m,1,m,1/n,1,1/n,n,1/n,m,1/n,mn,超标量、超流水、超标量超流水处理机的主要性能,5.3.1 基本结构 一般流水线处理机: 一条指令流水线, 一个多功能操作部件,每个时钟周期平均执行指令的条数小于1。 多操作部件处理机: 一条指令流水线, 多个独立的操作部件,操作部件可以采用流水线,也可以不流水。多操作部件处理机的指令级并行度小于1。,超标量处理机典型结构: 多条指令流水线 先进的超标量处理机有:定点处理部件CPU,浮点处理部件FPU,图形加速部件GPU 大量的通用寄存器,两个一级高速Cache 超标量处理机的指令级并行度大于1,Motorola公司的MC88110: 10个操作部件 两个寄存器堆:整数部件通用寄存器堆,32个32位寄存器;浮点部件扩展寄存器堆,32个80位寄存器。每个寄存器堆有8个端口,分别与8条内部总线相连接,有一个缓冲深度为4的先行读数栈和一个缓冲深度为3的后行写数栈。 两个独立的高速Cache中,各为8KB,采用两路组相联方式, 转移目标指令Cache,在有两路分支时,存放其中一路分支上的指令,整数 部件,整数 部件,位 操作,浮点 加,乘法 部件,除法 部件,图形 部件,图形 部件,内部总线,读数存 数部件,通用寄 存器堆,扩展寄 存器堆,目标 指令,指令分配 转移部件,数据Cache (8KB),指令Cache (8KB),系统总线,32位地址总线,32位数据总线,超标量处理机MC88110的结构,5.3.2 单发射与多发射 单发射处理机: 每个周期只取一条指令、只译码一条指令,只执行一条指令,只写回一个运算结果 取指部件和译码部件各设置一套 可以只设置一个多功能操作部件,也可以设置多个独立的操作部件 操作部件中可以采用流水线结构,也可以不采用流水线结构 设计目标是每个时钟周期平均执行一条指令,ILP的期望值1,IF,时钟 周期,指令,I1,I2,I3,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,1,2,3,4,5,6,单发射处理机的指令流水线时空图,IF,ID,FA1,FA2,FA3,MD1,MD2,MD3,AL,LS,浮点加法部件,乘除法部件,定点ALU部件,取数存数部件,WR,来自指 令Cache,通用寄存器 后行写数栈,多发射处理机: 每个周期同时取多条指令、同时译码多条指令,同时执行多条指令,同时写回多个运算结果 需要多个取指令部件,多个指令译码部件和多个写结果部件 设置多个指令执行部件,复杂的指令执行部件一般采用流水线结构 设计目标是每个时钟周期平均执行多条指令,ILP的期望值大于1,IF,时钟 周期,指令,I1,I2,I3,ID,EX,WR,1,2,3,4,5,6,多发射处理机的指令流水线时空图,I4,I5,I6,IF,ID,EX,WR,I7,I8,I9,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,FA1,FA2,FA3,MD1,MD2,MD3,AL,LS,浮点加法部件,乘除法部件,定点ALU部件,取数存数部件,WR,IF,ID,WR,超标量处理机: 一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机 必须有两条或两条以上能够同时工作的指令流水线 先行指令窗口: 能够从指令Cache中预取多条指令 能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测 窗口的大小:一般为2至8条指令 采用目前的指令调度技术,每个周期发射2至4条指令比较合理,例如: Intel公司的i860、i960、Pentium处理机,Motolora公司的MC88110处理机,IBM公司的Power 6000处理机等每个周期都发射两条指令 TI公司生产的SuperSPARC处理机以及Intel的Pentium III处理机等每个周期发射三条指令 操作部件的个数多于每个周期发射的指令条数。4个至16个操作部件 超标量处理机的指令级并行度:1ILPm;m为每个周期发射的指令条数。,IF,ID,FA1,FA2,FA3,MD1,MD2,MD3,AL,LS,浮点加法部件,乘除法部件,定点ALU部件,取数存数部件,WR,IF,ID,WR,IF,ID,先行指 令窗口,第五章 标量处理机,5.1 先行控制技术 5.2 流水线技术 5.3 超标量处理机 5.4 超流水线处理机 5.5 超标量超流水线处理机,5.4 超流水线处理机 两种定义: 一个周期内能够分时发射多条指令的处理机称为超流水线处理机 指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机 提高处理机性能的不同方法: 超标量处理机是通过增加硬件资源为代价来换取处理机性能的 超流水线处理机则通过各硬件部件充分重叠工作来提高处理机性能,两种不同并行性: 超标量处理机采用的是空间并行性 超流水线处理机采用的是时间并行性,5.4.1 指令执行时序 每隔1/n个时钟周期发射一条指令,流水线周期为1/n个时钟周期 在超标量处理机中,流水线的有些功能段还可以进一步细分 例如:ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水段。也有些功能段不能再细分,如WR功能段一般不再细分。因此有超流水线的另外一种定义:有8个或8个以上流水段的处理机称为超流水线处理机,IF,时钟 周期,指令,I1,I2,I3,ID,EX,WR,1,2,3,4,5,6,每个时钟周期分时发送3条指令的超流水线,I4,I5,I6,IF,ID,EX,WR,I7,I8,I9,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,5.4.2 典型处理机结构 MIPS R4000处理机每个时钟周期包含两个流水段,是一种很标准的超流水线处理机结构。指令流水线有8个流水段 有两个Cache,指令Cache和数据Cache的容量各8KB,每个时钟周期可以访问Cache两次,因此在一个时钟周期内可以从指令Cache中读出两条指令,从数据Cache中读出或写入两个数据。 主要运算部件有整数部件和浮点部件,指令 Cache,MIPS R4000处理机的流水线操作,IF:取第一条指令 IS:取第二条指令 RF:读寄存器堆,指令译码 EX:执行指令 DF:取第一个数据 DS:取第二个数据 TC:数据标志 校验;WB:写回结果,指令 译码,读寄 存器堆,ALU,数据 Cache,标志检验,寄存 器堆,IF,IS,RF,EX,DF,DS,WB,TC,IF,流水线周期,当前CPU周期,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,IF,IS,RF,EX,DF,DS,TC,WB,主时 钟 周期,MIPS R4000正常指令流水线工作时序,如果在LOAD指令之后的两条指令中,任何一条指令要在它的EX流水级使用这个数据,则指令流水线要暂停一个时钟周期 采用顺序发射方式,暂停,IF,IS,RF,EX,DF,DS,TC,WB,MIPS R4000正常指令流水线工作时序,IS,RF,EX,DF,DS,TC,WB,RF,EX,DF,DS,TC,WB,EX,DF,DS,TC,WB,EX,DF,DS,TC,WB,DF,DS,TC,WB,IF,IS,RF,I1,I2,I3,I4,I5,I6,运行,运行,Load指令,使用Load数据,5.4.3 超流水线处理机性能 指令级并行度为(1,n)的超流水线处理机,执行N条指令所的时间为: 超流水线处理机相对于单流水线普通标量处理机的加速比为:,即: 超流水线处理机的加速比的最大值为:S(1,n)MAX = n,第五章 标量处理机,5.1 先行控制技术 5.2 流水线技术 5.3 超标量处理机 5.4 超流水线处理机 5.5 超标量超流水线处理机,5.5 超标量超流水线处理机 把超标量与超流水线技术结合在一起,就成为超标量超流水线处理机 5.5.1 指令执行时序 5.5.2 典型处理机结构 5.5.3 超标量超流水线处理机性能 5.5.4 三种指令级并行性处理机性能比较,5.5.1 指令执行时序 超标量超流水线处理机在一个时钟周期内分时发射指令n次,每次同时发射指令m条,每个时钟周期总共发射指令m n条。,IF,时钟周期,指令,I1,I2,I3,ID,EX,WR,1,2,3,4,5,I4,I5,I6,I7,I8,I9,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,IF,ID,EX,WR,I10,I11,I12,每时钟周期发射3次,每次3条指令,5.5.2 典型处理机结构 DEC公司的Alpha处理机采用超标量超流水线结构。主要由四个功能部件和两个Cache组成:整数部件EBOX、浮点部件FBOX、地址部件ABOX和中央控制部件IBOX。 中央控制部件IBOX可以同时从指令Cache中读入两条指令,同时对读入的两条指令进行译码,并且对这两条指令作资源冲突检测,进行数据相关性和控制相关性分析。如果资源和相,关性允许,IBOX就把两条指令同时发射给EBOX、ABOX和FBOX三个指令执行部件中的两个。 指令流水线采用顺序发射乱序完成的控制方式。在指令Cache中有一个转移历史表,实现条件转移的动态预测。在EBOX内还有多条专用数据通路,可以把运算结果直接送到执行部件。 Alpha 21064处理机共有三条指令流水线 整数操作流水线和访问存储器流水线分为7个流水段,其中,取指令和分,析指令为4个流水段,运算2个流水段,写结果1个流水段。浮点操作流水线分为10个流水段,其中,浮点执行部件FBOX的延迟时间为6个流水段。 所有指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由专用数据通路。,析指令为4个流水段,运算2个流水段,写结果1个流水段。浮点操作流水线分为10个流水段,其中,浮点执行部件FBOX的延迟时间为6个流水段。 所有指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由专用数据通路。 Alpha 21064处理机的三条指令流水线的平均段数为8段,每个时钟周期发射两条指令。因此,Alpha 21064处理机是超标量超流水线处理机。,SWAP,IF 取值 SWAP 交换双发射指令、转移预测 I0 指令译码 I1 访问通用寄存器堆,发射校验 A1 计算周期1,IBOX计算新的PC值 A2 计算周期2,查指令快表 WR 写整数寄存器堆,指令Cache命中检测,1,7个流水段的整数操作流水线,IF,I0,I1,A0,A1,WR,2,3,4,5,6,0,SWAP,IF 取值 SWAP 交换双发射指令、转移预测 I0 指令译码 I1 访问通用寄存器堆,发射校验 AC ABOX计算有效数据地址 TB 查数据快表 HM 写读数缓冲栈,数据Cache命中/ 不命中检测,1,7个流水段的访问存储器流水线,IF,I0,I1,AC,TB,HM,2,3,4,5,6,0,SWAP,IF 取值 SWAP 交换双发射指令、转移预测 I0 指令译码 I1 访问通用寄存器堆,发射校验 F1-F5 浮点计算流水线 FWR 写回浮点寄存器堆,1,10个流水段的浮点操作流水线,IF,I0,I1,F1,F2,FWR,2,3,4,5,6,0,F3,F4,F5,7,8,9,5.5.3 超标量超流水线处理机性能 指令级并行度为(m,n)的超标量超流水线处理机,连续执行N条指令所需要的时间为: 超标量超流水线处理机相对于单流水线标量处理机的加速比为:,在理想情况下,超标量超流水线处理机加速比的最大值为: S(m, n)MAXm n,5.5.4 三种指令级并行处理机性能比较 超标量处理机、超流水线处理机和超标量超流水线处理机相对于单流水线普通标量处理机的性能曲线。,0.0,0.5,1.0,1.5,2.0,2.5,1,2,3,4,5,6,7,8,相对性能,超标量,超流水线,超标量 超流水线,指令级 并行度,从三种指令级并行处理机的性能曲线中,可以得出如下结论: 1、三种处理机的性能关系 超标量处理机的相对性能最高,其次是超标量超流水线处理机,超流水线处理机的相对性能最低,主要原因如下: (1) 超标量处理机在每个时钟周期的一开始就同时发射多条指令,而超流水线处理机则要把一个时钟周期平均分成多个流水线周期,每个流水线周期发射一条指令;因此,超流水线处理机的启动延迟比超标量处理机大。,(2)条件转移造成的损失,超流水线处理机要比超标量处理机大。 (3)在指令执行过程中的每一个功能段,超标量处理机都重复设置有多个相同的指令执行部件,而超流水线处理机只是把同一个指令执行部件分解为多个流水级;因此,超标量处理机指令执行部件的冲突要比超流水线处理机小。 2、实际指令级并行度与理论指令级并行度的关系 当横坐标给出的理论指令级并行度比较低时,处理机的实际指令级并行度,的提高比较快。 当理论指令级并行度进一步增加时,处理机实际指令级并行度提高的速度越来越慢。 在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当,否则,有可能造成花费了大量的硬件,但实际上处理机所能达到的指令级并行度并不高。 目前,一般认为,m 和 n 都不要超过4。,3、最大指令级并行度 一个特定程序由于受到本身的数据相关和控制相关的限制,它的指令级并行度的最大值是有限的,是有个确定的值。这个最大值主要由程序自身的语义来决定,与这个程序运行在那一种处理机上无关。对于某一个特定的程序,图中的三条曲线最终都要收拢到同一个点上。当然,对于各个不同程序,这个收拢点的位置也是不同的。,本 章 重 点 1、指令的重叠执行方式及时空图表示方法 2、线性流水线的性能分析及计算 3、超标量处理机的指令执行时序及性能 4、超流水线处理机的指令执行时序及性能 5、超标量超流水线处理机的指令执行时序 及性能,练习题: 5.3 5.7 5.8 5.9 5.18,

    注意事项

    本文(第5章-计算机体系结构.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开