12现代微机结构64位处理器.ppt
《12现代微机结构64位处理器.ppt》由会员分享,可在线阅读,更多相关《12现代微机结构64位处理器.ppt(52页珍藏版)》请在三一文库上搜索。
1、 Alpha 21064 和 MIPS R4000,第四章 64位微处理器,64位处理器的先驱:,相继有:, HP的PA-RISC 8000系列 Alpha 2164 Sun的UltraSPARC IBM的Power G4 Intel的 Itanium (HP与Intel合作) AMD的 Opteron和 Athlon 64,一、Itanium 处理器,基于EPIC(EPIC_Explicitly Parallel nstruction Computing; 显性并行指令计算)的Itanium体系结构(2001年5月)。,Itanium体系结构设计基于如下的原则: 实现持续高性能; 随着技术发
2、展而进一步提高性能潜力; 支持显性并行指令计算(EPIC); 提供一系列有利于增强指令级并行的特性; 重点放在提高应用软件实际运行的性能。,EPIC既不是RISC也不是CISC, 是一种吸收两者优势的一种体系结构。,(一) Itanium1的主要特点:,1、显性并行指令计算(EPIC),乱序执行技术是当前32位处理器和64位RISC芯片设计的主流;,但缺点是(Intel公司认为):,(1) 要求处理器具有较高的智能和复杂的逻辑, 使芯片的结构越来越复杂, 也妨碍了主频和性能的提高; (2) 设计难度越来越大, 使芯片的设计周期越来越长, 难以满足应用发展的需要; (3) 处理器运行时, 未充分
3、利用编译技术来提高指令并行度, 使软硬件相结合的能力没有得到充分发挥。,EPIC体系结构的基本设计思想是: (1) 利用编译程序和处理器协同能力, 来提高指令并行度。,(2) 简化芯片逻辑结构, 进一步提高主频和性能。,EPIC体系结构采用充分利用编译程序提供的信息和调度能力来提高指令并行度(如: 编译时所产生程序运行线路的猜测信息、编译程序对程序执行过程的调度能力)。,同时保证在程序运行过程中发现猜测和调度有错时, 处理器仍然给出正确的结果。,(3) 提供大量的资源来实现EPIC, 包括:, 存储编译程序提供的信息 为提高并行计算效率所需的处理单元 大容量高速缓存(三级Cache: L0 L
4、1 L3) 128个64位整数寄存器 128个82位浮点寄存器 64个1位预测寄存器 8个转移寄存器 128个专门的应用寄存器。,每条指令可引用2个输入寄存器和1个输出寄存器。,2、指令集的体系结构, 引入64位寻址和新的指令集, 也包含一个IA-32模式的指令集, 所有IA-64处理器都能执行IA-32程序;, 指令长度41位;, 采用存取式体系结构;, 由编译程序, 把可并行执行程序段提交给硬件, 以提高处理器并行执行指令的能力;,即“指令断定”的技术(指令预测的改进):,重排指令顺序, 使多个分支能同时执行。,编译程序还具有消除某些转移指令的能力, 以提高指令效率。,比如: IA-64设
5、置一条比较指令来产生预测结果。该指令可以抽象为以下形式: pT, pF CMP(crel r2, r3) 该指令用比较规则crel比较r2和r3。比较结果写入预测寄存器pT, 相反状态写入预测寄存器pF。 对于指令: if (ab) then c=c+1 else d=de+f 用以下三条指令完成: pT, pF = CMP(ab) if (pT) c=c+1 if (pF) d=de+f 从而消除了转移。此外, 编译程序可以让第二条和第三条指令并行执行, 然后视pT和pF的状态, 采用正确结果。, 每条指令需要有一个6位的预测标识符, 从一个64项的预测寄存器中选择一个预测结果, 支持实现指
6、令断定执行、高效函数调用和软件流水线等一系列先进功能。,3. 高并行性,Itanium1允许以包(bundels)的形式(每个包有3条指令)发射不相关的、可并行执行的指令, 每个时钟周期可发射2个包, 即每时钟周期发射6条指令。,但由于资源的限制, 发送6条指令的概率为25%, 每周期平均发送3.85条指令。,(二) Itanium2 的主要特点,其性能在不经过任何调试和优化的条件下比Itanium1提高50%到100%。 速度更快的高速缓存系统、每秒执行更多指令的能力以及与系统其它组件间更高的通信带宽。,1、新的高速缓存结构 更高效检索机制, 约为Itanium1 Cache的2倍 片内集成
7、3MB L3高速缓存,2、每时钟周期执行更多指令 Itanium2每个时钟周期最多也能发送6条指令,但发送6条指令的概率为90%, 平均可以发送5.7条指令。,3、更高的并行能力 增加了2个指令整数单元, 进一步提高了指令并行能力。,4、提高了带宽和吞吐量 前端总线频率由266MHz提高到400MHz、带宽由64位提高到128位, 整体带宽提高了3倍。,Itaniuml 和Itanium2的基本参数对照:,二、PowerPC 970处理器,PowerPC970是Apple第5代产品(Apple Power Mac G5), 属于RISC体系的64位处理器, 是第一种进入个人电脑领域的64位处理
8、器。,0.13微米的生产工艺(Prescott为0.09微米), 结合了SOI与9层铜导线互连 (Prescott 采用7层铜互连)。,1. 执行单元 2个整数运算单元和2个双精度浮点运算单元 超标量体系结构 8级流水线结构 硬件调度的指令乱序执行,2. 缓存系统 采用64KB一级数据缓存, 64KB一级指令缓存, 512KB二级缓存, 系统工作时, L1数据缓存可以同时预先读取8个数据。,3. 1GHz前端总线频率,比较: Pentium4前端总线频率经历了从400MHz 533MHz 800MHz的过程。,4. 高分支预测精度 精度达95的分支预测逻辑,数据带宽达8GB/s。,PowerP
9、C的设计理念与IA-64有三点主要差异:, PowerPC的设计更注重线程级并行而不是指令级并行, 因此不追求很高的流水线级数; 通过硬件实现指令乱序比静态EPIC更有效; 系统的瓶颈在于处理器与存储器的接口, 而不是处理器指令执行的速度。,三、AMD 64位处理器,(一) AMD 64位Opteron处理器(皓龙),1. 主要技术特点 (1) 既可以运行32位程序, 也可以运行64位程序, 并且在64位模式下, 兼容X86指令集, 与SSE2技术全兼容。,(2) 直接连接结构(Direct Connect Architecture)减少系统瓶颈。包括:, 存储器与CPU直接连接, 以优化存储
10、器性能; I/O与CPU直接连接, 有利于I/O吞吐量; CPU直接与CPU连接, 有利于SMP的设计。,Opteron处理器结构框图:,(3) HyperTransport 技术 HyperTransport技术是指: 高速、高性能的主板上点对点互连集成电路。这一技术在同等条件下比PCI总线的速度有显著提高。 HyperTransport为在处理器、I/O、子系统与它芯片之间的互联提供了可伸缩的带宽。 Opteron可支持达3条的HyperTransport关联链路, 为处理器提供了19.2 GB/s的带宽。 (4) 采用90nm SOI 工艺技术, 为L1和 L2 数据Cache提供ECC
11、校验 (Error Correcting Code). (5) 三个整数执行单元(12级流水线)和三个浮点执行单元(18级流水线)。,2. AMDx86的64位扩展 (1) 指令扩展 通常所说的64位指令, 并不是指指令的全长或操作码的长度为64位, 而是指操作数所能达到的最大位数为64位。 AMD64在进行64位扩展时, 将8个通用寄存器增加到了64位, 同时将指令指针和地址长度增加到64位。 为x86-64架构添加了一个称为“长模式”的新模式, 以便扩展标准的x86架构。 长模式由一个称为LMA(长模式有效Long Mode Active)的控制位来启动。,当LMA关闭时(LMA=0):
12、处理器按照标准x86处理器工作, 即传统模式。这时处理器与所有的16、32位操作系统以及应用程序兼容, 不能执行64位功能。 如果长模式启动(LMA=1): 64位处理器的扩展便可进行操作, 使系统按照处理器的能力自动重新配置。,长模式包含两种子模式: 64位模式和兼容模式。 用户可以利用代码段描述子中的两个标志来设定这两种模式的代码。,如果启动长模式: 设定L=1且D=0, 则按照64位模式进行操作。 设定L=0, 处理器便按照兼容模式进行操作。操作系统可与现有的16位及32位x86应用程序二进制兼容, 应用程序可获的采用长模式的64位操作系统支持, 而无需重新编译。,第一个标志是代码段描述
13、子中的“D”位; 第二个位称为“L位”, 是代码段描述子中并未使用的位(位53), 它用以确定应用程序能否获得64位架构的支持。,兼容模式与64位模式的不同点: 兼容模式采用了16位或32位的保护模式规则, 从应用程序的角度来看, 兼容模式沿用了旧的x86保护模式。从操作系统来看, 地址变换、中断以及系统数据结构都采用64位长模式机制。 64位模式支持64位虚拟地址空间, 因此需要采用64位的操作系统及相应工具。部分指令操作码及前缀字节为此也需要重新设定, 以便可以将寄存器扩展并执行64位寻址功能。,(2) 寄存器扩展 AMD的x86-64架构将目前用于16位以及32位指令的寻址方式进行扩展。
14、 用于16位操作, 寄存器A的2个字节定义为AX 用于32位操作, 寄存器A的4个字节定义为EAX 用于64位操作,寄存器A的8个字节定义为RAX 在64位模式操作时, 通用寄存器扩展至64位, 即RAX、RBX、RCX、RDX、RDI、RSI、RBP、RSP、RIP、以及RFLAGS。 此外, 新添加了8个64位通用寄存器R8R15。 寄存器扩展还增加8个新的SIMD寄存器XMM8至XMM15。,(二) AMD Athlon64 位处理器(速龙),AMD的64位桌面型处理器, 其基本结构和工作模式与Opteron处理器基本相同。 AMD双核Athlon64处理器 Athlon64 X2,At
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 12 现代 微机 结构 64 处理器
链接地址:https://www.31doc.com/p-2877488.html