超标量处理器设计 姚永斌 前言 摘录

超标量处理器设计 姚永斌 前言 摘录目前的通用处理器从指令集方面可分为 RISC 和 CISC CISC 伴随着处理器的诞生 最开始的处理器都是使用这种指令集 力求在一条指令内完成很多事情 并且使用尽可能多的指令 覆盖到各种各样的操作 这就可以降低对存储器的需求 并且简化编译器的设计 当存储器和编译器不在是问题时 RISC 产生了 因为 80 的 CISC 指令只在 20 被使用 则可以将经常使用的 20 的 CISC 指令使用硬件来实现 剩余 80 的指令可以使用软件来模拟 于是简化硬件的设计 也便于使用流水线 不像可以变化长度的 CISC 指令 RISC 指令采

目前的通用处理器从指令集方面可分为RISC和CISC。CISC伴随着处理器的诞生,最开始的处理器都是使用这种指令集,力求在一条指令内完成很多事情,并且使用尽可能多的指令,覆盖到各种各样的操作,这就可以降低对存储器的需求,并且简化编译器的设计

当存储器和编译器不在是问题时,RISC产生了。因为80%的CISC指令只在20%被使用,则可以将经常使用的20%的CISC指令使用硬件来实现,剩余80%的指令可以使用软件来模拟,于是简化硬件的设计,也便于使用流水线。

不像可以变化长度的CISC指令,RISC指令采用32位等长方法。如此可以降低解码难度,易于流水线的设计。使得RISC指令集有着更高的频率,同时功耗和成本相对也更低。

标量处理器是指:每周期最多只能执行一条指令,它一般都是按照程旭中指定的顺序来执行指令,这称为顺序执行(in-order)。这制约了处理器性能的提高。

超标量处理器:一个周期执行多条指令。处理器可以按照程旭中指定的顺序来执行,也可以不遵守这个顺序。只要指令的源操作数都准备好了,它就可以被执行,被称为乱序执行(out-of-order)。当然有一些方法使这些乱序执行的指令看起来仍然按照程序中指定的顺序更改处理器的状态,在超标量处理器中的这些功能注定了它的复杂性,以及更多的硬件资源和更高的功耗,目的就是性能提升。

上述的CISC和RISC、以及scalar和superscalar是相互正交的。产生四种组合:

Scalar CISC:处理器最开始的时候采用的结构,这种结构一般会直接对CISC指令进行解码,甚至可能不使用流水线,目前已逐渐淘汰。

Scalar RISC:这是RISC处理器刚刚出现的时候采用的结构。由于RISC指令级降低了对硬件的要求,并且便于流水线的实现,所以此结构处理器多使用流水线来提高性能,它的主频一般比较高,成本也低。嵌入式低功耗领域的处理器均采用这种结构。

Supercalar RISC:随着对处理器性能需求越来越高,每周期执行一条指令的处理器已经不能满足需求了。为什么首先出现在RISC处理器呢?因为RISC指令级比较规整,便于硬件实现。主要服务于嵌入式的高性能应用领域。

Superscalar CISC:尽管CISC并不容易使用流水线来实现,更难直接使用超标量结构来实现,但是Intel和AMD在处理器内部使用硬件将一条CISC的指令转换为RISC指令,这样充分使用了RISC指令集的优势。当然,比普通的RISC处理器要付出更多的硬件资源,功耗也会偏大。

在上述4种结构中,本文重点关注Superscalar RISC处理器设计。该处理器的流水线则贯穿本书的主线,一条指令从程序存储器中取出来之后,需要经过流水线的各个阶段,最后才能得到结果,并更新处理器的状态。

本书内容按指令的轨迹来组织:

第1章:介绍普通处理器和超标量处理器的一些背景知识。

第2章: Cache,这是由于一般的指令都是从I-Cache中取出来并送到流水线中,因此流水线始于I-Cache。当然,处理器也存在D-Cache。不同结构的Cache对处理器的性能有着重要的影响,尤其在超标量处理器中,每周期需要同时执行多条指令,这给Cache的设计带来一些挑战。

第3章:虚拟存储器(Virtual Memory),因为处理器在取指令的时候,如果送出来的是虚拟地址,那么首先需要转化为物理地址,然后才能取到指令,对数据的访问也是类似的,虚拟存储器是现代操作系统运行的基础,在处理器中需要软硬件配合工作,才可以对虚拟存储器提供完整的支持。

第4章:分支预测(Branch Prediction),也是取指令阶段发生的事情,因为超标量处理器的流水线一般比较深,导致分支指令的结果在很晚的时间才可以得到,一旦发现这个结果跟预想的不一样,那么流水线中很多指令都是没有用的,需要抹掉并从正确的地址取指令,这样就降低了处理器的执行效率,因此需要对分支指令使用比较准确的预测算法,从而在取指令阶段就得到可以提前知道分支指令的结果。

第5章:指令集体系(ISA),一旦指令在从存储器中取出来之后,下一步就需要进行解码,不同的指令集需要不同的解码方式,因此本书在介绍指令的解码之前,首先对基本的RISC指令集进行介绍这样便于对后续流水线的理解。

第6章:指令解码(Decode),在超标量处理器中,由于每周期需要对多条指令进行解码,这会引入一些新的问题,比如指令之间的相关性,以及一些复杂指令的处理等,相比于普通的处理器,它的解码过程要复杂一些,但是相比于超标量CISC处理器这种解码过程仍然是比较简单的。

第7章:硬件的寄存器重命名(Register Renaming),指令经过解码之后,就可以得到它的源寄存器和目的寄存器了,但是为了尽量并行地执行指令,需要消除指令之间存在的假的相关性,这些相关性都是和寄存器的名字相关的,通过使用不同的寄存器名字,可以消除这些相关性,于是在处理器内部使用了数量多于指令级中定义的寄存器,称之为物理寄存器,而指令集中定义的寄存器则称为逻辑寄存器,寄存器重命名的过程就是将逻辑寄存器动态地映射到不同的物理寄存器,以消除指令之间存在的假的相关性,从而使这些指令可以并行执行。

第8章:指令发射(Issue),当指令经过寄存器重命名后,就可以在处理器内部的功能单元(FU)中执行了。但是为了获得更高性能,超标量处理器多采用乱序执行的方式,只要一条指令的操作数准备好了,即使它之前的指令还没有准备好,它也可以送到FU中执行,这种方式可以最大限度地利用处理器内部的硬件资源,从而提高处理器的执行效率,而发射阶段正式用来实现此功能的。所有经过寄存器重命名的指令都会放到一个缓存中,这个缓存称为发射队列(Issue Queue),在其中检测每条指令是否已经准备好了,并按照一定算法,从那些已经准备好的指令中选择合适的指令送到FU中执行,这个过程就成为发射,指令到了这个阶段,就变成乱序执行了。而在此阶段之前,都遵循着程序中指定的顺序。

第9章:指令在功能单元的执行(Execute),指令被发射之后,就会到相应的FU中开始执行,不同种类的指令需要不同的FU,在超标量处理器中,都会使用多个FU,它们可以并行地执行不同的指令。本章除了介绍常见的FU之外,还会介绍旁路网络(Bypassing Network),它可以缩短相关指令之间执行的时间,但是却使处理器内部的布线资源变得更复杂,因此现代的一些处理器采用了Cluster结构来缓解这种矛盾,同时,访问存储器的load/store指令也需要一些特殊的方法来加速它们的执行速度。

第10章:流水线最后阶段:提交(Commit),指令经过FU的执行而得到结果后,并不会马上使用这个结果对处理器转态进行更新,这是由于指令的执行是按照乱序来进行的,由于分支预测失败(mis-prediction)和异常(exception)等原因,一条指令的结果未必是正确的。而且,为了使程序在处理器内部的执行看起来和程序指定的顺序是一样的(这是串行程序必须的),也需要这些乱序执行的指令按照程序中指定的顺序对处理器转态进行更新。为了实现这个功能,一条指令在FU中执行完毕后,并不会马上对处理器的状态进行更新,而是先将它的结果写到一个缓存中,这个缓存称为重排序缓存(Reorder Buffer, ROB)。在流水线的寄存器重命名阶段,每条指令都已经按照程序中指定的顺序写到ROB中,当一条指令在FU中执行完毕,就可以将结果写到ROB对应的地方,当ROB中最旧的那条指令(或者几条指令)已经得到结果,并且不存在分支预测失败或者异常等特殊情况,它就可以离开ROB,使用它的结果对处理器的状态进行更新,这个过程称为指令的退休(retire),一旦指令经过这个状态,它就在不能被撤销了。

第11章:RISC处理器案例:Alpha 21264处理器。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233627.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 2021-08-08 WPF控件专题 WrapPanel 控件详解[通俗易懂]

    2021-08-08 WPF控件专题 WrapPanel 控件详解[通俗易懂]1.WrapPanel控件介绍流面板子元素按顺序排列,如果按水平方向:从左到右,超出部分,自动换行到下一行垂直从上到下,下一列排列方向:OrientationItemWidthItemHeight调整面板的尺寸时,内部子元素的布局–自动调整弥补StackPanel的不足StackPanel与WrapPanel结合使用2.具体案例<BorderBorderBrush=”Red”BorderTh

    2022年7月23日
    11
  • Java 外部函数接口:JNI, JNA, JNR「建议收藏」

    Java 外部函数接口:JNI, JNA, JNR「建议收藏」Java 外部函数接口:JNI, JNA, JNR

    2022年4月20日
    63
  • 打开redis远程访问端口_linux端口开放命令

    打开redis远程访问端口_linux端口开放命令一、问题详情最近我在阿里云ESC上购买了一台服务器,但是在安装完redis后,我在本地的电脑上怎么也没法调用这台服务器上面的redis服务。最后,我终于解决了,所以来记录一下。二、解决方案想要解决这个问题,前提条件是已经在阿里云的安全组设置里面已经开放了3679这个端口。接着我们要修改两个配置文件。redis.conf尽量将最初始的redis.conf复制一份,防止以后修改该配置文件出现问题。 执行修改配置文件的命令 vim/opt/myRedis/redis.co

    2022年9月15日
    0
  • 浅谈CLR

    浅谈CLR

    2021年8月18日
    63
  • ue4动态加载模型_U3D动态页面

    ue4动态加载模型_U3D动态页面本帖纯属个人原创,如有转载请注明出处需要注意的几点:1.调试环境下进行的资源加载方式到打包出来后不一定能够使用。2.假如遇到调试模式下程序运行正常,但是打包出来后程序crash,可以查看log:Saved/Logs/filename/log3.资源路径的代码书写格式map:”Game/Maps/Main.map”蓝图类:”Game/Blueprint/Skil

    2022年10月5日
    0
  • loadrunner 11下载及激活成功教程

    loadrunner 11下载及激活成功教程1.下载参照文章:http://www.51testing.com/?uid-4827-action-viewspace-itemid-2254512.激活成功教程参照文章:htt

    2022年7月22日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号