7.3 超标量流水线

7.3 超标量流水线计算机组成 7 流水线处理器 7 3 超标量流水线超标量流水线在现代的处理器当中得到了广泛的应用 也就是这种技术给我们带来了出色的处理器性能 那究竟什么才是超标量流水线 它又是如何工作的呢 我们这一节将一起探讨这个问题 这个是我们之前已经构建好的一条流水线 但是如果我们觉得它的吞吐率还不够高 其中一个改进的方向就是加深流水线 而与之相对另一个改进的方向就是拓宽流水线 而拓宽流水线

计算机组成

7 流水线处理器

7.3 超标量流水线

Screen Shot 2018-09-29 at 8.52.00 pm

超标量流水线在现代的处理器当中得到了广泛的应用,也就是这种技术给我们带来了出色的处理器性能。那究竟什么才是超标量流水线,它又是如何工作的呢?我们这一节将一起探讨这个问题。

Screen Shot 2018-09-29 at 8.52.08 pm

这个是我们之前已经构建好的一条流水线,但是如果我们觉得它的吞吐率还不够高。其中一个改进的方向就是加深流水线,而与之相对另一个改进的方向就是拓宽流水线。而拓宽流水线的这个方案我们就称为超标量。在现在通常来说超标量的结构是只有两条或者有两条以上可以并行工作的流水线,那好就这个厨房的例子,现在为了满足更多客人的需求,我们就需要把这条做菜的流水线进行拓宽。我们从左往右来看首先我把这个洗菜的池子扩大一倍,这样就可以同时洗两道菜的原料了。那与之相匹配的后面的各个环节都得加倍,这样我们就有了两条可以并行工作的流水线,这就是一条超标量流水线。在处理器设计当中我们也经常简称为超标量。那么与超标量流水线相对,以前的单条流水线就可以被称为标量流水线,那采用了超标量结构的处理器,我们也常称之为超标量处理器。

Screen Shot 2018-09-29 at 8.52.17 pm

那么就结合这个例子简单的来看一看超标量流水线是如何工作的。既然我们这个洗菜的池子扩大了一倍,那么同时就可以进行两道菜的操作,那么当一分钟过去之后。

Screen Shot 2018-09-29 at 8.53.14 pm

洗菜这个环节就会将这两份菜的原料分别送到切菜1这个环节的两位操作人员手中,而与此同时第三道菜和第四道菜则会进入洗菜环节。

Screen Shot 2018-09-29 at 8.53.22 pm

这样在每一个环节都有两道菜菜在同时的并行向前。那到了五分钟的时候就可以同时完成两道菜。而对于处理器,这也常被称为双发射的结构。那如果照着这个方式再扩展一条流水线就变成三发射,再扩大一条就会变成四发射,这就是超标量流水线的基本工作原理。

Screen Shot 2018-09-29 at 8.53.30 pm

那我们再来看一些实际的例子。奔腾是第一款采用超标量技术的x86CPU。这就是奔腾的流水线结构,它是一个双发射的五级流水线,这两条流水线分别被命名为U流水和V流水。它们共用取指和译码的部件,但是有自己独立的地址生成逻辑,ALU 以及数据高速缓存的接口。那在一个时钟周期内可以同时发送两条指令,分别到U流水和V流水。当然超标量技术并不是到这个时候才诞生的,而是在很多年前就在计算机当中获得了应用。

Screen Shot 2018-09-29 at 8.53.39 pm

这是历史上第一台超级计算机CDC6600。那么在这台计算机当中,有十个并行的功能部件,因此也被认为是最早采用了超标量技术的计算机。不过这些功能部件内部并没有采用流水线,所以从这里我们可以看出超标量技术和流水线技术实际上是相互独立的,只不过在现在采用了超标量技术的CPU也都是使用流水线的技术。

虽然CDC6600没有采用流水线,但它的下一代产品CDC7600就在这些并行的功能部件内实现了流水线的技术。

Screen Shot 2018-09-29 at 8.53.48 pm

那我们再回到现在,ARM Cortex-A9的流水线结构。它每个时钟周期可以发射四条指令,根据指令的不同,总共会经过八到十一级流水线。与奔腾类似的是在流水线的前端比如说取指,译码并没有分成多条流水线而是采用统一的部件。当然我们要知道这些部件虽然看上去是一个,但它实际上比标量流水线要大得多。比如说取指部件至少一次要能取来四条指令甚至更多,而译码部件一次也至少应该完成四条指令的译码。而到了流水线的后端,才会从结构表示上体现出多条并行流水线的形态。

Screen Shot 2018-09-29 at 8.53.58 pm

然后我们再来看Core i7的超标量流水线。这个流水线就更为复杂,这个是指令高度缓存(L1 Instruction Cache)也就相当于我们在流水线原理当中提到的指令存储器。我们可以看到每个周期从指令存储器当中会取回128个比特,也就是十六个字节,因为x86指令长度是不固定的,所以首先要经过一个指令长度的译码器(ILD),分解出到底哪几个字节是一条指令。那么在这一点上MIPS指令系统就体现出了明显的优势,它每条指令都是定长的,不用额外进行这样的识别工作。那么还有一点值得一提的是在译码器当中通过硬件会将x86的指令转换成更为简单的指令,这些指令被称为微操作,那从这里(Instruction Decoders)可以看出有三个简单的译码器(simple),用于对那些比较简单的x86指令进行转换,每条指令对应一个微操作。而那些非常复杂的指令则会通过这个复杂的译码器(complex)转换成多条微操作,而这些微操作都是类似于RISK指令的格式,这样在它流水器的后半部分看到的都是RISK格式的简单指令了。那这张图(左半部分)还只是流水线的前半部分。

我们再画出后半部分(右半部分)。在这里我们也可以看出多条并行的流水线(Port 0~5),而且因为在这个流水线当中运行的是微操作,都是采用了RISK的编码风格。所以,这里也可以充分运用大量面向RISK处理器研发出的高级流水线的技术。这也就是为什么我们现在经常说x86虽然是一个CISK的指令系统,但它实际上是用RISK的方式去实现的。

那这个CPU就是一个4发射16级流水的超标量流水线。

Screen Shot 2018-09-29 at 8.54.09 pm

那我们再来比较一下超标量流水线和之前的标量流水线。最开始从单周期处理器到流水线处理器主要考虑的是时间并行性上的优化,通过对现有硬件进行切分,只是增加了少量的流水线寄存器以及部分的控制信号的改动,那原本串行执行的指令在一定程度上并行起来。而从标量流水线到超标量流水线则是主要考虑了空间并行性上的优化,这是让不同的指令同时在不同的流水线上运行,那么简单的看来每增加一个发射数就需要增加一条流水线的硬件资源。

Screen Shot 2018-09-29 at 8.54.18 pm

我们最后来看一看超标量流水线与多核的关系。从原理上讲它们都是在空间并行性方面寻求的优化,我们还是看一个实际的例子。这就是Core i7,也是我们现在熟知的多核超标量处理器。那么来看看它内部的结构。

首先我们来看一个概念叫做处理器核。这部分实际上就包含了我们之前介绍的那些数据通路控制信号等等。当然还需要包含指令和数据的高度缓存(I-Cache和D-Cache),对应了我们原理结构当中的指令存储器(Instruction Memory)和数据存储器(Data Memory)。那为了提高性能现在的处理器当中一般还配备了二级的高速缓存(L2 Cache)。这些部件的关系非常紧密,我们通常也就把这一部分称为一个处理器核。

那么刚才看到那个4发射16级流水线的结构图就是在只这么一个处理器核内部的结构(图中最左边虚线内的框图),那么可以说这一个处理器核就是一个超标量流水线的处理器核。而在单核的时代这个部分结构就单独制造出了一个芯片,就是以前的单核CPU。那现在我们把这样同样的结构复制多份,然后再加上一些共享的存储部件就构成了一个多核的CPU,这里面有四个核那就是一个四核的CPU。每一个核内部都是一个超标量流水线的结构,这就是我们现在通常说的多核CPU和超标量流水线之间的关系。

Screen Shot 2018-09-29 at 8.54.27 pm

现在我们已经从整体框架层面了解了流水线处理器的发展演变的过程,而且也知道了现代最先进流水线处理器的大体结构。但是仅仅了解这些是不够的,流水线的方式引入处理器之后它自身也带来了一些新的问题,我们必须了解并解决这些问题。这是我们下一节将要探讨的主题。

转载于:https://www.cnblogs.com/houhaibushihai/p/9736470.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/211031.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午11:21
下一篇 2026年3月18日 下午11:21


相关推荐

  • Makefile详解

    Makefile详解一、Makefile规则格式Makefile是由一系列的单一规则指令组合起来:目标XX1:依赖文件<TAB>命令1<TAB>命令2目标XX2:依赖文件<TAB>命令1<TAB>命令2……指令1:命令1命令2指令2:命令1命令2……示例:Tag:a….

    2022年7月19日
    14
  • idea如何查找替换_wps表格怎么查找替换文字

    idea如何查找替换_wps表格怎么查找替换文字在平时敲代码的时候经常碰到,咦,这个变量名好像不太合适,但又写了好多这时候可以怎么办呢?Pycharm里面给我们准备了替换功能————–windows电脑—————1.Ctrl+r替换2.Ctrl+Shift+F全局查3.Ctrl+Shift+R全局替换————–MAC电脑—————1.command+F全局查找2.command+R全局替换…

    2022年8月25日
    16
  • pycharm mac 激活码【2021最新】

    (pycharm mac 激活码)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html4M7HSKPBXS-eyJsa…

    2022年3月29日
    259
  • 抽象类是否可继承实体类

    抽象类是否可继承实体类 题目如下:问:  抽象类是否可继承实体类 (concrete class)答: 抽象类是可以继承实体类,但前提是实体类必须有明确的构造函数 ——————-答案很明确,可以继承。其实从Object就是个实体类,java的API文档里,每个抽象类的条目里都明确写着直接或间接继承自Object,所以这点是没有疑问的。关键在于这答案里所说的“前提是实体类必…

    2022年6月13日
    60
  • C/C++中的freopen()函数使用详解

    C/C++中的freopen()函数使用详解C C 重定向标准输入输出的库函数 所谓重定向输出 就是可以把原本只是输出在控制台的字符 输出到你指定的路径文件中 输入类似 就是从指定的文件中读取 而不是读取在控制台中的输入 重定向函数可以在任何时候开启 关闭 函数名 freopen 标准声明 FILE freopen constchar path constchar mode FILE stream

    2026年3月19日
    2
  • AI 漫剧画风搞不定?MJ+NBP=无限风格任选

    AI 漫剧画风搞不定?MJ+NBP=无限风格任选

    2026年3月15日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号