CPU流水线详解_多周期流水线cpu

CPU流水线详解_多周期流水线cpu为什么Intel处理器主频这么高,而AMD处理器主频都很低?是不是AMD处理器性能不如Intel?我们一般的回答都是,因为Intel处理器与AMD处理器内部构架不同,所以导致了这种情况,还有一种具体一点的回答就是因为Intel处理器流水线长,那到底流水线与CPU主频具体有什么关系呢?今天给大家带来一篇我以前刊登在《电脑报》硬件板块技术大讲堂版面的一篇原创文章。关于CPU流水线的知识,很多报纸杂

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

为什么Intel处理器主频这么高,而AMD处理器主频都很低?是不是AMD处理器性能不如Intel?我们一般的回答都是,因为Intel处理器与AMD处理器内部构架不同,所以导致了这种情况,还有一种具体一点的回答就是因为Intel处理器流水线长,那到底流水线与CPU主频具体有什么关系呢?今天给大家带来一篇我以前刊登在《电脑报》硬件板块技术大讲堂版面的一篇原创文章。

关于CPU流水线的知识,很多报纸杂志都介绍过了,但以往的很多文章对某些问题的解释不够清楚,比如报纸杂志上曾多次提及增加流水线级数有利于提高CPU主频,但对其原因的解释却少有触及,又比如对于流水线的级数与其周期的关系是什么?CPU流水线与工厂流水线的区别和联系等问题的解释也不够清楚,本文将带领您找到以上问题的答案。关于流水线的基本原理本文就不再说明了,对于增加流水线级数有利于提升CPU主频这一观点笔者将通过理论论证和事实举例两方面对其进行解释说明。

我们先对流水线的级数与其周期的关系给出一个公式,一个k级流水线,处理n个任务总共需要花费“k+(n-1)”个周期,这是因为先是处理第一个任务就需要k个时钟周期,k个周期后流水线被装满,剩余n-1个任务只需n-1个周期就能完成。如果同样数量的n个任务不采用流水线处理,那么就需要n*k个周期,我们把两者做比,得到另一个概念,叫做流水线加速比C,所以C=n*k / [k+(n-1)],当n远远大于k时,C的值趋进于k,也就是说,理论上k级流水线几乎可以提高k倍速度,但这仅限于理论。看到这也许有的读者可能会感到一头雾水,不用急,下面就将举例对其进一步说明。

举例前先对流水线周期选取的问题进行一下解析,我们假设一辆成品车的生产过程分为车轮生产,车门生产,最后组装三个步骤,每辆车的车轮生产需要8s,车门需要12s,而最后的组装需要10s,在本例中生产厂商针对此情况设计了1条3级流水线,分别是车轮生产流水线,车门生产流水线以及组装流水线,整条流水线的周期选取为12s,注意,在此为什么设置整条流水线的周期为三个步骤中最长的12s呢?其实在现实生产中由于工艺水平,原料特性以及制造难度的不同,每级流水线完成任务的时间都可能是不同的,这里如果选择8s或10s为整条流水线的周期将会导致车门生产线的任务不能在单位周期内完成,也就无法及时向下一级提交任务,所以在k级流水线中只能选择完成任务所需时间最常的那级流水线的时间作为整条流水线的周期。此例虽然选取12s为整条流水线的周期,但这样又带来了另一个问题,在每个周期内车轮流水线与组装流水线为了等待车门流水线而造成了一定时间上的闲置,具体到CPU内部的流水线也同样存在这个问题,当然我们可以通过合理分配流水线和增加缓存来缓解此问题,但缓存的增加必然导致信号的延迟和高功耗高发热量!

好,我们回到上例,厂商打算在此3级流水线上生产6辆汽车,流水线周期为12s(流水线的周期选取可参看上文),模拟流程如图1,从图上可以看到,6辆汽车一共花费了9-1=8个周期,此结果也印证了上文n个任务总共需花费“k+(n-1)”个周期的公式,此3级流水线生产6辆汽车一共花费的时间是12*8=96s。

一段时间后,厂商决定进行技术改革,又把车轮生产线车门生产线以及组装生产线进一步细分,把流水线的级数由3条增至6条,改革后的6级流水线周期也从12s缩短至6s,(由于细分了各级流水线,所以在此假设每级流水线周期也由原来的8s,12s,10s减半,所以新流水线的周期选取为12s/2s=6s),新流水线生产6辆汽车所花费的周期为12-1=11,所花费的整体时间为11*6=66s,相对于上例的96s提升了30s,至此,我们已从理论上和实际上找到了增加流水线级数确实可以提高工作效率的依据,相信大家已经对流水线的知识有了更进一步的了解,这里还要对一些问题进一步说明。

1流水线级数与频率的关系

结合上文对周期设置的解释和两个例子的对比大家可以发现,只要进一步细分流水线增加其级数,就可以使整条流水线采用更短的周期工作,我们又知道频率等于周期的倒数,由此我们得出结论,增加流水线级数有利于提高各级流水线之间交换任务的频率,也就是有利于提高CPU的主频。

2增加流水线级数为什么能提升工作效率

我们对车辆1进行跟踪测试,其在3级流水线上的生产时间为8s+12s+10s=30s,同样是车辆1在6级流水线上的生产时间为4s+4s+6s+6s+5s+5s=30s,由此我们发现无论对于几级流水线,单个产品的生产时间并没有因流水线级数而改变,既然这样那流水线是通过什么方式提升工作效率的?右图模拟的是不采用流水线时一辆汽车的生产流程,由3个工人分别负责完成3个任务,从图上可以明确看到在每段时间内只有一个工人在工作,其余两个处于闲置状态,对比上例的两个图示我们发现流水线正是充分利用了这段闲置的时间,所以才在单位时间内提升了效率。而且随着流水线级数的增多,对闲置时间的利用也就越充分

3 CPU内部的流水线与工厂流水线的区别和联系

CPU流水线属于工厂流水线的一种,具有流水线的一些共性,但与工厂流水线也具有一些区别,在本文中我们已得到增加流水线级数有助于提升CPU主频的结论,那为什么intel的贝瑞特大叔还要放弃冲击4GHz的计划呢?我们知道任何一种产品的生产都存在良品率这个问题,就如本文所举的例子,如果在汽车的生产过程中轮胎流水线上的一级轮胎报废了,这时我们可以在轮胎流水线的末端增加一个任务,然后用本属于第2辆车的轮胎组装给第1辆车,依次类推,这样对整条流水线效率的影响很小,而且对于同一型号的汽车只要使用的是相应型号的轮胎就行,不用计较具体使用的是哪个轮胎。但具体到CPU流水线,问题就不这么简单了,CPU的工作基理可以大致分为指令寻址,指令分析,指令执行,以及指令上报,假设一旦指令流水线中的某个指令的地址出错,是无法像换轮胎一样用另一个地址来顶替的,因为每条指令只唯一的对应一个地址,而且一些指令的执行是具有前后次序的,所以并不能简单的对出错的指令进行摒弃作罢,必须整条流水线退回重来,对于intel拥有冗长的31级流水线的处理器来说,这种情况的发生将大大拖累CPU的工作效率,虽然intel不断通过改进分支预测技术以及增大缓存来改善此问题,但收效甚微,反而由于缓存的增加和漏电流控制不利,铸造了具有火热胸膛的Prescort。
由此可见,主频能代表:高发热和高功耗! 但性能与执行效率并不高
目前,P4处理器采用31级流水线工位,而A64则是12级流水线工位。。。

有些朋友会问:Intel的二级缓存能直接比AMD处理器的缓存么?

INTEL的 L1 是数据代码指令追存缓存 AMD L1是实数据读写缓存
I L1的概念是 I L1里存着 数据在L2里的地址 L1 不存实际数据 所以大家看到 P4等 I CPU的 L1 都比较小。
A L1的概念是 A L1 里存着实际数据 当L1 满了时 再存L2 所以大家看到A CPU 的L1比较的大 为128K
因为L1比L2的延迟小速度快 所以在缓存上 A CPU 比 I CPU的效率更高
而说起L2 的大小 我强调 INTEL CPU 超大L2 其实在一般使用中并没起到什么作用 反而成了来浪费消费者钱的用途。
CPU处理数据概率
CPU使用0-128K缓存的概率是80%
CPU使用128-256K缓存的概率是10%
CPU使用256-512K缓存的概率是5%
CPU使用512-1M缓存的概率是3%
CPU使用更大缓存的概率是2%
P4的架构,只要L2一次没有命中,就要浪费大约230个周期到内存中去读取数据

也就是说,即使命中率是99%,每一百个周期有一次没命中,就要再空闲230个周期,即330个周期里只有99个周期是在工作,性能损失2/3以上,这就是P4执行效率低的原因了,当然乱续执行可以让空闲时执行下一条指令,不过程序的指令并不是时时刻刻都能并行执行的,而且CPU判定乱续执行时预先要花掉好几个周期,所以不能光看表面的命中概率,只要有1%的命中失败,性能的损失也是非常严重的

cpu流水线技术是一种将指令分解为多步,并让不同指令的各步操作重叠,从而实现几条指令并行处理,以加速程序运行过程的技术。指令的每步有各自独立的电路来处理,每完成一步,就进到下一步,而前一步则处理后续指令。  采用流水线技术后,并没有加速单条指令的执行,每条指令的操作步骤一个也不能少,只是多条指令的不同操作步骤同时执行,因而从总体上看加快了指令流速度,缩短了程序执行时间。  为了进一步满足普通流水线设计所不能适应的更高时钟频率的要求,高档位处理器中的流水线的深度(级数)在逐代增多。当流水线深度在5~6级以上时,通常称为超流水线结构(Super Pipeline)。显然,流水线级数越多,每级所花的时间越短,时钟周期就可以设计的越短,指令速度越快,指令平均执行时间也就越短。  流水线技术是通过增加计算机硬件来实现的。它要求各功能段能互相独立地工作,这就要增加硬件,相应地也加大了控制的复杂性。如果没有互相独立的操作部件,很可能会发生各种冲突。例如要能预取指令,就需增加指令的硬件电路,并把取来的指令存放到指令队列缓冲器中,使微处理器能同时进行取指令和分析、执行指令的操作。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/171313.html原文链接:https://javaforall.net

(0)
上一篇 2022年8月20日 下午12:46
下一篇 2022年8月20日 下午12:46


相关推荐

  • 关于cpu流水线的各阶段周期,吞吐率计算问题

    关于cpu流水线的各阶段周期,吞吐率计算问题本人在复习计组流水线时,遇到了一些问题,再次记录,以备不时之需。首先要弄明白一点,那就是cpu的各阶段是否具有相同的时钟周期,也就是说,每个阶段所花费的时间是否都是相同的?为什么会想到这个问题,先看一下408统考真题的这一题:刚开始那是想都没想,这他么这么简单的题,肯定选A啊,虽然的确做对了,但分析这道题所考的知识点时,想的就多了,为什么时钟周期不能小一点,比如为50ns,让每个阶段所占用两个时钟周期不就得了,但是这时候脑子突然想到,cpu流水线的每个阶段是不是必须是一个时钟周期啊?这时候,

    2022年8月22日
    8
  • mysql源码包安装以及主从搭建

    mysql源码包安装以及主从搭建

    2021年9月3日
    58
  • 有约束最优化问题MATLAB_约束条件下的最优化问题

    有约束最优化问题MATLAB_约束条件下的最优化问题最近在做天线多目标优化的实例,因此接触到了NSGA-Ⅱ算法,所以想分享以下我个人的学习内容与经历,仅作参考,如果内容有误,也希望各位能够指出来,大家一起进行交流指正。内容将分为以下几个模块,内容可能较多,如果觉得不错的话,可以点赞????,收藏或者转发哦!目录NSGA-Ⅱ算法简介非支配集排序锦标赛选择模拟二进制交叉多项式变异精英保留策略参考文献NSGA-Ⅱ算法简介NSGA-Ⅱ算法由Deb等人首次提出,其思想为带有精英保留策略的快速非支配多目标优化算法,是一种基于Pareto最优解的多目标优化算法。

    2022年10月11日
    6
  • HTC touch2/T3333恢复出厂设置(硬格式化)

    HTC touch2/T3333恢复出厂设置(硬格式化)左手先按住音量键中部 向内用力 将音量键全部按下 然后 右手按住挂机键 此时 机器先出现三色屏 此时两键继续按住不要松开直至机器白屏 出现蓝色字体提示松开两键 按照提示 按 音量上 键 开始硬格式化大约 1 分钟后 提示成功再按 音量上 键 机器重启此过程中 不需要按 reset 键 即 用不着捅 pp 另外 在刷亚洲英文版 ROM 时 进入三色屏方法如下 按住 音量下 键 再按住挂机键 即可本人亲测 与大家分享 也希望其他 XD 们验证 呵呵注 如果机器出现小问题 先格式化下 如果还是不行 那就找个比较稳定的 rom 刷机

    2026年3月19日
    2
  • latex大的中括号_文献引用中括号怎么标注

    latex大的中括号_文献引用中括号怎么标注括号是数学中最常用的符号之一。括号不仅能使我们的公式更加美观,还能使我们的表达更为清晰、丰富。latex里面的括号和我们常见的括号是一样的,主要是小括号、中括号(或者叫方括号)和花括号。这里我们看到花括号如果直接打出来的话是不显示任何东西的,这里我们需要加一个转义符,也就是反斜杠。如果只用直接的括号字符,只能打出固定大小的括号,比如这样打出的括号就比较小。那么如何打出更大一点的括号呢?在latex…

    2022年10月10日
    7
  • jquery获取scrollHeight

    jquery获取scrollHeight$(“yourselector”).prop(“scrollHeight”);其他操作:$(window).height();//浏览器当前窗口可视区域高度$(document).height();//浏览器当前窗口文档的高度$(document.body).height();//浏览器当前窗口文档body的高度$(document.body).outerHeight(true);//浏览器当前窗口文档body的总高度包括borderpaddingmargin$(wind

    2022年7月24日
    26

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号