CPU流水线详解_多周期流水线cpu

CPU流水线详解_多周期流水线cpu为什么Intel处理器主频这么高,而AMD处理器主频都很低?是不是AMD处理器性能不如Intel?我们一般的回答都是,因为Intel处理器与AMD处理器内部构架不同,所以导致了这种情况,还有一种具体一点的回答就是因为Intel处理器流水线长,那到底流水线与CPU主频具体有什么关系呢?今天给大家带来一篇我以前刊登在《电脑报》硬件板块技术大讲堂版面的一篇原创文章。关于CPU流水线的知识,很多报纸杂

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

为什么Intel处理器主频这么高,而AMD处理器主频都很低?是不是AMD处理器性能不如Intel?我们一般的回答都是,因为Intel处理器与AMD处理器内部构架不同,所以导致了这种情况,还有一种具体一点的回答就是因为Intel处理器流水线长,那到底流水线与CPU主频具体有什么关系呢?今天给大家带来一篇我以前刊登在《电脑报》硬件板块技术大讲堂版面的一篇原创文章。

关于CPU流水线的知识,很多报纸杂志都介绍过了,但以往的很多文章对某些问题的解释不够清楚,比如报纸杂志上曾多次提及增加流水线级数有利于提高CPU主频,但对其原因的解释却少有触及,又比如对于流水线的级数与其周期的关系是什么?CPU流水线与工厂流水线的区别和联系等问题的解释也不够清楚,本文将带领您找到以上问题的答案。关于流水线的基本原理本文就不再说明了,对于增加流水线级数有利于提升CPU主频这一观点笔者将通过理论论证和事实举例两方面对其进行解释说明。

我们先对流水线的级数与其周期的关系给出一个公式,一个k级流水线,处理n个任务总共需要花费“k+(n-1)”个周期,这是因为先是处理第一个任务就需要k个时钟周期,k个周期后流水线被装满,剩余n-1个任务只需n-1个周期就能完成。如果同样数量的n个任务不采用流水线处理,那么就需要n*k个周期,我们把两者做比,得到另一个概念,叫做流水线加速比C,所以C=n*k / [k+(n-1)],当n远远大于k时,C的值趋进于k,也就是说,理论上k级流水线几乎可以提高k倍速度,但这仅限于理论。看到这也许有的读者可能会感到一头雾水,不用急,下面就将举例对其进一步说明。

举例前先对流水线周期选取的问题进行一下解析,我们假设一辆成品车的生产过程分为车轮生产,车门生产,最后组装三个步骤,每辆车的车轮生产需要8s,车门需要12s,而最后的组装需要10s,在本例中生产厂商针对此情况设计了1条3级流水线,分别是车轮生产流水线,车门生产流水线以及组装流水线,整条流水线的周期选取为12s,注意,在此为什么设置整条流水线的周期为三个步骤中最长的12s呢?其实在现实生产中由于工艺水平,原料特性以及制造难度的不同,每级流水线完成任务的时间都可能是不同的,这里如果选择8s或10s为整条流水线的周期将会导致车门生产线的任务不能在单位周期内完成,也就无法及时向下一级提交任务,所以在k级流水线中只能选择完成任务所需时间最常的那级流水线的时间作为整条流水线的周期。此例虽然选取12s为整条流水线的周期,但这样又带来了另一个问题,在每个周期内车轮流水线与组装流水线为了等待车门流水线而造成了一定时间上的闲置,具体到CPU内部的流水线也同样存在这个问题,当然我们可以通过合理分配流水线和增加缓存来缓解此问题,但缓存的增加必然导致信号的延迟和高功耗高发热量!

好,我们回到上例,厂商打算在此3级流水线上生产6辆汽车,流水线周期为12s(流水线的周期选取可参看上文),模拟流程如图1,从图上可以看到,6辆汽车一共花费了9-1=8个周期,此结果也印证了上文n个任务总共需花费“k+(n-1)”个周期的公式,此3级流水线生产6辆汽车一共花费的时间是12*8=96s。

一段时间后,厂商决定进行技术改革,又把车轮生产线车门生产线以及组装生产线进一步细分,把流水线的级数由3条增至6条,改革后的6级流水线周期也从12s缩短至6s,(由于细分了各级流水线,所以在此假设每级流水线周期也由原来的8s,12s,10s减半,所以新流水线的周期选取为12s/2s=6s),新流水线生产6辆汽车所花费的周期为12-1=11,所花费的整体时间为11*6=66s,相对于上例的96s提升了30s,至此,我们已从理论上和实际上找到了增加流水线级数确实可以提高工作效率的依据,相信大家已经对流水线的知识有了更进一步的了解,这里还要对一些问题进一步说明。

1流水线级数与频率的关系

结合上文对周期设置的解释和两个例子的对比大家可以发现,只要进一步细分流水线增加其级数,就可以使整条流水线采用更短的周期工作,我们又知道频率等于周期的倒数,由此我们得出结论,增加流水线级数有利于提高各级流水线之间交换任务的频率,也就是有利于提高CPU的主频。

2增加流水线级数为什么能提升工作效率

我们对车辆1进行跟踪测试,其在3级流水线上的生产时间为8s+12s+10s=30s,同样是车辆1在6级流水线上的生产时间为4s+4s+6s+6s+5s+5s=30s,由此我们发现无论对于几级流水线,单个产品的生产时间并没有因流水线级数而改变,既然这样那流水线是通过什么方式提升工作效率的?右图模拟的是不采用流水线时一辆汽车的生产流程,由3个工人分别负责完成3个任务,从图上可以明确看到在每段时间内只有一个工人在工作,其余两个处于闲置状态,对比上例的两个图示我们发现流水线正是充分利用了这段闲置的时间,所以才在单位时间内提升了效率。而且随着流水线级数的增多,对闲置时间的利用也就越充分

3 CPU内部的流水线与工厂流水线的区别和联系

CPU流水线属于工厂流水线的一种,具有流水线的一些共性,但与工厂流水线也具有一些区别,在本文中我们已得到增加流水线级数有助于提升CPU主频的结论,那为什么intel的贝瑞特大叔还要放弃冲击4GHz的计划呢?我们知道任何一种产品的生产都存在良品率这个问题,就如本文所举的例子,如果在汽车的生产过程中轮胎流水线上的一级轮胎报废了,这时我们可以在轮胎流水线的末端增加一个任务,然后用本属于第2辆车的轮胎组装给第1辆车,依次类推,这样对整条流水线效率的影响很小,而且对于同一型号的汽车只要使用的是相应型号的轮胎就行,不用计较具体使用的是哪个轮胎。但具体到CPU流水线,问题就不这么简单了,CPU的工作基理可以大致分为指令寻址,指令分析,指令执行,以及指令上报,假设一旦指令流水线中的某个指令的地址出错,是无法像换轮胎一样用另一个地址来顶替的,因为每条指令只唯一的对应一个地址,而且一些指令的执行是具有前后次序的,所以并不能简单的对出错的指令进行摒弃作罢,必须整条流水线退回重来,对于intel拥有冗长的31级流水线的处理器来说,这种情况的发生将大大拖累CPU的工作效率,虽然intel不断通过改进分支预测技术以及增大缓存来改善此问题,但收效甚微,反而由于缓存的增加和漏电流控制不利,铸造了具有火热胸膛的Prescort。
由此可见,主频能代表:高发热和高功耗! 但性能与执行效率并不高
目前,P4处理器采用31级流水线工位,而A64则是12级流水线工位。。。

有些朋友会问:Intel的二级缓存能直接比AMD处理器的缓存么?

INTEL的 L1 是数据代码指令追存缓存 AMD L1是实数据读写缓存
I L1的概念是 I L1里存着 数据在L2里的地址 L1 不存实际数据 所以大家看到 P4等 I CPU的 L1 都比较小。
A L1的概念是 A L1 里存着实际数据 当L1 满了时 再存L2 所以大家看到A CPU 的L1比较的大 为128K
因为L1比L2的延迟小速度快 所以在缓存上 A CPU 比 I CPU的效率更高
而说起L2 的大小 我强调 INTEL CPU 超大L2 其实在一般使用中并没起到什么作用 反而成了来浪费消费者钱的用途。
CPU处理数据概率
CPU使用0-128K缓存的概率是80%
CPU使用128-256K缓存的概率是10%
CPU使用256-512K缓存的概率是5%
CPU使用512-1M缓存的概率是3%
CPU使用更大缓存的概率是2%
P4的架构,只要L2一次没有命中,就要浪费大约230个周期到内存中去读取数据

也就是说,即使命中率是99%,每一百个周期有一次没命中,就要再空闲230个周期,即330个周期里只有99个周期是在工作,性能损失2/3以上,这就是P4执行效率低的原因了,当然乱续执行可以让空闲时执行下一条指令,不过程序的指令并不是时时刻刻都能并行执行的,而且CPU判定乱续执行时预先要花掉好几个周期,所以不能光看表面的命中概率,只要有1%的命中失败,性能的损失也是非常严重的

cpu流水线技术是一种将指令分解为多步,并让不同指令的各步操作重叠,从而实现几条指令并行处理,以加速程序运行过程的技术。指令的每步有各自独立的电路来处理,每完成一步,就进到下一步,而前一步则处理后续指令。  采用流水线技术后,并没有加速单条指令的执行,每条指令的操作步骤一个也不能少,只是多条指令的不同操作步骤同时执行,因而从总体上看加快了指令流速度,缩短了程序执行时间。  为了进一步满足普通流水线设计所不能适应的更高时钟频率的要求,高档位处理器中的流水线的深度(级数)在逐代增多。当流水线深度在5~6级以上时,通常称为超流水线结构(Super Pipeline)。显然,流水线级数越多,每级所花的时间越短,时钟周期就可以设计的越短,指令速度越快,指令平均执行时间也就越短。  流水线技术是通过增加计算机硬件来实现的。它要求各功能段能互相独立地工作,这就要增加硬件,相应地也加大了控制的复杂性。如果没有互相独立的操作部件,很可能会发生各种冲突。例如要能预取指令,就需增加指令的硬件电路,并把取来的指令存放到指令队列缓冲器中,使微处理器能同时进行取指令和分析、执行指令的操作。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/171313.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 1156针cpu排行_755针最强CPU

    1156针cpu排行_755针最强CPUIntel酷睿i7875K¥2330CPU主频:2930MHz智能加速:3600MHz插槽类型:LGA1156制作工艺:45纳米二级缓存:4×256KB三级缓存:8M核心数量:四核心核心类型:Lynnfield线程数:八线程总线类型:DMI总线热设计功耗(TDP):95W内核电压:0.65-1.40V内存控制器:双通道DDR3-1066/1333最大16G64位处理器。…

    2022年9月20日
    0
  • 语音信号处理分类

    语音信号处理分类人与人之间的通信:语音压缩与编码压缩语音信号的传输带宽或者降低电话信道的传输码率解释:比特率=位深X采样率X信道个数,比特率越高,还原度越高,速度越慢。所以降低编码比特率,可以节省频率资源。第一类人与机器之间的通信:语音合成机器讲话,人接听文语转换(TTS)系统,主要关注可理解度,自然度,可懂度,逼真度(情感语音合成)第二类人与机器之间的通信:语音识别人讲话,机器接…

    2022年5月26日
    39
  • 网站管理后台帐号密码暴力激活成功教程方法

    网站管理后台帐号密码暴力激活成功教程方法【导读】对于网站运行的个人站长而言,最担心的是应如何有效且安全的去管理自己的网站,否则自己辛辛苦苦经营的网站就会被不请自来的不速之客给攻破,轻则站点数据被窃取,重则整个网站都被攻陷,导致无法恢复。本文主要从管理后台这个方面来讲解其黑客攻击过程,并通过在虚拟环境中展开实例演示,各读者可以跟着本教程去做实验,通过实验加强对攻击过程的了解,如果你是一名菜鸟站长也可以针对性的去做一下防护方案。…

    2022年8月22日
    4
  • echarts实现中国地图(Vue)

    1,安装echartsnpminstallecharts–save2,引入importechartsfrom”echarts”;import’echarts/map/js/china.js’//引入中国地图数据(*********重中之重)3,配制option{visualMap:{//地图图例show:true,left:26,bottom

    2022年4月5日
    324
  • linux redis重启,互联网常识:linux下重启redis的方法

    linux redis重启,互联网常识:linux下重启redis的方法跟大家讲解下有关 linux 下重启 redis 的方法 相信小伙伴们对这个话题应该也很关注吧 现在就为小伙伴们说说 linux 下重启 redis 的方法 小编也收集到了有关 linux 下重启 redis 的方法的相关资料 希望大家看到了会喜欢 导语 已经将 redis 加入到 etc 下此时服务器启动 redis 也启动但是却连不上 redis 所有有了以下的过程 学习视频分享 redis 视频教程 查看 redis 状态 syst

    2025年6月1日
    0
  • html怎么隐藏播放器_css遮罩

    html怎么隐藏播放器_css遮罩<!DOCTYPEhtml><htmllang=”en”><head><metacharset=”UTF-8″><metaname=”viewport”content=”width=device-width,initial-scale=1.0″><metahttp-equiv=”X-UA-Compatible”content=”ie=edge”><title>视.

    2025年5月26日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号