CPU分支预测_流水线条件分支

CPU分支预测_流水线条件分支文章目录1.CPU指令流水线2.分支预测的方法2.1分支预测的作用2.2分支预测的方法2.2.1静态预测2.2.2动态预测2.2.3其它预测3.分支预测的实例1.CPU指令流水线CPU在执行指令的时候,一条指令并不是一下就完成的,会有生命周期,例如很经典的有MIPS五级流水线,一条指令执行完毕需要五步取指(instructionfetch):将指令从存储器里面取出来译码(instructiondecode):将指令从存储器中读取出来执行(instructionexecute)

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1.CPU指令流水线

CPU在执行指令的时候,一条指令并不是一下就完成的,会有生命周期,例如很经典的有MIPS五级流水线,一条指令执行完毕需要五步

  1. 取指(instruction fetch):将指令地址从程序计数器(ProgramCounter)取出来,送上地址总线,再有地址总线找到对应的主存单元,取出指令码,再通过数据总线传给指令寄存器(IR)。
  2. 译码(instruction decode):把指令寄存器中的指令交给译码器进行翻译,如果是数值操作的话,会读出待操作的数值,例如a+b,会把a和b的值都通过数据总线发给暂存寄存器(TR)中。
  3. 执行(instruction execute):指令译码之后所需要进行的计算类型都已得知,并且已经从通用寄存器组中读取了所需的操作数,下面就是指令执行。执行就是真正计算的过程,例如如果指令是一条加法运算,则对操作数进行加法操作。
    “执行”阶段,最常用的部件就是算数逻辑部件运算器(Arithmetlc Logical Unit, ALU),作为实施具体运算的硬件功能单元。
  4. 访存(memmory access):存储器访问指令往往是指令集中最重要的指令类型之一,访存是指存储器访问指令将数据从存储器中读取者写入存储器的过程
  5. 写回(write-back):将指令执行的结果写回通用寄存器组的过程。如果是普通运算指令,该结果值来自“执行”阶段计算的结果;如果是存储器读指令,该结果来自于“访存”阶段从存储器中读取出来的数据。

这五步中的前三步,在这个网页中有更好的说明,还有图。计算机指令在CPU中的执行过程(图文版)

如果是普通的逻辑,就是当一条指令执行完“写回”之后再进行下一条指令的“取指”,但是这样会有很大的浪费,因为第一条指令在执行译码的时候,取指、执行、访存和写回都是空着的。下图就是一条指令执行过程中的硬件电路的原理图。

pic1-1

理想情况下,最好的办法就是,第一条指令只要开始执行译码,第二条指令就进来,第一条指令进入执行的时候,第二条指令进入译码,第三条指令进入取指。一个五级流水线结构在七个机器周期内有三个指令被全部执行完毕。如下图所示的效果

pic1-2

2. 分支预测的方法

2.1 分支预测的作用

正如上面所说,CPU流水线的存在,第一条指令只要过了取指,第二条指令就进入流水线了,但是第一条指令还没执行完呢,第二条指令就进来,进啥呢?我们都不知道,CPU肯定更不知道了,就只能猜,这个猜就是分支预测。如果猜对了,那很好,执行效率会很高,如果猜错了,就要把已经装填好的指令全部退掉,重新装填,成本也是很高的。不管怎么做肯定都是猜,所以最好的办法肯定是尽量避免分支预测

2.2 分支预测的方法

2.2.1 静态预测

不同的处理器会有不同的处理方式,SPARC和MIIPS最要用的方法是:预测条件跳转不会发生,因此总是顺序取下一条指令推测执行,仅当条件跳转指令被求值确实发生了跳转,才会把非顺序的指令插入。分支预测的过程发生在执行阶段之前,在其中插入一个分支延迟间隙,也就是发现错误退出的时候,这个指令也已经执行过两次了。

这个方法看起来就比较笨。

2.2.2 动态预测

利用分支指令发生转移的历史进行预测,并根据实际执行情况,进行动态调整,目前所有的处理器都用动态预测,这个的准确率能到90%。

2.2.3 其它预测

剩下的还有饱和计数、两级自适应预测、局部预测、全局预测很多很多,这都是根据硬件决定的。

3. 分支预测的实例

按照前面介绍的分支预测方法,大部分都是根据之前的行为来预测后续的行为,也就是说当输入的数据是大量且无规律的,同时有参数判断过程的存在,下一次执行的指令就不确定了,就可以认为有一大部分的数据都会分支预测错误。因此解决问题的方法就有两个:

  1. 让数据变得有序:这个有序并不一定指的就是sort,而是数组前半段都是满足判断条件的,这样分支预测就只会发生一次,几乎没影响,不过这种“有序”的生成本身就是有很大代价的,如果要用sort的话,复杂度变成 n l o g 2 N nlog_2^N nlog2N了,耗时会明显升高,最好从数据来源上就保证有序;
  2. 取消判断:如果能在逻辑上取消肯定是最好的,但是如果不行,就可以用其它方式取消,例如位运算。下面的例子就是这样的一种,例如需要统计其中小于0的全部数据之和,每次待判断的数据记为val,若val是int类型的,当将val右移31位,若其为负数将为0xffff,若其为非负数将为0x00,而0x00按位与val将为0,0xffff按位与val还是原来的数,就能用这个移位操作来当作int符号的判断操作。
#include<chrono>
#include<iostream>
#include<algorithm>
#include<vector>
#include<cstdlib>
#include<time.h>

#define NUM 1000000
#define VEC_CONTENT  1000

void randomCase(const std::vector<int>& randomVec)
{
	auto start = std::chrono::system_clock::now();
	long long  minusSum = 0;
	for(auto valVec : randomVec)
		if(valVec<0)
			minusSum += valVec;

	auto end = std::chrono::system_clock::now();

	std::cout<<"randomCase's result is "<<minusSum<<", and time cost is ";
	std::cout<<std::chrono::duration_cast<std::chrono::milliseconds>(end-start).count();
	std::cout<<"ms"<<std::endl;
	return ;
}

void sortedCase(const std::vector<int>& randomVec)
{
	std::vector<int>sortedVec = randomVec;
	std::sort(sortedVec.begin(), sortedVec.end());
	
	auto start = std::chrono::system_clock::now();
	long long minusSum = 0;

	for(auto valVec : sortedVec)
		if(valVec<0)
			minusSum += valVec;

	auto end = std::chrono::system_clock::now();

	std::cout<<"sortedCase's result is "<<minusSum<<", and time cost is ";
	std::cout<<std::chrono::duration_cast<std::chrono::milliseconds>(end-start).count();
	std::cout<<"ms"<<std::endl;
	return ;
}


void bitCase(const std::vector<int>& randomVec)
{
	std::vector<int>sortedVec = randomVec;
	auto start = std::chrono::system_clock::now();
	long long minusSum = 0;

	for(auto valVec : sortedVec)
		minusSum += (valVec>>31) & valVec;

	auto end = std::chrono::system_clock::now();

	std::cout<<"bitCase's result is "<<minusSum<<", and time cost is ";
	std::cout<<std::chrono::duration_cast<std::chrono::milliseconds>(end-start).count();
	std::cout<<"ms"<<std::endl;
	return ;
}

void vecCreate(std::vector<int>& randomVec)
{
	size_t n = randomVec.size();
	for(size_t i=0; i<n; ++i)
		randomVec[i] = std::rand()%((VEC_CONTENT<<1) + 1) - VEC_CONTENT;
}

int main(void)
{
	std::srand((unsigned)time(nullptr));
	std::vector<int>randomVec(NUM);
	vecCreate(randomVec);

	randomCase(randomVec);
	sortedCase(randomVec);
	bitCase(randomVec);
	return 0;
}

没用O2的时候输出结果如下

randomCase's result is -249441649, and time cost is 17ms
sortedCase's result is -249441649, and time cost is 8ms
bitCase's result is -249441649, and time cost is 9ms

可见排好序之后速度会快很多,和bitcase的效果差不多。不过如果把排序时间算上就比random慢了,但是我看到说有的时候把排序时间算上还比randomcase快的,但不知道是不是和java有关系。

这个分支预测的问题,一般只会发生在大量无序数据判断的时候。

那既然if可以用位预算提速,是不是所有的if都要换呢?我觉得这样并不好,因为如果数据量不大,对效率的提升微乎其微,而且最大的问题是可读性会变得很差

部分资料和图来自下面的网站

https://zhuanlan.zhihu.com/p/109574885

https://zh.wikipedia.org/wiki/%E5%88%86%E6%94%AF%E9%A0%90%E6%B8%AC%E5%99%A8

https://blog.csdn.net/hanzefeng/article/details/82893317

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/171302.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux iptable设置防火墙

    linux iptable设置防火墙Iptables防火墙规则使用梳理 iptables是组成Linux平台下的包过滤防火墙,与大多数的Linux软件一样,这个包过滤防火墙是免费的,它可以代替昂贵的商业防火墙解决方案,完成封包过滤、封包重定向和网络地址转换(NAT)等功能。在日常Linux运维工作中,经常会设置iptables防火墙规则,用来加固服务安全。以下对iptables的规则使用做了总结性梳理:iptables首先需要了解的…

    2022年5月27日
    41
  • 物业 小程序_智慧物业平台app安卓版

    物业 小程序_智慧物业平台app安卓版智慧小区小程序功能小区资讯展示小区最新的资讯和动态.让小区居民对小区的活动有全盘的了解.小区资讯详情.将对活动的具体情况.有一个更详尽的描述。物业通知由物业服务公司通过管理后台发布.能将最新的物业通知推送到用户手机桌面.实现物业管理信息的即时推送.点击即可查看详情。邮包提醒将以数字的方式,提醒住户有多少邮包在传达室尚未领取,领取完成后,该数字将自动归零。小区服务整合小区所有服务项目,如物业维修、超…

    2022年10月10日
    2
  • kmplayer字幕乱码_VLC中文字幕乱码问题

    kmplayer字幕乱码_VLC中文字幕乱码问题今天拷了个《活着》,本想在熄灯之前能看完的,但是这个字幕乱码,折腾了近一个小时,边磕瓜子边google,终于解决了。我的系统是Ubuntu10.10,mplayer是没有GUI的,只能命令行播放。可能在中文环境下不会有什么问题,用加-subcpgbk的方法。但是我的系统是英文环境,所以才费了好多周折,中文一直是下划线。后来看到这篇文章:http://bbs.dospy.com/threa…

    2025年6月23日
    2
  • 图片和Base64编码相互转换[通俗易懂]

    图片和Base64编码相互转换[通俗易懂]https://www.cnblogs.com/hzhl/articles/14919747.html

    2022年6月5日
    26
  • python 替换字符串中的元素「建议收藏」

    python 替换字符串中的元素「建议收藏」python替换字符串中的元素defstr_replace(old_str,old,new):   “””   在old_str字符串中,把old替换成new   :paramold_str:原字符串   :paramold:被替换的字符   :paramnew:替换后的字符   :r

    2022年5月12日
    71
  • 统一用户登录管理认证LDAP 服务端部署

    网上找了好多关于LDAP统一账户管理的文件,好多都是粘贴复制,能用得上的少之又少,正好最近又用到这个,于是着手看了郭老师的视频,顺便把自己学习的过程记录下来,供大家学习参考。1、实验环境:[root@localhost~]#cat/etc/redhat-releaseCentOSLinuxrelease7.2.1511(Core)[root@loca…

    2022年4月6日
    56

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号