关于CPU编程—无锁编程

全栈程序员-站长 • 2022年6月1日下午6:16 • 未分类 • 阅读 20

关于CPU编程—无锁编程Lock-free算法通常比基于锁的算法要好：从其定义来看，它们是wait-free的，可以确保线程永远不会阻塞。状态转变是原子性的，以至于在任何点失败都不会恶化数据结构。因为线程永远不会阻塞，所以当同步的细粒度是单一原子写或比较交换时，它们通常可以带来更高的吞吐量。在某些情况下，lock-free算法会有更少的同步写操作（比如Interlocked操作），因此纯粹从性能

大家好，又见面了，我是你们的朋友全栈君。

Lock-free 算法通常比基于锁的算法要好：

从其定义来看，它们是 wait-free 的，可以确保线程永远不会阻塞。
状态转变是原子性的，以至于在任何点失败都不会恶化数据结构。
因为线程永远不会阻塞，所以当同步的细粒度是单一原子写或比较交换时，它们通常可以带来更高的吞吐量。
在某些情况下，lock-free 算法会有更少的同步写操作（比如 Interlocked 操作），因此纯粹从性能来看，它可能更便宜。

但是 lock-freedom 并不是万能药。下面是一些很明显的不利因素：

乐观的并发使用会对 hot data structures 导致 livelock。
代码需要大量困难的测试。通常其正确性取决于对目标机器内存模型的正确解释。
基于众多原因，lock-free 代码很难编写和维护。

无锁编程与分布式编程那个更适合多核CPU？

前一篇文章
多核系统中三种典型锁竞争的加速比分析讲过了三种典型锁竞争情况下的加速比情况，特别是分布式锁竞争的加速比和CPU核数成正比，有很好的加速比性能。由于近些年在学术界中，无锁编程属于研究热点。那么使用无锁编程是不是可以取得更好的加速比性能呢？或者说无锁编程是不是更适合多核CPU系统呢？

无锁编程主要是使用原子操作替代锁来实现对共享资源的访问保护，举个例子，要对某个整数变量进行加1操作的话，用锁保护操作的代码如下：

int a = 0;

Lock();

a+= 1;

Unlock();

如果对上述代码反编译可以发现 a+=1;被翻译成了以下三条汇编指令：

mov eax,dword ptr [a]

add eax,1

mov dword ptr [a],eax

如果在单核系统中,由于在上述三条指令的任何一条执行完后都可能发生任务切换，比如执行完第1条指令后就发生了任务切换，这时如果有其他任务来对a进行操作的话，当任务切换回来后，将继续对a进行操作，很可能出现不可预测的结果，因此上述三条指令必须使用锁来保护，以使这段时间内其他任务无法对a进行操作。

需要注意的是，在多核系统中，因为多个CPU核在物理上是并行的，可能发生同时写的现象；所以必须保证一个CPU核在对共享内存进行写操作时，其他CPU核不能写这块内存。因此在多核系统中和单核有区别，即使只有一条指令，也需要要加锁保护。

如果使用原子操作来实现上述加1操作的话，例如使用VC里的InterlockedIncrement来操作的话，那么对a的加1操作需要以下语句

InterlockedIncrement (&a);

这条语句最终的实际加1操作会被翻译成以下一条带lock前缀的汇编指令：

lock xadd dword ptr [ecx],eax

使用原子操作时，在进行实际的写操作时，使用了lock指令，这样就可以阻止其他任务写这块内存，避免出现数据竞争现象。原子操作速度比锁快，一般要快一倍以上。

使用lock前缀的指令实际上在系统中是使用了内存栅障（memory barrier），当原子操作在进行时，其他任务都不能对内存操作，会影响其他任务的执行。因此这种原子操作实际上属于一种激烈竞争的锁，不过由于它的操作时间很快，因此可以看成是一种极细粒度锁。

在无锁(Lock－free)编程环境中，主要使用的原子操作为CAS（Compare and Swap）操作，在VC里对应的操作为InterlockedCompareExchange或者InterlockedCompareExchangeAcquire；如果是64位的操作，需要使用InterlockedCompareExchange64或者InterlockedCompareExchangeAcquire64。使用这种原子操作替代锁的最大的一个好处是它是非阻塞的。

按照微软MSDN的说明，InterlockedCompareExchange带有全局的内存栅障(full memory barrier)，在使用了full memory barrier的情况下，即使不是访问同一内存变量的原子操作也会发生竞争，从竞争形式上来讲，会发生固定式锁竞争或随机锁竞争现象，并且无法实现分布式锁竞争的竞争模式，比起使用普通锁的竞争会更激烈，因此最终得到的加速比会比上一篇文章里讲的固定式锁竞争还要糟糕。

对于象InterlockedCompareExchangeAcquire这类的原子操作，没有使用full memory barrier，因此性能理论上会比使用full memory barrier的原子操作好很多（由于目前这类原子操作只有在特定的机器才支持，具体性能到底如何没有测试过，微软的MSDN里也对性能方面作出说明）。但是如果采用固定式锁竞争形式，其加速比仍然是按照前面的固定式锁竞争的加速比公式来计算：

由于原子操作速度比锁快，其实相比于普通锁操作，相当于加锁解锁时间减少了2～3倍左右，不妨以2倍来计算，对应的任务粒度会增大一倍，为关于CPU编程—无锁编程，另外由于原子操作内的锁内计算通常只是简单一两条指令，因此其锁粒度很小，可以近似看成为0，因此加速比为：

因此在固定式锁竞争情况下，加速比的极限值约等于使用普通锁时的2倍任务粒度大小，大约比使用普通锁时的加速比大一倍左右。加速比并不能随CPU核数增长而线性增加。

对于随机式锁竞争情况，加速比为：
关于CPU编程—无锁编程

如果讲普通锁操作改成原子操作，将锁粒度近似看成0，那么
关于CPU编程—无锁编程

，对于任务粒度非常大的情况，概率p的增加并不大；对于任务粒度非常小的情况，概率p最大可以增大近似一倍，加速比相比于普通锁也可以获得一定程度的提高。

对于普通锁随机竞争情况下的最坏情况，加速比为：

改成原子操作后，加速比为：

只是相对于普通锁竞争情况提高了一些，并不能随CPU核数增加而增加。

注意上面没有考虑无锁编程的算法开销，采用无锁编程时，要完成一个CAS操作需要在一个循环里来完成，有可能要循环很多次才能完成一次写操作，因此实际性能并达不到上面的计算结果。

因此即使使用无锁编程，如果锁竞争形式仍然是固定式竞争或随机竞争的形式，加速比性能仍然是不乐观的，仍然跟分布式锁竞争的加速比差很远，因为分布式锁竞争在最坏情况下加速比也可以做到接近CPU核数。

当然有人也会提出，既然分布式锁竞争的加速比性能这么好，那么将原子操作替代普通锁来进行分布式竞争，岂不是可以取得更好的加速比性能？理论上来说，如果以不带
full memory barrier
的原子操作来替代普通锁进行分布式竞争，是可以取得比普通锁进行分布式竞争更好的加速比，分布式加速比为
关于CPU编程—无锁编程

，使用原子操作后，任务粒度将会增大2~3倍，对于任务粒度非常小的情况，比如任务粒度小于0.5（这种情况实际中很难出现），加速比将比使用普通锁时增大一倍左右，对于任务粒度较大的情况，加速比增加并不明显。

对于任务粒度的大小，很大程度上取决于程序员对任务的划分，只要程序员在划分任务时不要将任务粒度划得太小，这样就可以降低任务粒度对加速比造成的影响。

但是使用分布式锁竞争时，性能已经可以和单核多任务时的程序性能接近了，使用无锁编程难度非常高，程序复杂度也非常高，非专业人士难以掌握，普通程序员想要进行无锁编程几乎是不可能的事情。而分布式编程的难度和以前单核多任务时代的数据结构算法编程难度差不多，普通程序员都可以掌握。因此在实际情况中只要任务粒度不是太小，就没有必要过于追求性能，使用普通锁的分布式锁竞争已经足够了。

从目前无锁编程的发展来看，已经实现了的无锁算法很有限，并且功能也很有限，并且无锁编程是独立于以前的单核时代的编程的，使用无锁编程几乎无法复用以前的成果。分布式编程是在原有的单核多任务编程基础上发展而来，可以继承以前单核时代的成果，比如队列池便可以继承已有的队列算法，因此采用分布式编程可以大大减轻将现有单核程序移植到多核系统中的工作量，只要对现有程序进行一些重构即可完全支持多核CPU系统。

综上所述，可以得到下表所示的结论

	比较项目	无锁编程	分布式编程
1	加速比性能	取决于竞争方式，除非也采用分布式竞争，否则不如分布式锁竞争的性能	加速比和CPU核数成正比关系，接近于单核多任务时的性能
2	实现的功能	有限	不受限制
3	程序员掌握难易程度	难度太高，过于复杂，普通程序员无法掌握，目前世界上只有少数几个人掌握。	和单核时代的数据结构算法难度差不多，普通程序员可以掌握
4	现有软件的移植	使用无锁算法后，以往的算法需要废弃掉，无法复用	可以继承已有的算法，在已有程序基础上重构即可。

从上表的四个方面的综合比较可以看出，无锁编程的实用价值是远远不如分布式编程的，因此分布式编程比无锁编程更适合多核CPU系统。

转自：http://blog.csdn.net/windows_zf/article/details/3086498

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/137606.html原文链接：https://javaforall.net

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

SoundFlower+QuickTime录屏Mac含系统声音[通俗易懂]

上一篇 2022年6月1日下午6:16

MybatisPlus逻辑删除

下一篇 2022年6月1日下午6:16

cdn加速配置_自己配置cdn

cdn加速配置_自己配置cdn配置方法同上篇文章一样CDN加速配置，阿里云cdn内配置好以后即可剩下把前端服务器nginx内的证书文件上传以及配置写好即可。后端服务器也同上配置证书下载上传服务器配置好nginx即可。如果都配置好以后，不可以访问时，注意查看前端请求接口是否为https方式。如果为http时，检查是否更新服务器成功，如果成功后还不可以正常访问时，前端修改代码如下：vue.config.js内添加下行代码。index.html下添加代码：https:true完毕！…

全栈程序员-站长
2022年8月19日
26
编码器计数原理与电机测速原理——多图解析[通俗易懂]

编码器计数原理与电机测速原理——多图解析[通俗易懂]编码器，是一种用来测量机械旋转或位移的传感器。它能够测量机械部件在旋转或直线运动时的位移位置或速度等信息，并将其转换成一系列电信号。编码器分类按监测原理分类光电编码器光电编码器，是一种通过光电转换将输出轴上的机械几何位移量转换成脉冲或数字量的传感器。这是目前应用最多的传感器，光电编码器是由光源、光码盘和光敏元件组成。光栅盘是在一定直径的圆板上等分地开通若干个长方形孔。由于光电码盘与电动机同轴，电动机旋转时，光栅盘与电动机同速旋转，经发光二极管等电子元件组成的检测装置检测输出若干脉冲信号，通过计算每

全栈程序员-站长
2022年10月1日
4
stm32无感无刷电机驱动

stm32无感无刷电机驱动前言使用 stm32 如何去控制无刷电机首先我们先要知道无刷电机的工作原理是什么这样我们才能针对实际需求对 stm32 进行点对点的内部资源的调用从而进行程序编写我相信能搜到这个 Blog 的同学都对无刷电机有一个大概的了解但是具体的使用细节和原理可能不太清楚无刷电机的工作原理

全栈程序员-站长
2026年3月26日
2
matlab 累加合,matlab循环语句for累加[通俗易懂]

matlab 累加合,matlab循环语句for累加[通俗易懂]Matlabfor循环语句没仔细研究你那个拟合函数的用法。不过像这种需要分段处理数据的情况很多，有种在matlab里很常用的技巧感觉你可以学学：假设原始数据(xdata)是一列100个数，你需要一次处理13个，那么下面这段代码先将这100数“折叠”成一个13行的矩阵(x)。我这个例子里是折叠成13*8的矩阵了。因为100不能整除13，所以会在最后补零。如果你…

全栈程序员-站长
2026年4月16日
10
ffmpeg 入门_python入门笔记

ffmpeg 入门_python入门笔记写在前面最近在读《FFmpeg从入门到精通》这本书，结合着雷神的博客，学习音视频的知识～在学习的过程中，也记录了一些摘要。因为是边看边记的，所以一些要点在看到后面的时候，需要反过来整理前面的。我用有道云笔记写的markdown没法加图片，所以就先把这部分发了出来。后续会针对内容和排版一步步的优化，如果你被这凌乱的内容辣到了眼睛，请谅解哈哈哈～2019.06.18第一章+第二章知识点（未…

全栈程序员-站长
2022年4月19日
53
5g 网络切片边缘计算_5g网络切片技术前景

5g 网络切片边缘计算_5g网络切片技术前景紧接上文接入网RANRAN切片提供了基于切片ID的AMF/UPF选择，并提供了相对静态的资源控制和优先级控制。此外，RAN通过RIC(RANIntelligentControl，通过E2接口连接gNB)实现了针对动态资源调度和优先级控制等的实时闭环控制。关于RAN切片的基本机构可参照下图优先级控制在未适用网络切片前，显然，gNB并不能针对UE的不同服务做不同的优先级控制。在适用了5G的网络切片后，运营商就能就能通过不同的网络切片在无线侧调度不同的优先级（这是显而易见的，哈哈）。譬如UE1用高优

全栈程序员-站长
2026年4月14日
5

关于CPU编程—无锁编程

关于作者

全栈程序员-站长

相关推荐

cdn加速配置_自己配置cdn

编码器计数原理与电机测速原理——多图解析[通俗易懂]

stm32无感无刷电机驱动

matlab 累加合,matlab循环语句for累加[通俗易懂]

ffmpeg 入门_python入门笔记

5g 网络切片 边缘计算_5g网络切片技术前景

发表回复

5g 网络切片边缘计算_5g网络切片技术前景