NVIDIA支持CUDA的显卡选型简述

一、概述

参考链接： nvidia官方网站

1、为什么选这三款

【Tesla】系列产品全部由nVidia原厂设计和生产，产品品质和服务更有保障，而且官方明确定义该类产品适用于数据中心和高性能计算场景，简单的说就是服务器专用系列。从材料和驱动上都对科学计算以及人工智能训练和推理做了相应的优化。
另外，还加入了ECC内存纠错功能，这点是在GeForce系列中没有的。
【GeForce】系列本来针对的是个人用户桌面环境的娱乐使用的，就是游戏影音。该系列产品的设计本就不适合高强度、长时间的工作，而且对于程序和驱动方面的优化也只是针对游戏方面的。在其用户使用协议中也申明了，不能安装在服务器上使用，否则将失去维保和支持。
但是很多企业和个人也用该系列的某些产品做人工智能研发，因为相比专业的Tesla卡，同等计算能力的情况下，这个更便宜。
比如我司之前也用过GeForce GTX 1080 Ti 和GeForce GTX 1050 Ti作为研发和生产使用，但是多多少少都出现过问题。就在去年，在客户那里部署的两台生产服务器，每台搭载两张GTX 1080 Ti显卡，其中一台服务器的两张显卡都出现了故障，导致生产停滞，最后不得不联系供应商更换，随后另一台服务的其中一张也出现了故障。这也是我们之前没有查找相关数据以及没有这方面经验导致的。
实践证明，该系列显卡确实不适合服务器那种高强度高负荷的工作环境，但是作为训练或测试环境还是可以选用其作为专业显卡的代替方案的。
【TITAN】系列，官方列表把TITAN和GeForce放在了同一个列表中，所以我认为二者的定位应该是差不多的。但是为什么nVidia官方又推荐研究人员、开发人员和创作者使用TITAN RTX呢。我感觉这就像他每一代新产品发布的时候都说“这是世界上最先进的GPU”一样。
我司也是在该卡刚发布的时候（2019年）就采购了一些作为公司的研发生产工具，至于性能如何呢，我也不太清楚了，因为我不是直接使用者。
这么来看的话，那我感觉用最新的RTX 3090，性价比应该是更高的。因为RTX 3090采用了最新的Ampere架构，CUDA核心和显存带宽远比RTX TITAN高出近1倍，计算精度性能这方面没找到相关的数据，但是根据这个架构，这个配置，也不可能低到哪里去。最重要的是，官方给的价格，RTX 3090比RTX TITAN便宜了1000美刀，京东上的价格，二者也相差3-5k。
【Quadro】系列，为什么不选它呢，因为老黄准备把这个系列取消了，变成RTX A系列。这个系列的显卡定义是专业图形工作站使用的，简单的说就是绘图，制作，设计等到这类的专业性很强的场景使用的，比如我们熟悉的Adobe全家桶，3DMAX，CAD等这类的软件，而且该类显卡的驱动还在某些专业软件上做过针对性的优化。
虽然它的性能也很不错了，但是根据设计，它的应用场景同样不适合服务器这种7*24h的高负荷且需要足够的稳定性的场景。而且和GeForce差不多性能的情况下，价格却比GeForce贵出去很多。所以我认为用它来做深度学习训练，有些不太合适。
【Jetson】系列，这个东西被设计成基于arm架构的AI运算模块，功耗很低，10W-30W左右，所以更适合运用在边缘计算场景下。比如我司也有一些产品就搭载了Jetson AGX Xavier，在生产环境中我感觉表现还是很不错的了。

二、对比

参考链接：知乎 | 深度学习训练和推理有何不同

1、训练–training

CPU与GPU的区别

计算精度

根据不同的深度学习应用场景，又有各种浮点运算精度的区别，比如“单精度，双精度，半精度，混合精度”等等。我司主要业务是针对图像分类，特征识别等（用词可能不太专业），这并非是计算精度要求十分严格的科学计算，如航空航天，医学，核能等领域，所以在“图像识别”这类模型训练中一般采用的是单精度或半精度，或者混合精度。

这些各种精度的运算有什么区别，可以参考知乎 | 单精度、双精度、多精度和混合精度计算的区别是什么?

显存和显存带宽

价格

2、训练环境的选择

3、推理–inference

吞吐量和时延

nVidia官方给出了Tesla系列部分型号的推理性能数据，参考：NVIDIA 数据中心深度学习产品性能

图像分类吞吐量

Tesla V100推理性能

Tesla T4推理性能

稳定性

在生产环境中，除了考虑性能之外，更重要的也要考虑稳定性。因为严格的讲，服务器是7*24h不间断工作的，所以用于服务器环境的GPU也应该具有可靠的稳定性，这点Tesla显然比GeForce或者TITAN表现要好得多。因为根据实践经验，之前在生产环境中使用的GeForce GTX 1080 Ti已经坏了三个了，所以在新的部署环境中，我们选择了Tesla T4这个型号的GPU。

4、生产环境的选择

三、说明

1、自我说明

本人对于深度学习、神经网络，以及GPU硬件都不是很了解，只是在这一年多的接触中耳濡目染，“偷听”到一些名词，然后结合网上找的资料，写出来这篇“自以为是”的博文，所以，如果有不对的地方，欢迎读者批评指正，我本人也会继续学习，希望能自我修正。

2、名词说明

关于深度学习的一些名词解释，这个链接进行了描述:深度学习名词解释

CPU,GPU,TPU,NPU都是什么？

中央处理器（CPU），是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速及实现它们缓冲处理器之间联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。
图形处理器（英语：Graphics Processing Unit，缩写：GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。
TPU（Tensor Processing Unit）即张量处理单元，是一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能（每瓦计算能力）。
嵌入式神经网络处理器（NPU）采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。NPU处理器专门为物联网人工智能而设计，用于加速神经网络的运算，解决传统芯片在神经网络运算时效率低下的问题。

原文链接：https://blog.csdn.net/_/article/details/

3、nVidia显卡架构

在这里插入图片描述
从图上可以看到，nVidia显卡架构是“Tesla（特斯拉）→Fermi（费米） → Kepler（开普勒） → Maxwell（麦克斯韦） → Pascal（帕斯卡） → Volta（伏特） → Turing（图灵） → Amper（安培）[图上没有，因为这个是最新的架构]”这么个路线，都是一些为科学做过突出贡献的历史名人。。。按照这种发展方向，预计不久的将来可能会发布“爱因斯坦”架构。

Tesla（特斯拉）: 市面已经没有相关显卡
Fermi（费米）：GeForce 400, 500, 600, GT-630
Kepler（开普勒）：Tesla K40/K80, GeForce 700, GT-730
Maxwell（麦克斯韦尔）: Tesla/Quadro M series GeForce 900, GTX-970
Pascal（帕斯卡）: Tesla p100,GTX 1080, GTX 1070, GTX 1060
Votal（伏打）: Tesla V100, GTX 1180
Turing（图灵）: T4,GTX 1660 Ti, RTX 2060
Ampere（安培）: A100

原文链接：NVIDIA显卡及架构介绍

4、个人愚见

最后，还有一些不错的文章，有兴趣的读者可以参考阅读。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/223772.html原文链接：https://javaforall.net

NVIDIA支持CUDA的显卡选型简述