NVIDIA支持CUDA的显卡选型简述

NVIDIA支持CUDA的显卡选型简述NVIDIA 支持 CUDA 的显卡选型简述目录 NVIDIA 支持 CUDA 的显卡选型简述一 概述 1 为什么选这三款二 对比 1 训练 trainingCPU 与 GPU 的区别计算精度显存和显存带宽价格 2 训练环境的选择 3 推理 inference 吞吐量和时延稳定性 4 生产环境的选择三 说明 1 自我说明 2 名词说明 CPU GPU TPU NPU 都是什么 3 nVidia 显卡架构 4 个人愚见一 概述参考链接 nvidia 官方网站根据 nVidia 官方介绍 nVidia 出品的支持 CUDA 的产品有 1

NVIDIA支持CUDA的显卡选型简述

一、概述

参考链接: nvidia官方网站

1、为什么选这三款

  • 【Tesla】系列产品全部由nVidia原厂设计和生产,产品品质和服务更有保障,而且官方明确定义该类产品适用于数据中心和高性能计算场景,简单的说就是服务器专用系列。从材料和驱动上都对科学计算以及人工智能训练和推理做了相应的优化。
    另外,还加入了ECC内存纠错功能,这点是在GeForce系列中没有的。
  • 【GeForce】系列本来针对的是个人用户桌面环境的娱乐使用的,就是游戏影音。该系列产品的设计本就不适合高强度、长时间的工作,而且对于程序和驱动方面的优化也只是针对游戏方面的。在其用户使用协议中也申明了,不能安装在服务器上使用,否则将失去维保和支持。
    但是很多企业和个人也用该系列的某些产品做人工智能研发,因为相比专业的Tesla卡,同等计算能力的情况下,这个更便宜。
    比如我司之前也用过GeForce GTX 1080 Ti 和GeForce GTX 1050 Ti作为研发和生产使用,但是多多少少都出现过问题。就在去年,在客户那里部署的两台生产服务器,每台搭载两张GTX 1080 Ti显卡,其中一台服务器的两张显卡都出现了故障,导致生产停滞,最后不得不联系供应商更换,随后另一台服务的其中一张也出现了故障。这也是我们之前没有查找相关数据以及没有这方面经验导致的。
    实践证明,该系列显卡确实不适合服务器那种高强度高负荷的工作环境,但是作为训练或测试环境还是可以选用其作为专业显卡的代替方案的。


  • 【TITAN】系列,官方列表把TITAN和GeForce放在了同一个列表中,所以我认为二者的定位应该是差不多的。但是为什么nVidia官方又推荐研究人员、开发人员和创作者使用TITAN RTX呢。我感觉这就像他每一代新产品发布的时候都说“这是世界上最先进的GPU”一样。
    我司也是在该卡刚发布的时候(2019年)就采购了一些作为公司的研发生产工具,至于性能如何呢,我也不太清楚了,因为我不是直接使用者。
    这么来看的话,那我感觉用最新的RTX 3090,性价比应该是更高的。因为RTX 3090采用了最新的Ampere架构,CUDA核心和显存带宽远比RTX TITAN高出近1倍,计算精度性能这方面没找到相关的数据,但是根据这个架构,这个配置,也不可能低到哪里去。最重要的是,官方给的价格,RTX 3090比RTX TITAN便宜了1000美刀,京东上的价格,二者也相差3-5k。
    在这里插入图片描述
    在这里插入图片描述



  • 【Quadro】系列,为什么不选它呢,因为老黄准备把这个系列取消了,变成RTX A系列。这个系列的显卡定义是专业图形工作站使用的,简单的说就是绘图,制作,设计等到这类的专业性很强的场景使用的,比如我们熟悉的Adobe全家桶,3DMAX,CAD等这类的软件,而且该类显卡的驱动还在某些专业软件上做过针对性的优化。
    虽然它的性能也很不错了,但是根据设计,它的应用场景同样不适合服务器这种7*24h的高负荷且需要足够的稳定性的场景。而且和GeForce差不多性能的情况下,价格却比GeForce贵出去很多。所以我认为用它来做深度学习训练,有些不太合适。
  • 【Jetson】系列,这个东西被设计成基于arm架构的AI运算模块,功耗很低,10W-30W左右,所以更适合运用在边缘计算场景下。比如我司也有一些产品就搭载了Jetson AGX Xavier,在生产环境中我感觉表现还是很不错的了。

二、对比

参考链接:知乎 | 深度学习训练和推理有何不同

1、训练–training

CPU与GPU的区别
计算精度

根据不同的深度学习应用场景,又有各种浮点运算精度的区别,比如“单精度,双精度,半精度,混合精度”等等。我司主要业务是针对图像分类,特征识别等(用词可能不太专业),这并非是计算精度要求十分严格的科学计算,如航空航天,医学,核能等领域,所以在“图像识别”这类模型训练中一般采用的是单精度或半精度,或者混合精度。

这些各种精度的运算有什么区别,可以参考 知乎 | 单精度、双精度、多精度和混合精度计算的区别是什么?

显存和显存带宽
价格

2、训练环境的选择

3、推理–inference

吞吐量和时延

nVidia官方给出了Tesla系列部分型号的推理性能数据,参考:NVIDIA 数据中心深度学习产品性能

图像分类吞吐量

Tesla V100推理性能

Tesla T4推理性能

稳定性

在生产环境中,除了考虑性能之外,更重要的也要考虑稳定性。因为严格的讲,服务器是7*24h不间断工作的,所以用于服务器环境的GPU也应该具有可靠的稳定性,这点Tesla显然比GeForce或者TITAN表现要好得多。因为根据实践经验,之前在生产环境中使用的GeForce GTX 1080 Ti已经坏了三个了,所以在新的部署环境中,我们选择了Tesla T4这个型号的GPU。

4、生产环境的选择

三、说明

1、自我说明

本人对于深度学习、神经网络,以及GPU硬件都不是很了解,只是在这一年多的接触中耳濡目染,“偷听”到一些名词,然后结合网上找的资料,写出来这篇“自以为是”的博文,所以,如果有不对的地方,欢迎读者批评指正,我本人也会继续学习,希望能自我修正。

2、名词说明

关于深度学习的一些名词解释,这个链接进行了描述:深度学习名词解释

CPU,GPU,TPU,NPU都是什么?
  • 中央处理器(CPU),是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速及实现它们缓冲处理器之间联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。
  • 图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
  • TPU(Tensor Processing Unit)即张量处理单元,是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。
  • 嵌入式神经网络处理器(NPU)采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。NPU处理器专门为物联网人工智能而设计,用于加速神经网络的运算,解决传统芯片在神经网络运算时效率低下的问题。

原文链接:https://blog.csdn.net/_/article/details/

3、nVidia显卡架构

在这里插入图片描述
从图上可以看到,nVidia显卡架构是“Tesla(特斯拉)→Fermi(费米) → Kepler(开普勒) → Maxwell(麦克斯韦) → Pascal(帕斯卡) → Volta(伏特) → Turing(图灵) → Amper(安培)[图上没有,因为这个是最新的架构]”这么个路线,都是一些为科学做过突出贡献的历史名人。。。按照这种发展方向,预计不久的将来可能会发布“爱因斯坦”架构。

  • Tesla(特斯拉): 市面已经没有相关显卡
  • Fermi(费米):GeForce 400, 500, 600, GT-630
  • Kepler(开普勒):Tesla K40/K80, GeForce 700, GT-730
  • Maxwell(麦克斯韦尔): Tesla/Quadro M series GeForce 900, GTX-970
  • Pascal(帕斯卡): Tesla p100,GTX 1080, GTX 1070, GTX 1060
  • Votal(伏打): Tesla V100, GTX 1180
  • Turing(图灵): T4,GTX 1660 Ti, RTX 2060
  • Ampere(安培): A100

原文链接:NVIDIA显卡及架构介绍

4、个人愚见

最后,还有一些不错的文章,有兴趣的读者可以参考阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/223772.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午1:26
下一篇 2026年3月17日 下午1:26


相关推荐

  • feof函数_feof函数头文件

    feof函数_feof函数头文件feof是一个多义词,请在下列义项上选择浏览(共2个义项)添加义项▪函数名▪检测流文件指针是否已到达文件结尾收藏查看我的收藏543有用+1已投票10feof(函数名)编辑锁定本

    2022年8月6日
    9
  • powershell编程

    powershell编程基本注释单行注释 多行注释 lt gt thisissingle linecomment lt thisismultip linecomment gt 帮助命令 get help param param 可选 为具体的 powershell 命令 e g get helpdir 分号 每条语句可以使用一个分号结束 当然也可以不写 如果一行中存在多条语句 那就在每一句后加个分号用以分隔 代码块 和 C 语系的

    2026年3月16日
    2
  • MyEclipse6.5下struts2+spring2+hibernate3 整合

    MyEclipse6.5下struts2+spring2+hibernate3 整合

    2021年8月17日
    53
  • (各个公司面试原题)在线做了一套CC++综合測试题,也来測一下你的水平吧(二)

    (各个公司面试原题)在线做了一套CC++综合測试题,也来測一下你的水平吧(二)

    2022年1月31日
    48
  • DSP28335笔记 —— 定时器

    DSP28335笔记 —— 定时器DSP28335 笔记 定时器相比于 STM32 DSP28335 的定时器好像真的简单了好多 从定时器个数来讲只有 3 个 时钟源只能是系统时钟 而且计数方向也只有向下计数 单纯且善良的定时器 好不让人心生喜爱 目录 DSP28335 笔记 定时器定时器介绍相关寄存器定时器代码实验定时器介绍 TMS320F28335 的 CPUTime 有三个 分别为 Timer0 Timer1 Timer2 其中 Timer1 和 Timer2 是为操作系统 DSP BIOS 保留的 当未移植操作系统时 可用来做普

    2026年3月26日
    2
  • UDP服务recvfrom函数设置非阻塞

    UDP服务recvfrom函数设置非阻塞本文先介绍我查看了的2篇文章,然后介绍linux和windows下的非阻塞设置。最后是非阻塞情况下接收情况的判断。2篇博文其实UDP的非阻塞也可以理解成和TCP是一样的,都是通过socket的属性去做。方法一:通过fcntl函数将套接字设置为非阻塞模式。方法二:通过套接字选项SO_RECVTIMEO设置超时。https://blog.csdn.net/daiyudong20…

    2022年7月23日
    99

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号