三千多元就有32GB显存？A770双卡部署DeepSeek-R1 32B

最近这段时间，来装机咨询的小伙伴都向我强调，自己有本地部署LLM的需求。本地部署对硬件要求还是挺高的，其中显存容量最为重要，有多大的显存就能决定跑多大的模型。如果你想知道你的某个模型需要多少显存容量，可以搜下Model memory estimator，输入具体的模型的URL链接或者名字，再选择精度，就可以知道推理 / 训练这个模型需要多少显存了。

一般来说，参数越多的模型，拥有更强的表达能力，能够处理更复杂的任务。部署一个在工作上能派上用场的模型，通常都需要320亿参数（32B）以上，这就对显存容量有极高的要求，即便是Q4量化条件下，320亿参数（32B）模型最低也需要20GB的显存。

目前市面上万元以下的主流消费级显卡中，显存容量最多也就16GB～24GB。而一些32GB的显卡单卡就要两三万元，这让很多人望而却步。如果显存容量不足，爆显存的话，推理速度Tokens/s瞬间降至个位数，甚至一秒吐不出一个字，生成速度特别慢，模型将不可用。

实际上，我们可以用两张显卡来部署，通过PCIe通道来交换数据。当前主流平台普遍支持PCIe 4.0和PCIe 5.0，如果我们把消费级CPU直连通道分配给两张显卡，那也就是PCIe 4.0 x 8或者PCIe 5.0 x 8，分别能够提供32 GB/s和 64 GB/s的最大双向带宽，对于推理来说还是够用的，总比爆显存后和内存交换数据好多了。

双卡部署最实惠的方案，毫无疑问是双卡Arc A770 16GB。目前一张卡的售价在1600～1800元，两张也就是3200～3600元。而且现在Intel优化版的Ollama也在魔塔社区上线了，支持Intel的集成显卡和独立显卡，通过简单的命令行交互就能完成模型的下载、管理和使用。无论是Windows还是Linux用户，都能轻松上手。

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm

接下来我就来上手测试下双卡Arc A770 16GB部署DeepSeek-R1 32B。分享自己的使用体验。

首先，显卡选择的是双卡蓝戟Arc A770 Photon 16G OC，这张卡即便放在现在依旧很能打，搭载32个Xe核心，拥有4096个FP32单元，256个纹理单元、128个ROP单元，核心频率2.4GHz，能够提供19.66 TFlop的单精度浮点算力。而且Arc A770的显存位宽为256-bit，显存规格上有8 GB和16 GB两种版本，是目前1000～2000元价位段中唯一显存规格16GB的主流显卡。

这款蓝戟Arc A770 Photon 16G OC采用三风扇设计，显卡长度为300 mm，厚度50 mm。在PCIe插槽间距4-Slot的条件下，即便是塞两张，显卡之间也有足够的散热空间。

散热方面，蓝戟Arc A770 Photon 16G OC用了5根镀镍热管和高密度散热鳍片，显卡的金属背板尾部采用镂空设计，能够吹透散热器，即便是在紧凑的空间中，也能保持良好的散热性能，避免高温。

对于双卡平台来说，除了显卡以外，主板也十分重要。这次我选择了酷睿Ultra 200S测试平台，不单单是因为酷睿Ultra 200S系列不俗的生产力表现，更是因为Z890系列主板有良好的拓展性，而且有更多的变体可以选择。对于双卡平台来说，最好能够将CPU的直连通道拆分出两个PCIe x 8出来给显卡。

另外，PCIe插槽之间的距离也很重要。刚开始的时候我选择微星MPG Z890 EDGE TI WIFI，但是两个PCIe插槽之间的距离太远了，下面那个插槽装不上显卡，机箱底板会挡住显卡，只能用延长线，但是我的机箱不支持竖装，只能放弃这个主板了。

后来我又选了华硕Prime Z890M，两个PCIe插槽之间的距离只有3-Slot，对于上面的一张显卡来说，散热空间很有限。而且华硕Prime Z890M底下的那个插槽只支持PCIe 4.0 x 4，这意味着最大双向带宽只有16 GB/s，对于双卡部署来说这个带宽有点小了。

在反复比对之后，我发现既能满足两个插槽间距4-Slot，又能满足插槽至少支持PCIe x 8的主板很少，并且满足我预算的只有铭瑄的MS-iCraft Z890 Pacific电竞之心。这个主板提供了四个PCIe插槽，其中第一个和第三个之间的距离为4-Slot，并且是CPU直连通道，支持PCIe 5.0 x 8 + PCIe 5.0 x 8拆分，每个能够提供64 GB/s的最大双向带宽。

CPU方面，我的测试平台用的是酷睿Ultra 9-285K，这款CPU搭载8个性能核心和16个能效核心，线程数量为24，最大睿频高达5.7 GHz，在生产力上表现卓越。预算有限的话，也可以考虑酷睿Ultra 200系列其他的CPU，在拓展性方面都是一致的。

以下是我的测试平台详细配置：

CPU：英特尔酷睿 Ultra 9 285K
主板：铭瑄 MS-iCraft Z890 Pacific电竞之心
散热：毅铠火力EK AIO 360 Lux D-RGB
内存：宏碁掠夺者 DDR5 6000 MHz 64GB
硬盘：铠侠 EXCERIA RC20 2TB
显卡：蓝戟Arc A770 Photon 16G OC
电源：振华 HG850 850W金牌电源
机箱：爱国者扶摇千里 ATX机箱

接下来我试试在双卡Arc A770 16GB平台上部署DeepSeek-R1-Distill-Qwen-32B。过程在Ubuntu 22.04系统上进行，内核版本是Kernel 6.5.0-35-generic。在测试开始之前，需要进入BIOS找到并打开“PCIe Resizable BAR Support”。每家主板的选项名称略有不同，比如我这个铭瑄 MS-iCraft Z890 Pacific名称叫作“Re-Size BAR Support”，名称有点区别但是意思是一样的。

第一步是安装Intel Out-of-Tree GPU驱动，以确保系统能够正确识别和使用Intel Arc™ A770 Graphics显卡。注意要让当前用户拥有对渲染设备的访问权限，从而能够正常运行与GPU渲染相关的应用程序。通过将用户添加到“render”组，系统会赋予该用户对渲染设备的读写权限，确保后续的模型运行和图形界面交互能够顺利进行。

下一步是安装Docker，这是一个开源的容器化平台，它允许用户将应用程序及其依赖项打包到一个容器中，从而实现跨平台的高效部署和运行。

第三步是下载模型并加载镜像，这一步是整个教程的关键环节。这一步是整个教程的关键环节。将Intel提供的LLM后端镜像文件复制到本地机器，然后通过docker load命令加载该镜像，使其在Docker环境中可用，为模型的后端服务提供支持。同样地，处理前端镜像文件，将其加载到Docker中，以便能够通过图形化界面与模型进行交互。通过运行docker images命令，验证是否成功加载了所需的镜像，确保后续的容器启动和应用运行能够顺利进行。

不过，现在魔搭社区的Intel优化版ollama链接已经上线了，Windows和Linux都支持，英特尔显卡本地部署LLM将会更简单，现在更推荐大家使用ollama，建议大家收藏好。https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm

在本地前端界面上，我们就可以和模型进行交互。比如让模型写一个贪吃蛇小游戏，将详细的游戏规则告诉它，很快就生成大段HTML、CSS和JS代码，可以在界面上运行代码，也可以复制到浏览器的控制台直接运行。

提示词中的要求它都能一次准确完成，我们可以通过键盘的上下左右键控制程序，但是这个蛇爬得也太快了吧，还没反应过来游戏就结束了。

我们可以让AI把贪吃蛇的爬行速度调整成1/2，在调整爬行速度之后，游戏对新手友好了许多，第一次上手就能拿下四五百分了，这才是我熟悉的贪吃蛇。当然，你可以根据自己的需要，让本地模型继续增加游戏功能。

除了生成代码以外，本地部署模型还能生成短篇小说，一分钟的时间就完成了，这是一篇章回体魔幻小说。但是这个内容似乎有点流水账，而且剧情有点俗套了，可能是我的提示词太简单。

其实我更喜欢看科幻小说，而且是那种有人物对话的小说，这种小说读起来更有沉浸感。我把这些需求都告诉本地模型，它也能根据我的要求生成小说。剧情明显比之前好多了，读起来有画面感，像是在看好莱坞大片的感觉。由此可见，你的提示词越具体，生成的内容越容易满足需求。

在生成代码的过程中，切换后端shell界面查看推理速率，大约是26～30 tokens /s左右，文字生成速度比我的阅读速度更快，足够我个人使用。

总之，双卡Arc A770 16GB方案为预算有限的用户提供了极具性价比的选择。我的整台主机是评测用的，还要用来测试新品显卡和CPU，其实还有很多性能过剩的地方，大家自用主机还可以再缩一缩预算。比如，预算紧张的用户可以改选酷睿Ultra 5 245K + 双卡Arc A770 16GB + MS-iCraft Z890 Pacific主板，整台主机的预算大约也就八千元左右，不到一万元就能拥有32GB显存容量的AI工作站，热门的DeepSeek R1：32B和QwQ 32B都能够直接运行，还是很有吸引力的。

未来Intel可能还会推出显存容量更大的显卡，并且适配PCIe 5.0 x 16，那么在酷睿Ultra平台上两张显卡能够以64 ～128 GB/s的最大双向带宽交换数据，还能有更快的训练和推理效率。期待未来性能更强劲的双卡部署方案。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/236175.html原文链接：https://javaforall.net

三千多元就有32GB显存？A770双卡部署DeepSeek-R1 32B

关于作者

Ai探索者网站注册用户

三千多元就有32GB显存？A770双卡部署DeepSeek-R1 32B

关于作者

Ai探索者网站注册用户

相关推荐

【小白教程】只需要3步，CC极速接入deepseek-V3.1

快速在高通芯片手机&平板本地部署大模型DeepSeek

完整教程：当DeepSeek V4遇见近屿智能：一场AI进化的叙事正在展开

【零门槛教程】3分钟使用腾讯云Lighthouse轻量应用服务器部署DeepSeek R1模型

从入门到精通：DeepSeek大模型应用开发实战教程

ai写作工具怎么找新手使用教程