最近这段时间,来装机咨询的小伙伴都向我强调,自己有本地部署LLM的需求。本地部署对硬件要求还是挺高的,其中显存容量最为重要,有多大的显存就能决定跑多大的模型。如果你想知道你的某个模型需要多少显存容量,可以搜下Model memory estimator,输入具体的模型的URL链接或者名字,再选择精度,就可以知道推理 / 训练这个模型需要多少显存了。
一般来说,参数越多的模型,拥有更强的表达能力,能够处理更复杂的任务。部署一个在工作上能派上用场的模型,通常都需要320亿参数(32B)以上,这就对显存容量有极高的要求,即便是Q4量化条件下,320亿参数(32B)模型最低也需要20GB的显存。
目前市面上万元以下的主流消费级显卡中,显存容量最多也就16GB~24GB。而一些32GB的显卡单卡就要两三万元,这让很多人望而却步。如果显存容量不足,爆显存的话,推理速度Tokens/s瞬间降至个位数,甚至一秒吐不出一个字,生成速度特别慢,模型将不可用。
实际上,我们可以用两张显卡来部署,通过PCIe通道来交换数据。当前主流平台普遍支持PCIe 4.0和PCIe 5.0,如果我们把消费级CPU直连通道分配给两张显卡,那也就是PCIe 4.0 x 8或者PCIe 5.0 x 8,分别能够提供32 GB/s和 64 GB/s的最大双向带宽,对于推理来说还是够用的,总比爆显存后和内存交换数据好多了。
双卡部署最实惠的方案,毫无疑问是双卡Arc A770 16GB。目前一张卡的售价在1600~1800元,两张也就是3200~3600元。而且现在Intel优化版的Ollama也在魔塔社区上线了,支持Intel的集成显卡和独立显卡,通过简单的命令行交互就能完成模型的下载、管理和使用。无论是Windows还是Linux用户,都能轻松上手。
https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm
接下来我就来上手测试下双卡Arc A770 16GB部署DeepSeek-R1 32B。分享自己的使用体验。
首先,显卡选择的是双卡蓝戟Arc A770 Photon 16G OC,这张卡即便放在现在依旧很能打,搭载32个Xe核心,拥有4096个FP32单元,256个纹理单元、128个ROP单元,核心频率2.4GHz,能够提供19.66 TFlop的单精度浮点算力。而且Arc A770的显存位宽为256-bit,显存规格上有8 GB和16 GB两种版本,是目前1000~2000元价位段中唯一显存规格16GB的主流显卡。
这款蓝戟Arc A770 Photon 16G OC采用三风扇设计,显卡长度为300 mm,厚度50 mm。在PCIe插槽间距4-Slot的条件下,即便是塞两张,显卡之间也有足够的散热空间。
散热方面,蓝戟Arc A770 Photon 16G OC用了5根镀镍热管和高密度散热鳍片,显卡的金属背板尾部采用镂空设计,能够吹透散热器,即便是在紧凑的空间中,也能保持良好的散热性能,避免高温。
对于双卡平台来说,除了显卡以外,主板也十分重要。这次我选择了酷睿Ultra 200S测试平台,不单单是因为酷睿Ultra 200S系列不俗的生产力表现,更是因为Z890系列主板有良好的拓展性,而且有更多的变体可以选择。对于双卡平台来说,最好能够将CPU的直连通道拆分出两个PCIe x 8出来给显卡。
另外,PCIe插槽之间的距离也很重要。刚开始的时候我选择微星MPG Z890 EDGE TI WIFI,但是两个PCIe插槽之间的距离太远了,下面那个插槽装不上显卡,机箱底板会挡住显卡,只能用延长线,但是我的机箱不支持竖装,只能放弃这个主板了。
后来我又选了华硕Prime Z890M,两个PCIe插槽之间的距离只有3-Slot,对于上面的一张显卡来说,散热空间很有限。而且华硕Prime Z890M底下的那个插槽只支持PCIe 4.0 x 4,这意味着最大双向带宽只有16 GB/s,对于双卡部署来说这个带宽有点小了。
在反复比对之后,我发现既能满足两个插槽间距4-Slot,又能满足插槽至少支持PCIe x 8的主板很少,并且满足我预算的只有铭瑄的MS-iCraft Z890 Pacific电竞之心。这个主板提供了四个PCIe插槽,其中第一个和第三个之间的距离为4-Slot,并且是CPU直连通道,支持PCIe 5.0 x 8 + PCIe 5.0 x 8拆分,每个能够提供64 GB/s的最大双向带宽。
CPU方面,我的测试平台用的是酷睿Ultra 9-285K,这款CPU搭载8个性能核心和16个能效核心,线程数量为24,最大睿频高达5.7 GHz,在生产力上表现卓越。预算有限的话,也可以考虑酷睿Ultra 200系列其他的CPU,在拓展性方面都是一致的。
以下是我的测试平台详细配置:
- CPU:英特尔 酷睿 Ultra 9 285K
- 主板:铭瑄 MS-iCraft Z890 Pacific电竞之心
- 散热:毅铠火力EK AIO 360 Lux D-RGB
- 内存:宏碁掠夺者 DDR5 6000 MHz 64GB
- 硬盘:铠侠 EXCERIA RC20 2TB
- 显卡:蓝戟Arc A770 Photon 16G OC
- 电源:振华 HG850 850W金牌电源
- 机箱:爱国者 扶摇千里 ATX机箱
接下来我试试在双卡Arc A770 16GB平台上部署DeepSeek-R1-Distill-Qwen-32B。过程在Ubuntu 22.04系统上进行,内核版本是Kernel 6.5.0-35-generic。在测试开始之前,需要进入BIOS找到并打开“PCIe Resizable BAR Support”。每家主板的选项名称略有不同,比如我这个铭瑄 MS-iCraft Z890 Pacific名称叫作“Re-Size BAR Support”,名称有点区别但是意思是一样的。
第一步是安装Intel Out-of-Tree GPU驱动,以确保系统能够正确识别和使用Intel Arc™ A770 Graphics显卡。注意要让当前用户拥有对渲染设备的访问权限,从而能够正常运行与GPU渲染相关的应用程序。通过将用户添加到“render”组,系统会赋予该用户对渲染设备的读写权限,确保后续的模型运行和图形界面交互能够顺利进行。
下一步是安装Docker,这是一个开源的容器化平台,它允许用户将应用程序及其依赖项打包到一个容器中,从而实现跨平台的高效部署和运行。
第三步是下载模型并加载镜像,这一步是整个教程的关键环节。这一步是整个教程的关键环节。将Intel提供的LLM后端镜像文件复制到本地机器,然后通过docker load命令加载该镜像,使其在Docker环境中可用,为模型的后端服务提供支持。同样地,处理前端镜像文件,将其加载到Docker中,以便能够通过图形化界面与模型进行交互。通过运行docker images命令,验证是否成功加载了所需的镜像,确保后续的容器启动和应用运行能够顺利进行。
不过,现在魔搭社区的Intel优化版ollama链接已经上线了,Windows和Linux都支持,英特尔显卡本地部署LLM将会更简单,现在更推荐大家使用ollama,建议大家收藏好。https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm
在本地前端界面上,我们就可以和模型进行交互。比如让模型写一个贪吃蛇小游戏,将详细的游戏规则告诉它,很快就生成大段HTML、CSS和JS代码,可以在界面上运行代码,也可以复制到浏览器的控制台直接运行。
提示词中的要求它都能一次准确完成,我们可以通过键盘的上下左右键控制程序,但是这个蛇爬得也太快了吧,还没反应过来游戏就结束了。
我们可以让AI把贪吃蛇的爬行速度调整成1/2,在调整爬行速度之后,游戏对新手友好了许多,第一次上手就能拿下四五百分了,这才是我熟悉的贪吃蛇。当然,你可以根据自己的需要,让本地模型继续增加游戏功能。
除了生成代码以外,本地部署模型还能生成短篇小说,一分钟的时间就完成了,这是一篇章回体魔幻小说。但是这个内容似乎有点流水账,而且剧情有点俗套了,可能是我的提示词太简单。
其实我更喜欢看科幻小说,而且是那种有人物对话的小说,这种小说读起来更有沉浸感。我把这些需求都告诉本地模型,它也能根据我的要求生成小说。剧情明显比之前好多了,读起来有画面感,像是在看好莱坞大片的感觉。由此可见,你的提示词越具体,生成的内容越容易满足需求。
在生成代码的过程中,切换后端shell界面查看推理速率,大约是26~30 tokens /s左右,文字生成速度比我的阅读速度更快,足够我个人使用。
总之,双卡Arc A770 16GB方案为预算有限的用户提供了极具性价比的选择。我的整台主机是评测用的,还要用来测试新品显卡和CPU,其实还有很多性能过剩的地方,大家自用主机还可以再缩一缩预算。比如,预算紧张的用户可以改选酷睿Ultra 5 245K + 双卡Arc A770 16GB + MS-iCraft Z890 Pacific主板,整台主机的预算大约也就八千元左右,不到一万元就能拥有32GB显存容量的AI工作站,热门的DeepSeek R1:32B和QwQ 32B都能够直接运行,还是很有吸引力的。
未来Intel可能还会推出显存容量更大的显卡,并且适配PCIe 5.0 x 16,那么在酷睿Ultra平台上两张显卡能够以64 ~128 GB/s的最大双向带宽交换数据,还能有更快的训练和推理效率。期待未来性能更强劲的双卡部署方案。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/236175.html原文链接:https://javaforall.net
