5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

我是看九天老师的公开课,尝试使用单卡5090D+512G运行内存去跑一遍DeepSeek。以下是我使用最新显卡部署时踩得坑。模型为:R1 Q4_K_M

1.Ktransformer全称(Quick Transformers)可以在模型运行过程中灵活的将专家模型加载到CPU上,同时将MLA/KVCache卸载到GPU上。

2.Unsloth动态量化,通过内存分担显存的方法保证R1 Q4_K_M的运行,并且执行不同任务时将激活的专家加载到GPU上,从而压缩模型运行所需硬件条件。

服务器配置:GPU:单卡RTX 5090D  CPU:8358P   内存:512G  硬盘:4T

第一次试错时深度学习的环境:cuda:12.8   cudnn:9.8.0   pytorch:2.7.0  python:3.11

然后接下来都是按照九天老师的步骤一步步走,其余一切顺利。直到安装flash-attn遇到了问题,原因为flash-attn只支持torch2.6版本,截至3月13。找不到所支持pytorch对应的flash-attn。

5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

那么现在的问题是cuda版本太高,以及pytorch版本也高,那么我退回cuda12.4的版本,尽量与九天老师公开课所使用的环境一致。

第二次试错时深度学习环境:cuda:12.4  cudnn:8.9.7  pytorch:2.6.0  python:3.11

新建了一个conda环境,再次重新将该有的依赖包装上,走到flash-attn时,顺利安装

5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)接着就是安装libstdc,也很顺利。初始化、运行安装脚本依赖都顺利。安装好之后查看一下安装情况:pip show ktransformers

现在所有需要安装的依赖都完成了,准备执行运行脚本时,又出现报错:

 

但是又报错:

 

然后将KTransformersOps这个文件从指定的共享库文件链接到Conda环境的Python库目录中:

ln -sf ktransformers/ktransformers/ktransformers_ext/cuda/KTransformersOps.cpython-311-x86_64-linux-gnu.so Ginimi 教程 $YOURCONDAPATH/home/anaconda3/env/python3.11/site-packages/KTransformersOps.cpython-311-x86_64-linux-gnu.so

5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

就是这个文件,一定要放在你当前环境目录下的site-packages文件夹当中,接下来执行运行脚本5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

可以看到60个模型都加载出来了,但是接着错误又来了

5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)

此报错大体意思就是:cuda内核与GPU架构不兼容,no kernel image is available通常表示当前GPU的计算能力没有被编译到cuda内核当中。如若使用较新的GPU,他Ktransformers编译时未包含对应架构的支持。

​​​​具体的我查看pytorch的功能,使用print(torch.cuda.get_device_capability())输出看下结果:
5090D本地部署基于Ktransformer框架的DeepSeek(踩坑版)这里的pytorch与对应的cuda支持sm_50 sm_60 sm_70 sm_75 sm_80 sm_86 sm_90,如果想将5090与pytorch一起使用,那么这个需要达到sm_120才可以使用,而这个sm_120只要最新的pytorch2.7.0才能符合。

总结下:
flash-attn与pytorch2.7.0不兼容,对pytorch、cuda降版本后,cuda内核与GPU架构又不兼容了。

暂时还没想到好的解决方法,我觉得等flash-attn与pytorch2.7.0发布兼容版本应该就可以解决了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/236314.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 下午12:44
下一篇 2026年3月16日 下午12:45


相关推荐

关注全栈程序员社区公众号