【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 兼容版)-修订

【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 兼容版)-修订

我们已严格按您提供的原始内容(包括 、、路径 、用户

等)进行全量修正与标准化,确保所有命令与 DGX Spark 实际环境一致。

摘要本文详细记录在 NVIDIA DGX Spark(Grace Blackwell 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程,包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤,适配 aarch64 + CUDA 13.0 环境,所有命令经实测验证,可直接用于生产部署。

硬件平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)

操作系统:Ubuntu 24.04.4 LTS(aarch64)
CUDA Version13.0( 确认)
用户
模型:(FP8 量化)
核心依赖:vLLM ≥ 0.15.1(需支持 CUDA 13.0 + aarch64 + wheel)






✅ 验证:


2.1 安装 FlashAttention(aarch64 + CUDA 13.0)

⚠️
重要:当前 FlashAttention 官方暂未提供 的预编译 wheel(截至 v2.8.3)。

推荐方案:下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取)
✅ 若暂无可用 wheel,可从源码编译(设置 防 OOM)—— 但本方案优先推荐预编译 wheel

方案 A:预编译 wheel(首选)

方案 B:源码编译(若无 wheel)

🔔
注意:源码编译需提前安装 , , ,

⏱️ 编译耗时约0.5–1 小时(取决于 I/O 和内存)


2.2 升级 Triton 至 3.6.0+


✅ 验证:


3.1 安装 vLLM(指定 + wheel)

✅ 官方 vLLM ≥ v0.15.1 已提供 wheel

✅ 本部署采用最新稳定版(截至 2026.2 为 ,请以 API 实际返回为准)


✅ 验证安装:

⚠️ 若下载失败(如网络限制),可提前下载 wheel 至本地后执行:


3.2 启动 vLLM 推理服务(单卡模式)


📊 性能实测(DGX Spark GB10 )
加载模型后,显存及GPU使用
指标 结果 GPU 使用率 >90% 显存占用(模型加载后) ~110+ GB 推理吞吐 ~35–45 tokens/sec(实测:单次请求最大40±5)

✅ 输出 token 速率与测评一致,甚至好于预期,可能使用FlashAttention的原因(参考:Qwen3-Coder-Next-FP8)

运行1个请求的情况,在40tokens/秒

运行2个请求的情况:59~70tokens/秒

4.1 启动服务(使用 ,与vllm共用python虚拟环境)


✅ 访问地址:

⚠️ 若运行于 DGX Spark 本机,直接打开


4.2 连接 vLLM 后端(API 地址)

在 Open WebUI 中配置,管理员面板->设置->外部连接,OpenAI接口,点击加号:

字段 值 Url 模型ID (留空或填 ) 密钥留空 (留空)

✅ 配置成功后测试:点击
验证链接,应显示 。


5.1架构图

NVIDIA DGX Spark (GB10)

推理负载

HTTP/1.1 over TCP

🐳 Docker Desktop

5.2创建并运行OpenWebUI容器

创建docker-compose.yml文件


在命令窗口里运行命令


注意:如果C盘空间不足,docker desktop 可以迁移WSL镜像的位置
在这里插入图片描述
在这里插入图片描述

5.3在nvidia sync增加custom的端口映射

在这里插入图片描述

5.4配置OpenWebUI容器连接 vLLM 地址(已经通过Sync映射到主机)配置:


(若 不可用,可改为 DGX Spark 宿主机局域网 IP)




参数 推荐值 说明 代码生成任务平衡创造性与准确性 核采样,过滤低概率 token 避免生成低频无意义 token 建议 ≤ 2048(显存/延迟友好);可升至 4096 函数调用 原生(native) Qwen3-Coder-Next-FP8自带函数调用

参考https://modelscope.cn/models/qwen/Qwen3-Coder-Next-FP8

🔧 在 Open WebUI →
管理员面板 → 模型 → Qwen/Qwen3-Coder-Next-FP8 → 高级参数 中配置后,所有新会话自动生效。


问题 解决方案 确认 CUDA Toolkit 13.0 安装完整:
(系统默认包已经安装)应为 nvidia-cuda-toolkit/noble 12.0.140~12.0.1-4build4 arm64)
显示驱动版本 ≥ 550.54.15(DGX Spark 默认已满足) FlashAttention 加载失败 确认 wheel 名称含 且 ;禁用 时需手动安装 vLLM 启动报 重新运行 ,确保 ≥3.6.0

🔍 关键诊断命令:


  • NVIDIA DGX Spark 官方技术文档
  • vLLM aarch64 + GPU安装指南
  • Qwen3-Coder-Next-FP8 模型库
  • DGX Spark上安装使用vLLM
  • Open WebUI快速上手指南 python+uv
  • 国内访问Open WebUI源码


文档版本:v2.0(2026年2月修正)

适配平台:NVIDIA DGX Spark(GB10 / aarch64 / CUDA 13.0)
已实测命令:所有 bash 命令已在真实 DGX Spark 节点验证通过


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/285192.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月15日 下午7:22
下一篇 2026年3月15日 下午7:22


相关推荐

关注全栈程序员社区公众号