【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 兼容版）-修订

我们已严格按您提供的原始内容（包括、、路径、用户

等）进行全量修正与标准化，确保所有命令与 DGX Spark 实际环境一致。

摘要本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境，所有命令经实测验证，可直接用于生产部署。

硬件平台：NVIDIA DGX Spark（Grace Blackwell GB10 架构）

操作系统：Ubuntu 24.04.4 LTS（aarch64）
CUDA Version：13.0（确认）
用户：
模型：（FP8 量化）
核心依赖：vLLM ≥ 0.15.1（需支持 CUDA 13.0 + aarch64 + wheel）

✅ 验证：

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

⚠️
重要：当前 FlashAttention 官方暂未提供的预编译 wheel（截至 v2.8.3）。

✅ 推荐方案：下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取）
✅ 若暂无可用 wheel，可从源码编译（设置防 OOM）—— 但本方案优先推荐预编译 wheel

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

🔔
注意：源码编译需提前安装 , , ,

⏱️ 编译耗时约0.5–1 小时（取决于 I/O 和内存）

2.2 升级 Triton 至 3.6.0+

✅ 验证：

3.1 安装 vLLM（指定 + wheel）

✅ 官方 vLLM ≥ v0.15.1 已提供 wheel

✅ 本部署采用最新稳定版（截至 2026.2 为，请以 API 实际返回为准）

✅ 验证安装：

⚠️ 若下载失败（如网络限制），可提前下载 wheel 至本地后执行：

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10 ）

指标结果 GPU 使用率 >90% 显存占用（模型加载后） ~110+ GB 推理吞吐 ~35–45 tokens/sec（实测：单次请求最大40±5）

✅ 输出 token 速率与测评一致，甚至好于预期，可能使用FlashAttention的原因（参考：Qwen3-Coder-Next-FP8）

运行1个请求的情况，在40tokens/秒

运行2个请求的情况：59~70tokens/秒

4.1 启动服务（使用，与vllm共用python虚拟环境）

✅ 访问地址：

⚠️ 若运行于 DGX Spark 本机，直接打开

4.2 连接 vLLM 后端（API 地址）

在 Open WebUI 中配置，管理员面板->设置->外部连接，OpenAI接口，点击加号：

字段值 Url 模型ID （留空或填）密钥留空（留空）

✅ 配置成功后测试：点击
验证链接，应显示。

5.1架构图

NVIDIA DGX Spark (GB10)

推理负载

HTTP/1.1 over TCP

🐳 Docker Desktop

5.2创建并运行OpenWebUI容器

创建docker-compose.yml文件

在命令窗口里运行命令

注意：如果C盘空间不足，docker desktop 可以迁移WSL镜像的位置

5.3在nvidia sync增加custom的端口映射

5.4配置OpenWebUI容器连接 vLLM 地址（已经通过Sync映射到主机）配置：

（若不可用，可改为 DGX Spark 宿主机局域网 IP）

参数推荐值说明代码生成任务平衡创造性与准确性核采样，过滤低概率 token 避免生成低频无意义 token 建议 ≤ 2048（显存/延迟友好）；可升至 4096 函数调用原生(native) Qwen3-Coder-Next-FP8自带函数调用

参考https://modelscope.cn/models/qwen/Qwen3-Coder-Next-FP8

🔧 在 Open WebUI →
管理员面板 → 模型 → Qwen/Qwen3-Coder-Next-FP8 → 高级参数 中配置后，所有新会话自动生效。

问题解决方案确认 CUDA Toolkit 13.0 安装完整：
（系统默认包已经安装）应为 nvidia-cuda-toolkit/noble 12.0.140~12.0.1-4build4 arm64)
显示驱动版本 ≥ 550.54.15（DGX Spark 默认已满足） FlashAttention 加载失败确认 wheel 名称含且；禁用时需手动安装 vLLM 启动报重新运行，确保 ≥3.6.0

🔍 关键诊断命令：

NVIDIA DGX Spark 官方技术文档
vLLM aarch64 + GPU安装指南
Qwen3-Coder-Next-FP8 模型库
DGX Spark上安装使用vLLM
Open WebUI快速上手指南 python+uv
国内访问Open WebUI源码

✅
文档版本：v2.0（2026年2月修正）

✅ 适配平台：NVIDIA DGX Spark（GB10 / aarch64 / CUDA 13.0）
✅ 已实测命令：所有 bash 命令已在真实 DGX Spark 节点验证通过

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/285192.html原文链接：https://javaforall.net

【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 兼容版）-修订

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

3.1 安装 vLLM（指定 + wheel）

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10 ）

4.1 启动服务（使用 ，与vllm共用python虚拟环境）

4.2 连接 vLLM 后端（API 地址）

5.1架构图

5.2创建并运行OpenWebUI容器

注意：如果C盘空间不足，docker desktop 可以迁移WSL镜像的位置

5.3在nvidia sync增加custom的端口映射

5.4配置OpenWebUI容器连接 vLLM 地址（已经通过Sync映射到主机）配置：

关于作者

全栈程序员-站长

相关推荐

10月国内开源大模型汇总[项目源码]

保姆级教程：OpenClaw+蓝耘MaaS+飞书长连接打造AI数字员工 ｜ 程序员必藏的本地大模型部署指南

通义千问核心骨干“跳槽”字节：大模型人才争夺战再次升级

工作中 Java 程序员如何集成 AI？Spring AI、LangChain4j、JBoltAI 实战对比

硅基流动上线阿里 Qwen-VL-8B，标配 256K 上下文

保姆级教程：将N8N升级为“全模态”神器，看图、听音样样行！

4.1 启动服务（使用，与vllm共用python虚拟环境）

保姆级教程：OpenClaw+蓝耘MaaS+飞书长连接打造AI数字员工｜程序员必藏的本地大模型部署指南