如何使用 vLLM 部署千问 3 大语言模型？

本文主要讲述如何使用 vLLM 部署千问 3 大语言模型。本文使用的是 Qwen3-0.6B 一个参数较小的模型，主要是为了体验整个部署过程。另外大模型运行在 CPU 上(因为支持 GPU 的 VPS 普遍较贵，一直是用爱发电，能省则省).最后我们安装了一个 open-webui 用于和 self-hosted 千问 Qwen 教程的千问模型以图形界面的方式与模型进行对话。整个部署过程非常丝滑，适合有一定动手能力的用户，部署体验, 成本非常低，仅需一台 8U32G 的 VPS，不需要显卡。在本文的基础上略做修改也可以用于开发自己的 AI Agentic 应用。

更多细节参考如何使用 Astral UV 管理 Python 虚拟环境？

vLLM 是一个专门优化 LLM 推理性能的工具，安装 vLLM 是为了在本地高效运行和优化大语言模型的推理任务，它可以有效提升推理速度，提高资源利用率。

验证 vllm 是否安装成功

或者使用python指令验证

更多细节参考如何使用源码安装 vLLM？

由于 VPS 位于海外，可以直接使用 huggingface 下载大模型。

看到如下信息表示大模型启动成功

此时使用即可查到大模型版本信息

open-webui 默认开启在 8080 端口上。

然后访问，在初次开启服务时需要新建管理员账户，邮箱只用做登录名无须验证，如果只是测试目的可以随便填。

接下来，点击右上角头像，进入管理员面板，找到设置。点击外部连接 =》点击管理 OpenAI API 连接旁边的+加号。

密钥随便填写，不会实际验证,

然后点击保存。保存成功后回到主页，在模型选择框会看到 Qwen3-0.6B 选项，选择该模型，就可以进行对话了。

因为我们是以 vllm.entrypoints.openai.api_server 模式启动的大模型，所有 api 是与 OpenAI 的 API 兼容的，所以这里添加 OpenAI API 即可

使用以上安装方式无论 Qwen3 大模型，还是 open-webui 都是运行在前台。一旦 ssh 连接断开或者服务器重启, 进程就会关闭，每次重新开启非常麻烦。

首先创建一个启动脚本

给脚本赋予可执行权限

创建一个 systemd 服务

记得将 username 替换成实际的用户名，如果是 root 用户 WorkingDirectory 设置为 WorkingDirectory=/root

重新加载 systemd 服务：

本技术博客原创文章位于鹏叔的 IT 技术博客空间 – 如何使用 vLLM 部署千问 3 大语言模型？, 获取最近更新请访问原文.

更多技术博客请访问: 鹏叔的 IT 技术博客空间

本地 vllm 部署 DeepSeek，但 CPU

Qwen3 在 Linux 服务器上部署流程

vLLM+OpenWebUI 本地部署 QwQ-32B 网页问答简易指南

vllm serve 设置加载 conda 环境并开机自启动

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/261686.html原文链接：https://javaforall.net

如何使用 vLLM 部署千问 3 大语言模型？

关于作者

全栈程序员-站长

相关推荐

Qwen-Image模型解析[项目源码]

阿里Qwen-Image-2.0实测：终于有一款能听懂人话、写对汉字的AI了

阿里旗下千问眼镜上市，互联网巨头全面卡位AI产业细分领域

Qwen3／Qwen-Max API中转站 – 2025通义千问API服务

70+元，国产开源小智AI机器人，ESP32开发板接入大模型DeepSeek、OpenAI、通义千问Qwen 2.5-Max

CodeSpirit 开发环境搭建及启动指南