本文主要讲述如何使用 vLLM 部署 千问 3 大语言模型。本文使用的是 Qwen3-0.6B 一个参数较小的模型,主要是为了体验整个部署过程。另外大模型运行在 CPU 上(因为支持 GPU 的 VPS 普遍较贵, 一直是用爱发电,能省则省).最后我们安装了一个 open-webui 用于和 self-hosted 千问 Qwen 教程 的千问模型以图形界面的方式与模型进行对话。整个部署过程非常丝滑,适合有一定动手能力的用户,部署体验, 成本非常低, 仅需一台 8U32G 的 VPS, 不需要显卡。在本文的基础上略做修改也可以用于开发自己的 AI Agentic 应用。
更多细节参考 如何使用 Astral UV 管理 Python 虚拟环境?
vLLM 是一个专门优化 LLM 推理性能的工具,安装 vLLM 是为了在本地高效运行和优化大语言模型的推理任务, 它可以有效提升推理速度,提高资源利用率。
验证 vllm 是否安装成功
或者使用python指令验证
更多细节参考 如何使用源码安装 vLLM?
由于 VPS 位于海外,可以直接使用 huggingface 下载大模型。
看到如下信息表示大模型启动成功
此时使用 即可查到大模型版本信息
open-webui 默认开启在 8080 端口上。
然后访问,在初次开启服务时需要新建管理员账户,邮箱只用做登录名无须验证, 如果只是测试目的可以随便填。
接下来,点击右上角头像,进入管理员面板,找到设置。点击外部连接 =》点击管理 OpenAI API 连接旁边的+加号。
密钥随便填写,不会实际验证,
然后点击保存。保存成功后回到主页,在模型选择框会看到 Qwen3-0.6B 选项,选择该模型,就可以进行对话了。
因为我们是以 vllm.entrypoints.openai.api_server 模式启动的大模型,所有 api 是与 OpenAI 的 API 兼容的,所以这里添加 OpenAI API 即可
使用以上安装方式无论 Qwen3 大模型,还是 open-webui 都是运行在前台。一旦 ssh 连接断开或者服务器重启, 进程就会关闭,每次重新开启非常麻烦。
首先创建一个启动脚本
给脚本赋予可执行权限
创建一个 systemd 服务
记得将 username 替换成实际的用户名,如果是 root 用户 WorkingDirectory 设置为 WorkingDirectory=/root
重新加载 systemd 服务:
本技术博客原创文章位于鹏叔的 IT 技术博客空间 – 如何使用 vLLM 部署千问 3 大语言模型?, 获取最近更新请访问原文.
更多技术博客请访问: 鹏叔的 IT 技术博客空间
本地 vllm 部署 DeepSeek,但 CPU
Qwen3 在 Linux 服务器上部署流程
vLLM+OpenWebUI 本地部署 QwQ-32B 网页问答简易指南
vllm serve 设置加载 conda 环境并开机自启动
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/261686.html原文链接:https://javaforall.net
