模型部署｜ VLLM部署Qwen2.5并以OpenAI格式提供API服务

全栈程序员-站长 • 2026年3月13日上午7:43 • 千问 • 阅读 2

简介

为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口，包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。

更多AI前沿及其实战相关，欢迎关注微信公众号《小窗幽记机器学习》：

准备工作

安装 vllm

模型下载：

部署OpenAI兼容的API服务

借助vLLM，构建一个与OpenAI API兼容的API服务十分简便，该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下，它将在 http://localhost:8000 启动服务器。您可以通过 –host 和 –port 参数来自定义地址。请按照以下所示运行命令：

无需千问 Qwen 教程担心chat模板，因为它默认会使用由tokenizer提供的chat模板。 PS：如果没有指定，那么的结果如下：

可以看出是”/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”，所以后续请求的时候，需要指定”model”: “/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”。

因此，可以在启动服务的时候指定model的名字：

那么后续可以直接指定model= 来使用这个部署的模型服务。

另一种启动方式：

服务启动完成之后对API进行测试：

返回结果如下：

输出结果如下：

其实，可以看出基本就是一本正经的胡说八道。但是，毕竟小众的微信公众号，就这样子吧，不要为难Qwen了~

离线推理

输出结果如下：

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/260106.html原文链接：https://javaforall.net

模型部署 ｜ VLLM部署Qwen2.5并以OpenAI格式提供API服务