模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务

模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务

简介

为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口,包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。

更多AI前沿及其实战相关,欢迎关注微信公众号《小窗幽记机器学习》:

准备工作

安装 vllm


模型下载:


部署OpenAI兼容的API服务

借助vLLM,构建一个与OpenAI API兼容的API服务十分简便,该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下,它将在 http://localhost:8000 启动服务器。您可以通过 –host 和 –port 参数来自定义地址。请按照以下所示运行命令:


无需千问 Qwen 教程担心chat模板,因为它默认会使用由tokenizer提供的chat模板。 PS:如果没有指定 ,那么 的结果如下:


可以看出 是”/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”,所以后续请求的时候,需要指定”model”: “/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”。

因此,可以在启动服务的时候指定model的名字:


那么后续可以直接指定model= 来使用这个部署的模型服务。

另一种启动方式:


服务启动完成之后对API进行测试:


返回结果如下:



输出结果如下:


其实,可以看出基本就是一本正经的胡说八道。但是,毕竟小众的微信公众号,就这样子吧,不要为难Qwen了~

离线推理

输出结果如下:


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/260106.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午7:42
下一篇 2026年3月13日 上午7:43


相关推荐

关注全栈程序员社区公众号