简介
为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口,包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。
更多AI前沿及其实战相关,欢迎关注微信公众号《小窗幽记机器学习》:
安装 vllm
模型下载:
借助vLLM,构建一个与OpenAI API兼容的API服务十分简便,该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下,它将在 http://localhost:8000 启动服务器。您可以通过 –host 和 –port 参数来自定义地址。请按照以下所示运行命令:
无需千问 Qwen 教程担心chat模板,因为它默认会使用由tokenizer提供的chat模板。 PS:如果没有指定 ,那么 的结果如下:
可以看出 是”/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”,所以后续请求的时候,需要指定”model”: “/model_dir/Qwen/Qwen2.5-1.5B-Instruct/”。
因此,可以在启动服务的时候指定model的名字:
那么后续可以直接指定model= 来使用这个部署的模型服务。
另一种启动方式:
服务启动完成之后对API进行测试:
返回结果如下:
输出结果如下:
其实,可以看出基本就是一本正经的胡说八道。但是,毕竟小众的微信公众号,就这样子吧,不要为难Qwen了~
输出结果如下:
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/260106.html原文链接:https://javaforall.net
