使用vLLM部署Qwen/Qwen3.5-35B-A3B并且支持在Qwen Code中调用

使用vLLM部署Qwen/Qwen3.5-35B-A3B并且支持在Qwen Code中调用

当前个人智能体工具(claudecode、qwencode、openclaw等)加上Agent Skills所展现的“超能力”,让越来越多人看到AI已经从单纯的“你问我答“模式,逐渐转变成“你说我做”模式。当然这离不开AI大模型的能力,目前各家模型厂商和云服务商都推出了相应的coding plan计划,旨在满足人们对于个人智能体工具消耗巨量token的需求。但是各家厂商的coding plan价格也存在参差不一、限速限次、隐私泄露等安全问题。为了解决这些问题,我们可以选择使用vLLM部署一些开源的模型,今天就来讲讲如何使用vLLM部署阿里千问团队近期推出的,在模型能力和部署成本之间找到微妙的平衡。

Qwen/Qwen3.5-35B-A3B是一个带有视觉编码器的因果语言模型,总参数量为350亿(其中激活参数为30亿,同时Qwen/Qwen3.5-35B-A3B也是一个MOE(Mixture Of Experts)模型专家总数为256个,激活专家数为8个路由专家和一个共享专家。上下长度原生支持个token,可以拓展至最多个token。

本文所使用的GPU为H20 96GB VRAM,由于Qwen/Qwen3.5-35B-A3B的权重大概在72GB左右,请确保你有足够的GPU。

这里使用conda创建一个新的python虚拟环境(重要!!!一定是新的虚拟环境,不是新的环境可能会导致vllm安装失败,python版本选择3.12)



uv是一个由rust语言编写的高效的python包管理工具,可以使用pip安装


modelscope是一个魔搭社区推出的用于便利管理魔搭社区平台上的模型权重和数据集的工具。


vLLM是一个先进的大模型推理服务框架,支持大量的开源模型。


安装完后请确认vllm版本>=0.16.0rc2


使用modelscope下载模型


配置文件

准备vllm serve配置文件,注意将配置文件中的”your-api-key”替换成你自己的api key,你可以随意指定一串字符串或者使用uuid替换。


将配置文件保存成config.yaml

启动


等待服务启动完成,千问 Qwen 教程出现如下图所示的日志代表服务成功启动:

使用vLLM部署Qwen/Qwen3.5-35B-A3B并且支持在Qwen Code中调用

在安装完之后编辑其配置 一般位于”~/.qwen/settings.json”,使用如下配置覆盖


在终端中使用如下命令启动qwen code


测试一下

使用vLLM部署Qwen/Qwen3.5-35B-A3B并且支持在Qwen Code中调用

Ok,到此我们的vLLM部署Qwen/Qwen3.5-35B-A3B并在Qwen Code中使用的教程就完成啦,感谢看到最后,除了在Qwen Code中使用之外,我们也可以在Claude Code、Open Code等等个人智能体中使用这个模型。如果有什么问题,就在本文下面评论吧~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/257282.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午10:24
下一篇 2026年3月13日 上午10:25


相关推荐

关注全栈程序员社区公众号