当前个人智能体工具(claudecode、qwencode、openclaw等)加上Agent Skills所展现的“超能力”,让越来越多人看到AI已经从单纯的“你问我答“模式,逐渐转变成“你说我做”模式。当然这离不开AI大模型的能力,目前各家模型厂商和云服务商都推出了相应的coding plan计划,旨在满足人们对于个人智能体工具消耗巨量token的需求。但是各家厂商的coding plan价格也存在参差不一、限速限次、隐私泄露等安全问题。为了解决这些问题,我们可以选择使用vLLM部署一些开源的模型,今天就来讲讲如何使用vLLM部署阿里千问团队近期推出的,在模型能力和部署成本之间找到微妙的平衡。
Qwen/Qwen3.5-35B-A3B是一个带有视觉编码器的因果语言模型,总参数量为350亿(其中激活参数为30亿,同时Qwen/Qwen3.5-35B-A3B也是一个MOE(Mixture Of Experts)模型专家总数为256个,激活专家数为8个路由专家和一个共享专家。上下长度原生支持个token,可以拓展至最多个token。
本文所使用的GPU为H20 96GB VRAM,由于Qwen/Qwen3.5-35B-A3B的权重大概在72GB左右,请确保你有足够的GPU。
这里使用conda创建一个新的python虚拟环境(重要!!!一定是新的虚拟环境,不是新的环境可能会导致vllm安装失败,python版本选择3.12)
uv是一个由rust语言编写的高效的python包管理工具,可以使用pip安装
modelscope是一个魔搭社区推出的用于便利管理魔搭社区平台上的模型权重和数据集的工具。
vLLM是一个先进的大模型推理服务框架,支持大量的开源模型。
安装完后请确认vllm版本>=0.16.0rc2
使用modelscope下载模型
配置文件
准备vllm serve配置文件,注意将配置文件中的”your-api-key”替换成你自己的api key,你可以随意指定一串字符串或者使用uuid替换。
将配置文件保存成config.yaml
启动
等待服务启动完成,千问 Qwen 教程出现如下图所示的日志代表服务成功启动:

在安装完之后编辑其配置 一般位于”~/.qwen/settings.json”,使用如下配置覆盖
在终端中使用如下命令启动qwen code
测试一下

Ok,到此我们的vLLM部署Qwen/Qwen3.5-35B-A3B并在Qwen Code中使用的教程就完成啦,感谢看到最后,除了在Qwen Code中使用之外,我们也可以在Claude Code、Open Code等等个人智能体中使用这个模型。如果有什么问题,就在本文下面评论吧~
发布者:Ai探索者,转载请注明出处:https://javaforall.net/257282.html原文链接:https://javaforall.net
