如何在本地 Windows 笔记本上使用 OpenClaw 客户端,通过 SSH 隧道调用云服务器上部署的 Qwen3-8B 大模型
对于很多 AI 爱好者来说,想在本地拥有一个强大的 AI 助手,但受限于本地硬件配置,无法运行大模型,怎么办?本文将介绍一种本地客户端 + 云端算力的解决方案:使用 OpenClaw 作为本地界面,通过 SSH 隧道连接云服务器上运行的 vLLM + Qwen3-8B 模型,实现本地流畅使用大模型的目的。
为什么选择这个方案?
- 成本可控:只需一台云服务器,按需付费,无需购买昂贵显卡
- 隐私安全:数据不经过第三方 API 服务,本地处理
- 体验一致:本地拥有类似 OpenAI API 的使用体验
- 灵活部署:模型在云端运行,客户端轻量级
技术栈
- 客户端:OpenClaw(开源 AI 助手客户端)
- 服务端:vLLM(高性能 LLM 推理服务)
- 模型:Qwen3-8B(阿里千问系列)
- 连接方式:SSH 隧道(安全内网穿透)
千问 Qwen 教程
1.1 环境要求
- Linux 服务器(Ubuntu 20.04+)
- Python 3.10+
- NVIDIA 显卡,显存 >= 16GB
- CUDA 驱动已安装
1.2 启动 vLLM 服务
在云服务器上执行以下命令启动 Qwen3-8B 的 OpenAI 兼容 API:
# 进入模型目录(根据实际情况修改) cd /你的模型路径/Qwen # 启动 vLLM 服务 python -m vllm.entrypoints.openai.api_server --model /你的模型路径/Qwen/Qwen3-8B --served-model-name qwen3-8b --max-model-len 16000 --host 0.0.0.0 --port 6006 --dtype bfloat16 --gpu-memory-utilization 0.9 --enable-auto-tool-choice --tool-call-parser hermes
关键参数说明:
1.3 验证服务
在服务器本地测试:
curl http://127.0.0.1:6006/v1/models
如果返回包含 的 JSON,说明服务启动成功。
2.1 安装 Node.js
确保本地已安装 Node.js 18+,如未安装请到 Node.js 官网 下载安装。
2.2 安装 OpenClaw
以管理员身份打开 PowerShell,执行:
npm install -g openclaw@latest
验证安装:
openclaw --version
2.3 初始化配置
openclaw onboard
按照向导提示完成基本设置,当询问模型时选择 Skip(稍后手动配置)。
为了安全起见,我们不开放云服务器的 vLLM 端口,而是通过 SSH 隧道将远程服务映射到本地。
3.1 建立隧道
打开一个新的终端窗口,执行:
ssh -L 6006:localhost:6006 root@你的服务器IP -N
注意:保持此终端窗口运行,不要关闭。
3.2 验证隧道
在另一个终端测试隧道是否通畅:
curl http://127.0.0.1:6006/v1/models
如果返回与服务器相同的结果,说明隧道建立成功。
4.1 修改配置文件
OpenClaw 的主配置文件位于 。
在 中添加 local-qwen 配置节点:
"local-qwen": { "baseUrl": "http://127.0.0.1:6006/v1", "apiKey": "sk-no-key", "api": "openai-completions", "models": [ { "id": "qwen3-8b", "name": "Qwen3-8B (local-qwen)", # 不要有中文 "reasoning": true, "input": ["text"], "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 }, "contextWindow": 16000, "maxTokens": 16000 } ] }
同时,在 中添加模型引用:
"local-qwen/qwen3-8b": {}
4.2 配置认证信息
创建或编辑认证文件:
{ "version": 1, "profiles": { "local-qwen:default": { "type": "api_key", "provider": "local-qwen", "key": "sk-no-key" } } }
关键点:即使你的 vLLM 服务没有设置 API 密钥,这里也必须填一个非空占位符(如 ),否则会报错。
4.3 设置默认模型(可选)
在 的 中设置:
"primary": "local-qwen/qwen3-8b"
4.4 重启网关
openclaw gateway restart
- 打开浏览器访问
- 输入网关令牌(可在 的 中找到,或运行 重新生成)
- 在模型下拉菜单中选择 Qwen3-8B (云端)
- 发送一条测试消息,如「你好」,观察是否正常回复
Q1: 报错 “Model context window too small”
原因:vLLM 的 设置过小
解决:增大该参数值(需确保显存充足),同步修改 OpenClaw 配置中的 ,然后重启服务
Q2: 报错 “No API key found for provider”
原因:认证文件中 key 为空或文件路径错误
解决:确保 中 不为空
Q3: 报错 “Model not found”
原因:模型配置未加载或配置格式错误
解决:检查 中 provider 和模型定义是否完整,模型 ID 是否与 vLLM 的 一致
Q4: SSH 隧道断开
解决:保持终端窗口运行,或使用 (Linux)/ (Windows)实现自动重连
通过本文的步骤,你可以成功实现:
- ✅ 本地 Windows 客户端运行 OpenClaw
- ✅ 通过 SSH 隧道安全连接云端 vLLM 服务
- ✅ 使用云端 Qwen3-8B 大模型进行对话
这种方案的核心优势在于:本地轻量客户端 + 云端强大算力,既拥有了流畅的本地体验,又能享受大模型的强大能力。
如果你在部署过程中遇到其他问题,欢迎在评论区留言交流!
本文基于 OpenClaw + vLLM + Qwen3-8B 实战经验整理,希望对你有所帮助
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/278244.html原文链接:https://javaforall.net
