Windows 本地运行 OpenClaw 调用自己部署的云端 Qwen3模型实战教程

Windows 本地运行 OpenClaw 调用自己部署的云端 Qwen3模型实战教程

如何在本地 Windows 笔记本上使用 OpenClaw 客户端,通过 SSH 隧道调用云服务器上部署的 Qwen3-8B 大模型

对于很多 AI 爱好者来说,想在本地拥有一个强大的 AI 助手,但受限于本地硬件配置,无法运行大模型,怎么办?本文将介绍一种本地客户端 + 云端算力的解决方案:使用 OpenClaw 作为本地界面,通过 SSH 隧道连接云服务器上运行的 vLLM + Qwen3-8B 模型,实现本地流畅使用大模型的目的。

为什么选择这个方案?

  1. 成本可控:只需一台云服务器,按需付费,无需购买昂贵显卡
  2. 隐私安全:数据不经过第三方 API 服务,本地处理
  3. 体验一致:本地拥有类似 OpenAI API 的使用体验
  4. 灵活部署:模型在云端运行,客户端轻量级

技术栈

  • 客户端:OpenClaw(开源 AI 助手客户端)
  • 服务端:vLLM(高性能 LLM 推理服务)
  • 模型:Qwen3-8B(阿里千问系列)
  • 千问 Qwen 教程

  • 连接方式:SSH 隧道(安全内网穿透)

1.1 环境要求

  • Linux 服务器(Ubuntu 20.04+)
  • Python 3.10+
  • NVIDIA 显卡,显存 >= 16GB
  • CUDA 驱动已安装

1.2 启动 vLLM 服务

在云服务器上执行以下命令启动 Qwen3-8B 的 OpenAI 兼容 API:

# 进入模型目录(根据实际情况修改) cd /你的模型路径/Qwen ​ # 启动 vLLM 服务 python -m vllm.entrypoints.openai.api_server  --model /你的模型路径/Qwen/Qwen3-8B  --served-model-name qwen3-8b  --max-model-len 16000  --host 0.0.0.0  --port 6006  --dtype bfloat16  --gpu-memory-utilization 0.9  --enable-auto-tool-choice  --tool-call-parser hermes

关键参数说明:

参数 说明 模型服务名称,后续客户端配置需要用到 最大上下文长度,建议 16K,需根据显存调整 GPU 显存使用比例,建议 0.9 服务端口,本例使用 6006

1.3 验证服务

在服务器本地测试:

curl http://127.0.0.1:6006/v1/models

如果返回包含 的 JSON,说明服务启动成功。


2.1 安装 Node.js

确保本地已安装 Node.js 18+,如未安装请到 Node.js 官网 下载安装。

2.2 安装 OpenClaw

以管理员身份打开 PowerShell,执行:

npm install -g openclaw@latest

验证安装:

openclaw --version

2.3 初始化配置

openclaw onboard

按照向导提示完成基本设置,当询问模型时选择 Skip(稍后手动配置)。


为了安全起见,我们不开放云服务器的 vLLM 端口,而是通过 SSH 隧道将远程服务映射到本地。

3.1 建立隧道

打开一个新的终端窗口,执行:

ssh -L 6006:localhost:6006 root@你的服务器IP -N

注意:保持此终端窗口运行,不要关闭。

3.2 验证隧道

在另一个终端测试隧道是否通畅:

curl http://127.0.0.1:6006/v1/models

如果返回与服务器相同的结果,说明隧道建立成功。


4.1 修改配置文件

OpenClaw 的主配置文件位于 。

在 中添加 local-qwen 配置节点:

"local-qwen": {  "baseUrl": "http://127.0.0.1:6006/v1",  "apiKey": "sk-no-key",  "api": "openai-completions",  "models": [   {      "id": "qwen3-8b",      "name": "Qwen3-8B (local-qwen)", # 不要有中文      "reasoning": true,      "input": ["text"],      "cost": {        "input": 0,        "output": 0,        "cacheRead": 0,        "cacheWrite": 0     },      "contextWindow": 16000,      "maxTokens": 16000   } ] }

同时,在 中添加模型引用:

"local-qwen/qwen3-8b": {}

4.2 配置认证信息

创建或编辑认证文件:

{ "version": 1, "profiles": { "local-qwen:default": { "type": "api_key", "provider": "local-qwen", "key": "sk-no-key" } } }

关键点:即使你的 vLLM 服务没有设置 API 密钥,这里也必须填一个非空占位符(如 ),否则会报错。

4.3 设置默认模型(可选)

在 的 中设置:

"primary": "local-qwen/qwen3-8b"

4.4 重启网关

openclaw gateway restart

  1. 打开浏览器访问
  2. 输入网关令牌(可在 的 中找到,或运行 重新生成)
  3. 在模型下拉菜单中选择 Qwen3-8B (云端)
  4. 发送一条测试消息,如「你好」,观察是否正常回复

Q1: 报错 “Model context window too small”

原因:vLLM 的 设置过小

解决:增大该参数值(需确保显存充足),同步修改 OpenClaw 配置中的 ,然后重启服务

Q2: 报错 “No API key found for provider”

原因:认证文件中 key 为空或文件路径错误

解决:确保 中 不为空

Q3: 报错 “Model not found”

原因:模型配置未加载或配置格式错误

解决:检查 中 provider 和模型定义是否完整,模型 ID 是否与 vLLM 的 一致

Q4: SSH 隧道断开

解决:保持终端窗口运行,或使用 (Linux)/ (Windows)实现自动重连


通过本文的步骤,你可以成功实现:

  • ✅ 本地 Windows 客户端运行 OpenClaw
  • ✅ 通过 SSH 隧道安全连接云端 vLLM 服务
  • ✅ 使用云端 Qwen3-8B 大模型进行对话

这种方案的核心优势在于:本地轻量客户端 + 云端强大算力,既拥有了流畅的本地体验,又能享受大模型的强大能力。

如果你在部署过程中遇到其他问题,欢迎在评论区留言交流!


本文基于 OpenClaw + vLLM + Qwen3-8B 实战经验整理,希望对你有所帮助

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/278244.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月14日 上午7:38
下一篇 2026年3月14日 上午7:39


相关推荐

关注全栈程序员社区公众号