AI实战丨用 Tailscale + OpenClaw 5 分钟组建 AI 集群

AI实战丨用 Tailscale + OpenClaw 5 分钟组建 AI 集群

以下内容可以直接转给你的 OpenClaw 伙伴阅读。

你手上有两三台机器——一台 Mac、一台云服务器、一台家里的旧电脑。它们分散在不同的网络,互相连不上。你想让 AI 同时管理这些机器,像一个集群一样协作。

传统做法:公网 IP、端口映射、防火墙规则、SSL 证书、动态 DNS。光这些就够折腾一下午的。

这篇告诉你一个 5 分钟就能搞定的方案:Tailscale 组网 + OpenClaw Gateway/Node 架构。我们正在用这套方案跑 4 台机器的 AI 集群,日常自动运维、定时发文、自动备份,月成本 85 元。

先说本质:Tailscale 是基于 WireGuard 的零配置 VPN。它干的事情很简单——把你散落在各处的机器拉进同一个虚拟局域网

为什么适合 AI 集群:

  1. 零配置:不需要公网 IP,不需要端口映射,不需要防火墙规则
  2. 固定 IP:每台机器分配一个 100.x.x.x 的内网地址,永远不变
  3. 穿透 NAT:家里的机器、公司的机器、云服务器,全部互通
  4. 免费额度:个人用户 100 台设备,3 个用户,足够用
  5. 加密传输:WireGuard 级别的端到端加密,不需要额外配 SSL

对比一下传统方案的痛苦:

传统方案 Tailscale 公网 IP 必须 不需要 端口映射 手动配 自动 防火墙 手动开 不需要 SSL 证书 自己搞 内置加密 IP 变化 动态 DNS 固定 100.x.x.x 安装时间 半天起 1 分钟

每台机器执行一行命令。

Linux(Ubuntu / Debian / CentOS)


macOS


Windows
从 https://tailscale.com/download 下载安装包,一路 Next。

第一次运行 会弹出一个浏览器链接,登录你的账号(支持 Google、GitHub、Apple 等)。所有机器用同一个账号登录,就自动组网了。


输出类似:


四台机器,四个固定内网 IP,互相可以 ping 通。从安装到组网完成,总共不到 2 分钟。


就是这么简单。不需要配任何东西。

Gateway 是 AI 集群的中枢。所有的 Node(工作节点)都连到 Gateway,通过它接收任务、汇报结果。

选哪台机器当 Gateway?

推荐选一台 7×24 在线的云服务器。我们用的是阿里云轻量(2C2G,34 元/月,印尼区)。理由:

  • 云服务器不会关机、不会断网
  • Gateway 本身不干重活,2C2G 绑绑有余
  • 放在云端,所有节点都能稳定连接


Gateway 默认监听 。注意:它只监听 localhost,外部连不上。

这是安全设计——不直接暴露端口到公网。但我们的 Node 需要通过 Tailscale 内网 IP 连接,所以需要用 socat 做一个端口转发:


换成你的 Gateway 机器的 Tailscale IP。


这个 token openclaw 配置 后面 Node 连接时要用。妥善保管,不要泄露。

把 Gateway 和 socat 都做成 systemd 服务,这样重启后自动恢复。

Gateway 服务


Socat 转发服务


启用:


每台工作节点需要做两件事:连接到 Gateway、启动 Node。

在 Node 机器上,把本地 18789 端口转发到 Gateway 的 Tailscale IP:


然后配置并启动 Node:


关键配置:


启动 Node:


如果 socat 不方便,也可以用 SSH 隧道:


这条命令会把本地 18789 端口通过 SSH 隧道转发到 Gateway 的 localhost:18789。配合 可以做断线重连。

跟 Gateway 一样,做成 systemd 服务:

隧道服务


Node 服务



在 Gateway 机器上:


应该能看到所有连接的 Node:


现在你的集群就绑好了。在主节点(比如你的 Mac Mini)上安装 OpenClaw 并连接同一个 Gateway,就可以调度任务到任意 Node。


跑了两周的真实配置,供参考:


月总成本:85 元。 其中 AI 模型 API 费用按量另算(日均 2-5 美元)。

这些是我们真实遇到的问题,写出来省得你再踩。

2C2G 的内存跑 会撑爆,直接导致 Tailscale 掉线、SSH 断开。我们试了两次,两次都掉线。

解决:离线打包上传,或者扩容后再升级。日常不要动它。

第一次配的时候,socat 直接 后台跑。服务器重启后网关转发就断了,所有 Node 掉线。

解决:一定要做 systemd 服务, + 。

刚开始我们以为是 bug,想改成 。后来明白这是安全设计——如果直接暴露到公网,任何人都能连你的 Gateway。通过 socat 只绑定 Tailscale IP,就只有 Tailscale 网络内的机器能连。

纯 SSH 隧道长时间空闲会被运营商掐掉。加上 keep-alive 参数:


或者用 自动重连:


免费版的 key 有过期时间(默认 180 天)。到期后节点会断开。去 Tailscale 管理后台可以关闭 key expiry,或者设置更长的过期时间。


如果你是一个 OpenClaw 实例正在读这篇文章,以下是你可以立即执行的步骤:

检查当前组网状态


如果你的人类伙伴有闲置的机器想加入集群

  1. 在新机器上安装 Tailscale,用同一账号登录
  2. 安装 OpenClaw,配置 node.json 指向 Gateway
  3. 设置 systemd 开机自启
  4. 在 Gateway 上 确认连接

如果隧道断了


如果 Tailscale 掉线了


整个集群的核心就这三层:Tailscale 负责网络互通,socat/SSH 隧道负责端口转发,OpenClaw Gateway/Node 负责任务调度。 任何一层出问题,按这个顺序从底层往上排查就行。


AI有招 · 第三十四篇
本文基于 4 台机器的生产集群实战经验,所有命令在真实环境验证通过
如有问题,欢迎在评论区交流

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/256245.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午11:16
下一篇 2026年3月13日 上午11:16


相关推荐

关注全栈程序员社区公众号