ACK 推理服务一站式部署 Kimi 2.5 与 OpenClaw 接入

ACK 推理服务一站式部署 Kimi 2.5 与 OpenClaw 接入

Kimi K2.5 于 2026 年 1 月 27 日正式开源发布,上线不到 24 小时即登顶全球多个权威榜单。在 Kimi-K2-Base 坚实底座上,通过约 15 万亿混合视觉与文本 Token 的持续预训练,该模型实现了视觉感知与语言理解的无缝融合,在视觉理解、逻辑推理、代码生成及 Agent 自主执行等维度展现出优异的性能。

ACK 推理服务一站式部署 Kimi 2.5 与 OpenClaw 接入

Kimi K2.5 独创”即时模式”与”思考模式”双模态机制,既支持低延迟的对话式交互,也支持深度规划的智能体工作流,可同时覆盖 Chatbot 与 Agentic AI 两类生产场景。

更多信息请参见:Kimi2.5。

SGLang 是一个面向大规模语言模型推理服务的高性能框架,提供结构化生成、高效调度与分布式推理能力。SGLang 适合部署 Kimi 2.5 的主要原因包括:

  • 原生支持 PD 分离架构:SGLang 内置 Prefill 与 Decode 阶段解耦部署能力,能够很好地支持 PD 分离场景的部署需求。
  • 高效 MoE 内核:集成 DeepEP 等优化内核,支持 Expert Parallelism 及高效 All-to-All 通信,充分释放 MoE 模型推理性能。
  • 先进的调度机制:支持 Continuous Batching、Overlap Schedule 等能力,最大化 GPU 利用率并提升吞吐。
  • 完善的分布式优化:提供成熟的 Tensor Parallelism 与 Expert Parallelism 能力,可平滑扩展至千卡级集群,支持超大规模模型部署。

更多关于 SGLang 推理引擎的信息,请参见:SGLang GitHub。

Openclaw 是一款开源的跨平台通信网关,专为连接 AI 智能体与主流即时通讯平台而设计。它支持 WhatsApp(基于 Baileys)、Telegram、Discord、iMessage(macOS),并可通过插件扩展至 Mattermost 等渠道。用户可直接通过手机发送消息,获得 AI 代理的实时响应。

Openclaw 提供可本地运行的控制面板,支持媒体传输、语音转录、群聊管理、多智能体路由与流式响应等功能。其“Gateway + Node”的架构强调本地优先与隐私安全,适用于开发者快速部署个人或团队级 AI 助手。更多信息请参见:Openclaw Github。

RoleBasedGroup(RBG)是本文部署方案的工具。 作为 SGLang 社区孵化的云原生编排引擎,RBG 由小红书、算秩未来、科大讯飞、阿里云和南京大学联合贡献,专为解决大模型推理服务在 Kubernetes 上的部署痛点而生。

ACK 推理服务一站式部署 Kimi 2.5 与 OpenClaw 接入

与传统 Deployment 将推理服务视为无状态容器集合不同,RBG 将推理服务拓扑化为”角色有机体” —— 在 Kimi 2.5 的部署场景中,单个实例的全生命周期运维管理、跨实例的分布式通信、以及未来 PD 分离架构下的 Prefill/Decode 角色调度,均通过 RBG 的声明式 API 统一管理。

项目地址:github.com/sgl-project/

  1. 执行以下命令从ModelScope下载 moonshotai/Kimi-K2.5 模型。
    请确认是否已安装git-lfs插件,如未安装可执行yum install git-lfs或者apt-get install git-lfs安装。更多的安装方式,请参见安装git-lfs。
    git lfs install GIT_LFS_SKIP_SMUDGE=1 git clone modelscope.cn/moonshota cd Kimi-K2.5/ git lfs pull
  2. 登录OSS控制台,查看并记录已创建的Bucket名称。如何创建Bucket,请参见创建存储空间。在OSS中创建目录,将模型上传至OSS。
    关于ossutil工具的安装和使用方法,请参见安装ossutil。
    ossutil mkdir oss://<your-bucket-name>/models/Kimi-K2.5 ossutil cp -r ./Kimi-K2.5 oss://<your-bucket-name>/models/Kimi-K2.5
  3. 创建PV和PVC。为目标集群配置名为kimi-k2-5的存储卷PV和存储声明PVC。具体操作,请参见创建PV和PVC。

本文将模型保存到 /models/Kimi-K2.5 路径下

apiVersion: v1 kind: Secret metadata: name: oss-secret stringData: akId: <your-oss-ak> # 配置用于访问OSS的AccessKey ID akSecret: <your-oss-sk> # 配置用于访问OSS的AccessKey Secret --- apiVersion: v1 kind: PersistentVolume metadata: name: kimi-k2-5 labels: alicloud-pvname: kimi-k2-5 spec: capacity: storage: 5Gi accessModes: - ReadOnlyMany persistentVolumeReclaimPolicy: Retain csi: driver: ossplugin.csi.alibabacloud.com volumeHandle: kimi-k2-5 # 需要和PV名字一致。 nodePublishSecretRef: name: oss-secret namespace: default volumeAttributes: fuseType: ossfs2 bucket: <your-bucket-name> # bucket名称 url: <your-bucket-endpoint> # Endpoint信息,如oss-cn-hangzhou-internal.aliyuncs.com path: <your-model-path> # 本示例中为"/models/Kimi-K2.5" --- apiVersion: v1 kind: PersistentVolumeClaim metadata: name: kimi-k2-5 spec: accessModes: - ReadOnlyMany resources: requests: storage: 5Gi selector: matchLabels: alicloud-pvname: kimi-k2-5

创建Secret、创建静态卷PV、创建静态卷PVC。

kubectl create -f kimi-k2-5-pv-pvc.yaml
  • 安装RBG:github.com/sgl-project/

以下 YAML 展示了 RBG 的角色化编排能力:我们通过 RoleBasedGroup 资源直接声明一个 server 角色(单机 8 卡 TP 并行),RBG 控制器将自动处理 Pod 命名规则、服务发现标签、以及角色级的生命周期管理。得益于 RBG 的原地升级能力,后续需要调整推理参数(如修改推理参数、更新镜像版本或增减环境变量)时,只需 apply 更新后的 YAML,RBG 将自动计算差异并执行原地热更新或有序替换,无需全量重启服务,最大程度保留 KV Cache 状态。

apiVersion: workloads.x-k8s.io/v1alpha1 kind: RoleBasedGroup metadata: name: kimi-k2-5 spec: roles: - name: server replicas: 1 template: spec: containers: - name: sglang image: ac2-mirror-registry.cn-hangzhou.cr.aliyuncs.com/evaluate/sglang:nightly-dev--0998de08 command: - sh - -c - "python3 -m sglang.launch_server --model-path /models/Kimi-K2.5 --host 0.0.0.0 --port 8080 --mem-fraction-static 0.9 --tp-size 8 --trust-remote-code --tool-call-parser kimi_k2 --reasoning-parser kimi_k2" ports: - containerPort: 8080 name: http protocol: TCP readinessProbe: failureThreshold: 3 initialDelaySeconds: 15 periodSeconds: 10 successThreshold: 1 tcpSocket: port: 8080 timeoutSeconds: 1 resources: limits: nvidia.com/gpu: "8" requests: nvidia.com/gpu: "8" volumeMounts: - mountPath: /models/Kimi-K2.5 name: model - mountPath: /dev/shm name: dshm volumes: - name: model persistentVolumeClaim: claimName: kimi-k2-5 - name: dshm emptyDir: medium: Memory --- apiVersion: v1 kind: Service metadata: labels: app: kimi-k2-5 name: kimi-k2-5 namespace: default spec: ports: - name: http port: 8080 protocol: TCP targetPort: 8080 selector: rolebasedgroup.workloads.x-k8s.io/name: kimi-k2-5 type: ClusterIP

将上述文件保存在本地后,执行

kubectl create -f kimi-k2-5-rbg.yaml

观察服务是否已经成功运行

kubectl get po -l rolebasedgroup.workloads.x-k8s.io/name=kimi-k2-5 # 预期输出 NAME READY STATUS RESTARTS AGE kimi-k2-5-server-0 1/1 Running 0 8h
  1. 执行以下命令,在推理服务与本地环境之间建立端口转发。
    kubectl port-forward svc/kimi-k2-5 8080:8080
    预期输出
    Forwarding from 127.0.0.1:8080 -> 8080 Forwarding from [::1]:8080 -> 8080
  2. 执行以下命令,向模型推理服务发送了一条示例的模型推理请求。
curl http://127.0.0.1:8080/v1/completions -H "Content-Type: application/json" -d '{ "model": "/models/Kimi-K2.5", "prompt": "云原生是什么", "max_tokens": 10 }' # 预期输出 {"id":"e85a5739b0d04d488c51bf3066","object":"text_completion","created":,"model":"/models/Kimi-K2.5","choices":[{"index":0,"text":"?\n\n 云原生是一种架构方式或者是交付方式","logprobs":null,"finish_reason":"length","matched_stop":null}],"usage":{"prompt_tokens":3,"total_tokens":13,"completion_tokens":10,"prompt_tokens_details":null,"reasoning_tokens":0},"metadata":{"weight_version":"default"}}%

参考官方安装文档:docs.openclaw.ai/start/

  1. 本地环境前置要求
    Node >=22 pnpm(可选,从源码构建时推荐) macOS: 仅 CLI + Gateway 只需 Node 即可
  2. 一键安装Openclaw
    // mac curl -fsSL openclaw.bot/install.sh | bash // windows iwr -useb openclaw.ai/install.ps1 | iex
  3. 配置Openclaw,参考配置如下:

openclaw 配置

Openclaw配置项 参考配置
I understand this is powerful and inherently risky. Continue? Yes
Onboarding mode QuickStart (Configure details later via clawdbot configure.)
Model/auth provider Skip for now
Filter models by provider All providers
Default model Keep current (default: anthropic/claude-opus-4-5)(此处后面会重新配置)
Select channel (QuickStart) Skip for now (You can add channels later via clawdbot channels add)
Configure skills now? (recommended) No
Enable hooks? Skip for now
How do you want to hatch your bot? Open the Web UI

执行完成后,会在本地浏览器中自动打开 127.0.0.1:18789/ 页面。

  1. 修改 Openclaw 配置文件
    vim ~/.openclaw/openclaw.json
    在指定字段处新增如下信息
    { “models”: { “mode”: “merge”, “providers”: { “rbg”: { “baseUrl”: “http://localhost:8080/v1”, “apiKey”: “rbg”, “api”: “openai-completions”, “models”: [ { “id”: “Kimi-K2.5”, “name”: “Kimi K2.5” } ] } } }, “agents”: { “defaults”: { “model”: { “primary”: “rbg/Kimi-K2.5” }, “models”: { “rbg/Kimi-K2.5”: { “alias”: “Kimi K2.5” } }, … }, … }
    保存配置并重新Gateway
    openclaw gateway restart # 如果执行失败,可以尝试 moltbot gateway restart 或者 clawdbot gateway restart
  2. 查看本地加载的模型信息
openclaw models list # 预期输出 # 如果执行失败,可以尝试 moltbot models list 或者 clawdbot models list 🦞 OpenClaw 2026.1.29 (a5b4d22) ... Model Input Ctx Local Auth Tags rbg/Kimi-K2.5 text 195k yes yes default,configured,alias:Kimi K2.5

需要确保已经在本地配置kubectl流量转发

kubectl port-forward svc/kimi-k2-5 8080:8080

在本地浏览器使用URL访问

http://127.0.0.1:18789

预期输出:

ACK 推理服务一站式部署 Kimi 2.5 与 OpenClaw 接入

可以在Openclaw页面的 Settings -> Logs 子页面,查看具体执行日志。

本文通过 RoleBasedGroup 实现了 Kimi 2.5 在 ACK 上的生产级部署。相比传统 Deployment,RBG 的原地升级能力让推理参数调优和版本更新可在不中断服务的情况下完成,智能预热机制确保新实例所需要依赖在本地完全就绪后才进行升级,有效避免冷启动延迟。这两项特性对于需要长期稳定运行、频繁优化配置的生产环境推理服务至关重要。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信、微博、知乎

获取关于我们的更多信息~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/256104.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午11:24
下一篇 2026年3月13日 上午11:25


相关推荐

关注全栈程序员社区公众号