AgentCPM-GUI 技术解析：首个开源中文APP GUI智能体，赋能端侧多模态交互

一、什么是 AgentCPM-GUI？

二、核心能力亮点

 高质量 GUI Grounding

吝中文 APP 操作能力最强

易加入强化推理（RFT）模块

⚡ 动作空间紧凑、推理高效

三、快速上手实践

離 1. 本地部署 HuggingFace 推理

 2. 启动 vLLM 实时推理服务

四、能力评测结果亮眼

 Grounding Benchmark

離 Agent Benchmark（Exact Match）

五、定制微调支持

六、典型应用场景

Agent 智能体

七、项目链接与协议说明

总结：打开端侧多模态 Agent 新纪元

AgentCPM-GUI 是新一代面向 端侧 GUI 操作智能体 的多模态大模型，由清华大学自然语言处理实验室（THUNLP）、中国人民大学和面壁智能团队联合开发。它基于 MiniCPM-V 构建，参数总量达 8B，支持直接从手机屏幕图像中理解上下文，并执行智能交互任务。

这是首个同时具备：

中英双语操作能力
强化思考与动作规划能力（RFT）
高性能端侧运行能力（动作空间压缩至 9.7 token）
覆盖中文主流 APP 的 GUI 交互能力

的 开源 GUI Agent 大模型。

 高质量 GUI Grounding

AgentCPM-GUI 在大规模中英文 Android 数据集上完成预训练，具备对按钮、输入框、标签等控件的精准识别能力，并能基于语义指令实现控件定位与操作。

Grounding Benchmark 平均得分 71.3，远超 GPT-4o（18.8）与同类大模型。

吝中文 APP 操作能力最强

AgentCPM-GUI 是首个专门为 中文应用场景 优化的开源 GUI 智能体，支持包括：

高德地图
大众点评
哔哩哔哩
小红书
支付宝 / 微信等超过 30+ 主流中文APP

在 CAGUI 中文 APP 测试集上，Exact Match 达到 91.28%，显著领先 GPT-4o（3.67%）。

易加入强化推理（RFT）模块

通过强化微调（Reinforced Fine-Tuning, RFT），模型在执行动作前进行推理思考（thought），提升对复杂页面的理解与行动准确率。

输出格式如下：

⚡ 动作空间紧凑、推理高效

设计了一套紧凑且低 token 的 JSON 动作空间，平均动作长度仅 9.7 token，适合在端侧设备部署，实现低延迟响应。

支持原子动作如、、，并支持高级动作如控制流程。

離 1. 本地部署 HuggingFace 推理

下载模型至，运行推理脚本，传入一张手机截图和用户任务指令，即可获得 JSON 格式操作输出。

 示例指令：“请点击屏幕上的‘会员’按钮”

 2. 启动 vLLM 实时推理服务

通过 RESTful API + base64 图像传输方式，进行模型调用，适合构建在线 GUI 助手服务。

 Grounding Benchmark

模型 fun2point text2point bbox2text 平均得分
AgentCPM-GUI-8B 79.1 76.5 58.2
71.3 GPT-4o 22.1 19.9 14.3 18.8

離 Agent Benchmark（Exact Match）

数据集 AgentCPM-GUI-8B GPT-4o CAGUI 中文APP
91.28 3.67 Android Control-High 69.17 20.80

我们开源了训练所需的 SFT（监督微调） 与 RFT（强化微调） 代码，可基于自定义 Android GUI 数据进行端到端微调，支持 HuggingFace、vLLM 等部署方案。

 AI 屏幕助手：阅读屏幕并执行用户指令（如”打开设置”、”搜索商家”）
茶 智能 UI 测试生成：自动识别页面控件并生成自动化脚本
 老年人辅助：在复杂 APP 中实现自动操作与语音反馈
易 端侧 Agent 推理任务：结合动作计划、页面理解，构建真实智能体体验

 GitHub 地址：AgentCPM-GUI
珞 HuggingFace 模型：AgentCPM-GUI 模型下载
 授权协议：Apache-2.0
 模型权重需遵循 MiniCPM 商用许可协议

AgentCPM-GUI 的开源标志着“多模态智能体”向真实移动端交互落地迈出了关键一步。其对中文 APP 的理解能力、紧凑的推理格式、端侧适配性与强化推理能力，为构建真正有用的 Agent 系统提供了范式。

未来，我们或将在每一台手机上部署一个属于自己的 AI 助手，而 AgentCPM-GUI，正是这场革命的开端。

AgentCPM-GUI 技术解析：首个开源中文APP GUI智能体，赋能端侧多模态交互

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/239905.html原文链接：https://javaforall.net

AgentCPM-GUI 技术解析：首个开源中文APP GUI智能体，赋能端侧多模态交互

 高质量 GUI Grounding

吝 中文 APP 操作能力最强

易 加入强化推理（RFT）模块

⚡ 动作空间紧凑、推理高效

離 1. 本地部署 HuggingFace 推理

 2. 启动 vLLM 实时推理服务

 Grounding Benchmark

離 Agent Benchmark（Exact Match）

关于作者

全栈程序员-站长

相关推荐

AI Agent智能体开发实战：Qwen3大模型与多智能体应用案例详解（值得收藏）

迈富时AI-Agentforce：企业智能体工业化落地新范式

Perplexity Computer：全天候AI智能体

Agent架构设计：智能体架构设计的9大核心技术全景深解析，附架构图，零基础小白收藏这一篇就够了！！

关于多智能体深度确定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient，MADDPG）

3分钟看懂智能体＂思考＂过程：ML-Agents状态空间探索指南

吝中文 APP 操作能力最强

易加入强化推理（RFT）模块