AgentCPM-GUI 技术解析:首个开源中文APP GUI智能体,赋能端侧多模态交互

AgentCPM-GUI 技术解析:首个开源中文APP GUI智能体,赋能端侧多模态交互

目录

AgentCPM-GUI 技术解析:首个开源中文APP GUI智能体,赋能端侧多模态交互

一、什么是 AgentCPM-GUI?

二、核心能力亮点

 高质量 GUI Grounding

吝 中文 APP 操作能力最强

易 加入强化推理(RFT)模块

⚡ 动作空间紧凑、推理高效

三、快速上手实践

離 1. 本地部署 HuggingFace 推理

 2. 启动 vLLM 实时推理服务

四、能力评测结果亮眼

 Grounding Benchmark

離 Agent Benchmark(Exact Match)

五、定制微调支持

六、典型应用场景

Agent 智能体

七、项目链接与协议说明

总结:打开端侧多模态 Agent 新纪元


AgentCPM-GUI 是新一代面向 端侧 GUI 操作智能体 的多模态大模型,由清华大学自然语言处理实验室(THUNLP)、中国人民大学和面壁智能团队联合开发。它基于 MiniCPM-V 构建,参数总量达 8B,支持直接从手机屏幕图像中理解上下文,并执行智能交互任务。

这是首个同时具备:

  • 中英双语操作能力
  • 强化思考与动作规划能力(RFT)
  • 高性能端侧运行能力(动作空间压缩至 9.7 token)
  • 覆盖中文主流 APP 的 GUI 交互能力

开源 GUI Agent 大模型


 高质量 GUI Grounding

AgentCPM-GUI 在大规模中英文 Android 数据集上完成预训练,具备对按钮、输入框、标签等控件的精准识别能力,并能基于语义指令实现控件定位与操作。

Grounding Benchmark 平均得分 71.3,远超 GPT-4o(18.8)与同类大模型。


吝 中文 APP 操作能力最强

AgentCPM-GUI 是首个专门为 中文应用场景 优化的开源 GUI 智能体,支持包括:

  • 高德地图
  • 大众点评
  • 哔哩哔哩
  • 小红书
  • 支付宝 / 微信 等超过 30+ 主流中文APP

在 CAGUI 中文 APP 测试集上,Exact Match 达到 91.28%,显著领先 GPT-4o(3.67%)。


易 加入强化推理(RFT)模块

通过强化微调(Reinforced Fine-Tuning, RFT),模型在执行动作前进行推理思考(thought),提升对复杂页面的理解与行动准确率。

输出格式如下:



⚡ 动作空间紧凑、推理高效

设计了一套紧凑且低 token 的 JSON 动作空间,平均动作长度仅 9.7 token,适合在端侧设备部署,实现低延迟响应

支持原子动作如 、、,并支持高级动作如 控制流程。


離 1. 本地部署 HuggingFace 推理


下载模型至 ,运行推理脚本,传入一张手机截图和用户任务指令,即可获得 JSON 格式操作输出。

 示例指令:“请点击屏幕上的‘会员’按钮”


 2. 启动 vLLM 实时推理服务


通过 RESTful API + base64 图像传输方式,进行模型调用,适合构建在线 GUI 助手服务。


 Grounding Benchmark

模型 fun2point text2point bbox2text 平均得分
AgentCPM-GUI-8B 79.1 76.5 58.2
71.3 GPT-4o 22.1 19.9 14.3 18.8

離 Agent Benchmark(Exact Match)

数据集 AgentCPM-GUI-8B GPT-4o CAGUI 中文APP
91.28 3.67 Android Control-High 69.17 20.80

我们开源了训练所需的 SFT(监督微调)RFT(强化微调) 代码,可基于自定义 Android GUI 数据进行端到端微调,支持 HuggingFace、vLLM 等部署方案。


  • AI 屏幕助手:阅读屏幕并执行用户指令(如”打开设置”、”搜索商家”)
  • 智能 UI 测试生成:自动识别页面控件并生成自动化脚本
  • 老年人辅助:在复杂 APP 中实现自动操作与语音反馈
  • 端侧 Agent 推理任务:结合动作计划、页面理解,构建真实智能体体验

  •  GitHub 地址:AgentCPM-GUI
  • 珞 HuggingFace 模型:AgentCPM-GUI 模型下载
  •  授权协议:Apache-2.0
  •  模型权重需遵循 MiniCPM 商用许可协议

AgentCPM-GUI 的开源标志着“多模态智能体”向真实移动端交互落地迈出了关键一步。其对中文 APP 的理解能力、紧凑的推理格式、端侧适配性与强化推理能力,为构建真正有用的 Agent 系统提供了范式。

未来,我们或将在每一台手机上部署一个属于自己的 AI 助手,而 AgentCPM-GUI,正是这场革命的开端。

AgentCPM-GUI 技术解析:首个开源中文APP GUI智能体,赋能端侧多模态交互

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/239905.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 上午8:56
下一篇 2026年3月16日 上午8:57


相关推荐

关注全栈程序员社区公众号