目录
AgentCPM-GUI 技术解析:首个开源中文APP GUI智能体,赋能端侧多模态交互
一、什么是 AgentCPM-GUI?
二、核心能力亮点
高质量 GUI Grounding
吝 中文 APP 操作能力最强
易 加入强化推理(RFT)模块
⚡ 动作空间紧凑、推理高效
三、快速上手实践
離 1. 本地部署 HuggingFace 推理
2. 启动 vLLM 实时推理服务
四、能力评测结果亮眼
Grounding Benchmark
離 Agent Benchmark(Exact Match)
五、定制微调支持
六、典型应用场景
Agent 智能体
七、项目链接与协议说明
总结:打开端侧多模态 Agent 新纪元
AgentCPM-GUI 是新一代面向 端侧 GUI 操作智能体 的多模态大模型,由清华大学自然语言处理实验室(THUNLP)、中国人民大学和面壁智能团队联合开发。它基于 MiniCPM-V 构建,参数总量达 8B,支持直接从手机屏幕图像中理解上下文,并执行智能交互任务。
这是首个同时具备:
- 中英双语操作能力
- 强化思考与动作规划能力(RFT)
- 高性能端侧运行能力(动作空间压缩至 9.7 token)
- 覆盖中文主流 APP 的 GUI 交互能力
的 开源 GUI Agent 大模型。
高质量 GUI Grounding
AgentCPM-GUI 在大规模中英文 Android 数据集上完成预训练,具备对按钮、输入框、标签等控件的精准识别能力,并能基于语义指令实现控件定位与操作。
Grounding Benchmark 平均得分 71.3,远超 GPT-4o(18.8)与同类大模型。
吝 中文 APP 操作能力最强
AgentCPM-GUI 是首个专门为 中文应用场景 优化的开源 GUI 智能体,支持包括:
- 高德地图
- 大众点评
- 哔哩哔哩
- 小红书
- 支付宝 / 微信 等超过 30+ 主流中文APP
在 CAGUI 中文 APP 测试集上,Exact Match 达到 91.28%,显著领先 GPT-4o(3.67%)。
易 加入强化推理(RFT)模块
通过强化微调(Reinforced Fine-Tuning, RFT),模型在执行动作前进行推理思考(thought),提升对复杂页面的理解与行动准确率。
输出格式如下:
⚡ 动作空间紧凑、推理高效
设计了一套紧凑且低 token 的 JSON 动作空间,平均动作长度仅 9.7 token,适合在端侧设备部署,实现低延迟响应。
支持原子动作如 、、,并支持高级动作如 控制流程。
離 1. 本地部署 HuggingFace 推理
下载模型至 ,运行推理脚本,传入一张手机截图和用户任务指令,即可获得 JSON 格式操作输出。
示例指令:“请点击屏幕上的‘会员’按钮”
2. 启动 vLLM 实时推理服务
通过 RESTful API + base64 图像传输方式,进行模型调用,适合构建在线 GUI 助手服务。
Grounding Benchmark
AgentCPM-GUI-8B 79.1 76.5 58.2
71.3 GPT-4o 22.1 19.9 14.3 18.8
離 Agent Benchmark(Exact Match)
91.28 3.67 Android Control-High 69.17 20.80
我们开源了训练所需的 SFT(监督微调) 与 RFT(强化微调) 代码,可基于自定义 Android GUI 数据进行端到端微调,支持 HuggingFace、vLLM 等部署方案。
- AI 屏幕助手:阅读屏幕并执行用户指令(如”打开设置”、”搜索商家”)
- 茶 智能 UI 测试生成:自动识别页面控件并生成自动化脚本
- 老年人辅助:在复杂 APP 中实现自动操作与语音反馈
- 易 端侧 Agent 推理任务:结合动作计划、页面理解,构建真实智能体体验
- GitHub 地址:AgentCPM-GUI
- 珞 HuggingFace 模型:AgentCPM-GUI 模型下载
- 授权协议:Apache-2.0
- 模型权重需遵循 MiniCPM 商用许可协议
AgentCPM-GUI 的开源标志着“多模态智能体”向真实移动端交互落地迈出了关键一步。其对中文 APP 的理解能力、紧凑的推理格式、端侧适配性与强化推理能力,为构建真正有用的 Agent 系统提供了范式。
未来,我们或将在每一台手机上部署一个属于自己的 AI 助手,而 AgentCPM-GUI,正是这场革命的开端。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/239905.html原文链接:https://javaforall.net
