通义实验室Mobile-Agent-v3开源，全平台SOTA的GUI智能体，支持手机电脑等多平台交互

近日，通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl，并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造，在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录，达成全平台SOTA。

GUI-Owl不仅具备精准的界面理解、复杂任务规划与细粒度动作执行能力，更实现了在多智能体框架中灵活扮演多种角色——包括规划者、执行者、反思者与记录者，真正实现“能看、会想、善协作”的智能体闭环。

Github: https://github.com/X-PLUG/MobileAgent

论文: https://arxiv.org/abs/2508.15144

模型下载：

GUI-Owl-32B

https://modelscope.cn/models/iic/GUI-Owl-32B

GUI-Owl-7B

https://modelscope.cn/models/iic/GUI-Owl-7B

https://www.zhihu.com/video/

GUI-Owl基础模型，源于三大核心能力的系统性构建：精准定位、复杂规划、动作因果理解。

为实现像素级理解，团队构建了三类高质量接地（grounding）数据：

开源数据集整合：融合多个公开GUI数据集，覆盖多样界面场景；
无障碍树合成：提取移动端/桌面端UI元素的边界框与功能语义，结合Qwen2.5-VL生成视觉-语义对齐描述；
PC截图密集定位：通过Google Images爬取主流应用界面，利用SAM模型分割图像区域，再由大模型完成细粒度元素标注。

所有标注结果与Omniparser V2检测结果比对，确保数据质量。原始指令经Qwen2.5-Max重写为自然任务语言，提升泛化能力。

面对跨应用、长周期任务，GUI-Owl通过两种方式构建规划能力：

从历史轨迹提炼经验：将成功操作轨迹转化为结构化“任务执行手册”，训练模型掌握任务流；
从大模型蒸馏知识：使用Qwen3-235B生成复杂任务计划（如“在微博搜索某热点并截图发朋友圈”），筛选清洗后形成高质量规划数据集。

团队构建了前后截图对+动作标签的双层级数据体系：

第一层：模型根据界面变化反推操作类型（点击、滑动、输入）及参数（坐标、文本）；
第二层：判断操作描述与实际变化是否语义一致（如“点击登录”后是否跳转主页）。

这套机制让GUI-Owl建立起“视觉差异→用户行为”的强因果推理能力。

为了突破监督学习的性能天花板，MobileAgent团队引入轨迹级别强化学习，团队构建了一套全异步、解耦式RL训练基础设施：

Rollout与策略更新解耦：支持同步策略采样与异步off-policy推理，大幅提升训练吞吐；
高性能推理集群部署：rollout服务运行在H20等高性能GPU上，显著提升长序列任务处理效率；
统一多任务接口：所有任务通过插件化接入，支持步骤级、轨迹级、智能体级信息传递，降低环境耦合成本。

此外，他们提出了TRPO方法，使得模型在动态环境中实现稳定涨点。

实验证明，该框架在真实GUI环境中带来高达8个点的性能提升，甚至超越32B级别SoTA模型。

面对复杂任务，单模型往往力不从心。为此，MobileAgent团队推出全新多智能体框架 MobileAgent-V3，构建四位“Agent”协同作战体系：

接收用户指令后，调用外部知识库KRAG，将模糊任务拆解为有序子目标。执行中持续接收反馈，动态调整计划、修正错误、重排优先级。

根据当前界面状态选择最优动作，输出包含推理过程、操作指令与意图说明的完整行动元组，确保每一步“有据可依”。

每步操作后，对比预期与实际界面变化，判断成功或失败，并生成归因分析，如：“未跳转主页，可能因按钮被遮挡”。

仅在任务成功时触发，自动提取验证码、登录凭证、订单号等关键信息，存入长期记忆，避免重复操作。

在真实环境测试中，MobileAgent-V3相较单模型方案，任务成功率提升7~8%，尤其在跨应用、多跳任务中表现突出。

GUI-Owl与MobileAgent-V3的开源，标志着通用图形界面智能体进入新阶段。它不再是一个“固定流程”的自动化脚本，而是一个具备基础知识、推理能力与协作机制的“多面手AI”。

其技术路径——“GUI知识构建 + 强化学习优化 + 多智能体协同”——为未来智能体发展提供了清晰范式。

未来，这一框架可广泛应用于：

自动化测试与运维
残障人士辅助操作
企业流程自动化（RPA升级）
教育、政务等低代码场景

期待开源社区基于GUI-Owl，共同探索更多“让AI替人类点手机、操作电脑”的可能性。

点击链接， 即可跳转模型链接~

ModelScope 魔搭社区

发布者：Ai探索者，转载请注明出处：https://javaforall.net/244783.html原文链接：https://javaforall.net

通义实验室Mobile-Agent-v3开源，全平台SOTA的GUI智能体，支持手机电脑等多平台交互

关于作者

Ai探索者网站注册用户

通义实验室Mobile-Agent-v3开源，全平台SOTA的GUI智能体，支持手机电脑等多平台交互

关于作者

Ai探索者网站注册用户

相关推荐

“AI孙悟空”对话全球！讯飞星火作为大阪世博会中国馆“唯一大模型展项”正式亮相

一文彻底搞懂智能体Agent基于Function Calling的工具调用

腾讯云用户管理

Ps怎么去掉图片上的文字不留痕迹？Nano Banana一键无痕清除

印象笔记国内版迁移Notion保姆级教程：从数据导出到批量导入全流程（附脚本）

突发，Cursor 封禁国内使用 Claude 等模型，附赠解决方案分享