通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

GUI-Owl不仅具备精准的界面理解、复杂任务规划与细粒度动作执行能力,更实现了在多智能体框架中灵活扮演多种角色——包括规划者、执行者、反思者与记录者,真正实现“能看、会想、善协作”的智能体闭环。

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

Github: github.com/X-PLUG/Mobil

论文: arxiv.org/abs/2508.1514

模型下载:

GUI-Owl-32B

modelscope.cn/models/ii

GUI-Owl-7B

modelscope.cn/models/ii

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
https://www.zhihu.com/video/

GUI-Owl基础模型,源于三大核心能力的系统性构建:精准定位、复杂规划、动作因果理解。

为实现像素级理解,团队构建了三类高质量接地(grounding)数据:

  • 开源数据集整合:融合多个公开GUI数据集,覆盖多样界面场景;
  • 无障碍树合成:提取移动端/桌面端UI元素的边界框与功能语义,结合Qwen2.5-VL生成视觉-语义对齐描述;
  • PC截图密集定位:通过Google Images爬取主流应用界面,利用SAM模型分割图像区域,再由大模型完成细粒度元素标注。

所有标注结果与Omniparser V2检测结果比对,确保数据质量。原始指令经Qwen2.5-Max重写为自然任务语言,提升泛化能力。

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

面对跨应用、长周期任务,GUI-Owl通过两种方式构建规划能力:

  • 从历史轨迹提炼经验:将成功操作轨迹转化为结构化“任务执行手册”,训练模型掌握任务流;
  • 从大模型蒸馏知识:使用Qwen3-235B生成复杂任务计划(如“在微博搜索某热点并截图发朋友圈”),筛选清洗后形成高质量规划数据集。

团队构建了前后截图对+动作标签的双层级数据体系:

  • 第一层:模型根据界面变化反推操作类型(点击、滑动、输入)及参数(坐标、文本);
  • 第二层:判断操作描述与实际变化是否语义一致(如“点击登录”后是否跳转主页)。

这套机制让GUI-Owl建立起“视觉差异→用户行为”的强因果推理能力。

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

为了突破监督学习的性能天花板,MobileAgent团队引入轨迹级别强化学习,团队构建了一套全异步、解耦式RL训练基础设施:

  • Rollout与策略更新解耦:支持同步策略采样与异步off-policy推理,大幅提升训练吞吐;
  • 高性能推理集群部署:rollout服务运行在H20等高性能GPU上,显著提升长序列任务处理效率;
  • 统一多任务接口:所有任务通过插件化接入,支持步骤级、轨迹级、智能体级信息传递,降低环境耦合成本。

此外,他们提出了TRPO方法,使得模型在动态环境中实现稳定涨点。

实验证明,该框架在真实GUI环境中带来高达8个点的性能提升,甚至超越32B级别SoTA模型。

Agent 智能体
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

面对复杂任务,单模型往往力不从心。为此,MobileAgent团队推出全新多智能体框架 MobileAgent-V3,构建四位“Agent”协同作战体系:

接收用户指令后,调用外部知识库KRAG,将模糊任务拆解为有序子目标。执行中持续接收反馈,动态调整计划、修正错误、重排优先级。

根据当前界面状态选择最优动作,输出包含推理过程、操作指令与意图说明的完整行动元组,确保每一步“有据可依”。

每步操作后,对比预期与实际界面变化,判断成功或失败,并生成归因分析,如:“未跳转主页,可能因按钮被遮挡”。

仅在任务成功时触发,自动提取验证码、登录凭证、订单号等关键信息,存入长期记忆,避免重复操作。

在真实环境测试中,MobileAgent-V3相较单模型方案,任务成功率提升7~8%,尤其在跨应用、多跳任务中表现突出。

GUI-Owl与MobileAgent-V3的开源,标志着通用图形界面智能体进入新阶段。它不再是一个“固定流程”的自动化脚本,而是一个具备基础知识、推理能力与协作机制的“多面手AI”。

其技术路径——“GUI知识构建 + 强化学习优化 + 多智能体协同”——为未来智能体发展提供了清晰范式。

未来,这一框架可广泛应用于:

  • 自动化测试与运维
  • 残障人士辅助操作
  • 企业流程自动化(RPA升级)
  • 教育、政务等低代码场景

期待开源社区基于GUI-Owl,共同探索更多“让AI替人类点手机、操作电脑”的可能性。

点击链接, 即可跳转模型链接~

ModelScope 魔搭社区

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/244783.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月15日 下午8:28
下一篇 2026年3月15日 下午8:28


相关推荐

关注全栈程序员社区公众号