深度解析manus:技术原理剖析、开源平替方案架构分析

深度解析manus:技术原理剖析、开源平替方案架构分析

文章目录

  • Manus技术原理剖析
    • Manus提示词拆解
    • [agent loop](#agent loop)
    • [System capabilities](#System capabilities)
    • [modules 模块架构](#modules 模块架构)
    • [browser use](#browser use)
  • 开源平替方案
    • openManus
      • manus 教程

      • agent模块
      • flow模块
      • tool模块
      • prompt模块
    • OWL
    • AgenticSeek
  • REF

有热心网友hack出了manus的提示词,并发布在X上。

manus提示词地址:

https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

manus的提示词中设置manus agent按照agent loop的模式工作,即迭代的完成复杂任务,依据分析事件、选择工具、等待执行、迭代执行(直到任务完成)、提交结果和退出待机 的步骤运行。

总结agent loop的提示词如下:

manus系统的能力概括如下:

从系统能力的定义来看,manus将agent的能力拆解为用户沟通、访问linux沙箱环境、使用shell、浏览器及其他软件、独立安装软件及依赖项、部署应用、逐步执行复杂任务、建议用户接管等能力

Manus AI Assistant Capabilities中界定了每个环节操作具体应遵循的policy:


:系统能力


:按时间排序的事件流,包含message、action、observation、plan、knowledge、datasource等事件类型。


:agent工作流程

:任务规划


:知识和记忆


:data API,获取权威数据


: 为planner agent执行任务提供checklist


:文件读写、添加、编辑处理


:按格式返回网页可见element的结果,提取成功的page content以markdown格式返回;












分别提供shell脚本、编程、工具使用、写作、错误处理、部署等业务需求的规则。






:沙箱环境,不活跃的沙箱主动休眠和唤醒;

从上述提示词中可以看到,manus的工作原理基于一个任务解析与结构化处理的agent框架。agent首先通过需求分析模块理解用户请求,基于LLM识别核心目标,对模糊需求进行主动澄清,并将复杂任务分解为可执行的原子化组件。

通过集成工具链(包括浏览器交互、文件系统操作、Shell命令行、通信接口和部署能力)实现多模态任务处理,支持JavaScript、Python等十余种编程语言及主流开发框架。

执行引擎采用planner动态任务规划机制,在分步执行过程中实时监控进度,遇到障碍时触发自适应调整策略,生成替代解决方案。

质量保障体系通过结果验证、代码测试和反馈学习闭环确保输出可靠性,同时遵循严格的伦理约束,包括隐私保护、系统安全限制和道德准则。

系统通过持续学习优化任务处理能力,但受限于上下文窗口和沙盒环境隔离原则,无法访问外部系统或执行越权操作。

manus浏览器的操作基于browser use开源库实现,browser use基于 Python 和浏览器自动化框架 Playwright 开发,兼容 Chromium、Firefox 等浏览器,提供稳定的自动化底层支持。

browser use的项目地址如下:

项目地址:https://github.com/browser-use/browser-use


https://github.com/mannaandpoem/OpenManus/tree/main

OpenManus项目实现了一个MVP版的Manus,由 MetaGPT 团队的五名开发者在 3 小时内 快速开发完初版,目前社区热度较高,还在持续更新中。代码写的比较简洁,可读性较好。OpenManus的app架构包括agent模块、工作流flow模块、工具使用tool模块和prompt提示词模块。

agent模块

agent范式包括了React agent、负责执行代码的SEW agent、Planning agent,以及继承自React agent类的Toolcall agent工具调用智能体等。

flow模块

flow模块定义了manus agent的工作流base类,包括智能体的获取、添加、状态管理(not_started、in_progress、completed、blocked)。还定义了FlowFactory类,用于为多个智能体创建不同类型的工作流。

tool模块

用于在terminal终端中处理bash命令。

代码执行的工具目前只包括python语言编写脚本的执行。

prompt模块

prompt模块放置了manus、planning、swe、toolcall等agent的提示词。提示词分为静默提示(system prompt)和说明下一步如何行动的NEXT_STEP_PROMPT。


https://github.com/camel-ai/owl/tree/main

OWL是CAMEL-AI团队推出的类manus的多智能协作开源方案,该方案基于 CAMEL-AI Framework,强调多智能体优化学习(Optimized Workforce Learning)。在 GAIA 基准测试 中,OWL 取得 58.18 的平均分 ,在开源框架中排名第一。

AgenticSeek 是一个开源的多智能体协作框架,旨在提供类似 Manus 的自动化能力,支持代码编写、文件系统操作、网页交互及错误修正等功能。该项目的特点在于可完全在本地运行,保障数据隐私。同时具备多模态的语音操作能力,以及配适了deepseek。

https://github.com/Fosowl/agenticSeek

项目架构有agent、tool模块以及语音支持等脚本组成。

https://manus.im/

https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

https://x.com/peakji/status/

https://github.com/browser-use/browser-use

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/250070.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月15日 下午3:02
下一篇 2026年3月15日 下午3:03


相关推荐

关注全栈程序员社区公众号