文章目录
- Manus技术原理剖析
-
- Manus提示词拆解
- [agent loop](#agent loop)
- [System capabilities](#System capabilities)
- [modules 模块架构](#modules 模块架构)
- [browser use](#browser use)
- 开源平替方案
-
- openManus
-
-
manus 教程
- agent模块
- flow模块
- tool模块
- prompt模块
- OWL
- AgenticSeek
- REF
有热心网友hack出了manus的提示词,并发布在X上。
manus提示词地址:
https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9
manus的提示词中设置manus agent按照agent loop的模式工作,即迭代的完成复杂任务,依据分析事件、选择工具、等待执行、迭代执行(直到任务完成)、提交结果和退出待机 的步骤运行。
总结agent loop的提示词如下:
manus系统的能力概括如下:
从系统能力的定义来看,manus将agent的能力拆解为用户沟通、访问linux沙箱环境、使用shell、浏览器及其他软件、独立安装软件及依赖项、部署应用、逐步执行复杂任务、建议用户接管等能力 。
Manus AI Assistant Capabilities中界定了每个环节操作具体应遵循的policy:
:系统能力
:按时间排序的事件流,包含message、action、observation、plan、knowledge、datasource等事件类型。
:agent工作流程
:知识和记忆
:data API,获取权威数据
: 为planner agent执行任务提供checklist
:文件读写、添加、编辑处理
:按格式返回网页可见element的结果,提取成功的page content以markdown格式返回;
、
、
、
、
、
分别提供shell脚本、编程、工具使用、写作、错误处理、部署等业务需求的规则。
:沙箱环境,不活跃的沙箱主动休眠和唤醒;
从上述提示词中可以看到,manus的工作原理基于一个任务解析与结构化处理的agent框架。agent首先通过需求分析模块理解用户请求,基于LLM识别核心目标,对模糊需求进行主动澄清,并将复杂任务分解为可执行的原子化组件。
通过集成工具链(包括浏览器交互、文件系统操作、Shell命令行、通信接口和部署能力)实现多模态任务处理,支持JavaScript、Python等十余种编程语言及主流开发框架。
执行引擎采用planner动态任务规划机制,在分步执行过程中实时监控进度,遇到障碍时触发自适应调整策略,生成替代解决方案。
质量保障体系通过结果验证、代码测试和反馈学习闭环确保输出可靠性,同时遵循严格的伦理约束,包括隐私保护、系统安全限制和道德准则。
系统通过持续学习优化任务处理能力,但受限于上下文窗口和沙盒环境隔离原则,无法访问外部系统或执行越权操作。
manus浏览器的操作基于browser use开源库实现,browser use基于 Python 和浏览器自动化框架 Playwright 开发,兼容 Chromium、Firefox 等浏览器,提供稳定的自动化底层支持。
browser use的项目地址如下:
项目地址:https://github.com/browser-use/browser-use
https://github.com/mannaandpoem/OpenManus/tree/main
OpenManus项目实现了一个MVP版的Manus,由 MetaGPT 团队的五名开发者在 3 小时内 快速开发完初版,目前社区热度较高,还在持续更新中。代码写的比较简洁,可读性较好。OpenManus的app架构包括agent模块、工作流flow模块、工具使用tool模块和prompt提示词模块。
agent模块
agent范式包括了React agent、负责执行代码的SEW agent、Planning agent,以及继承自React agent类的Toolcall agent工具调用智能体等。
flow模块
flow模块定义了manus agent的工作流base类,包括智能体的获取、添加、状态管理(not_started、in_progress、completed、blocked)。还定义了FlowFactory类,用于为多个智能体创建不同类型的工作流。
tool模块
用于在terminal终端中处理bash命令。
代码执行的工具目前只包括python语言编写脚本的执行。
prompt模块
prompt模块放置了manus、planning、swe、toolcall等agent的提示词。提示词分为静默提示(system prompt)和说明下一步如何行动的NEXT_STEP_PROMPT。
https://github.com/camel-ai/owl/tree/main
OWL是CAMEL-AI团队推出的类manus的多智能协作开源方案,该方案基于 CAMEL-AI Framework,强调多智能体优化学习(Optimized Workforce Learning)。在 GAIA 基准测试 中,OWL 取得 58.18 的平均分 ,在开源框架中排名第一。
AgenticSeek 是一个开源的多智能体协作框架,旨在提供类似 Manus 的自动化能力,支持代码编写、文件系统操作、网页交互及错误修正等功能。该项目的特点在于可完全在本地运行,保障数据隐私。同时具备多模态的语音操作能力,以及配适了deepseek。
https://github.com/Fosowl/agenticSeek
项目架构有agent、tool模块以及语音支持等脚本组成。
https://manus.im/
https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9
https://x.com/peakji/status/
https://github.com/browser-use/browser-use
发布者:Ai探索者,转载请注明出处:https://javaforall.net/250070.html原文链接:https://javaforall.net
