字数 17558,阅读大约需 20 分钟
传统上将 Agent 翻译成“代理(Agent)”,而不是智能体,但是这个概念本身并不新鲜。从本质上讲,它代表了一种委托机制,通过授权和验收,按照既定的规则有效地完成事务处理。这种机制的核心在于将特定的职责或任务委托给一个实体(即代理),使其能够在一定范围内自主地执行操作,最终达成预期的结果。
在这里举几个传统代理在互联网领域的具体例子,比如:数据挖掘代理(Data-mining agents)专注于从大量数据中发现隐藏的模式、趋势和有用的信息。它们通过复杂的算法分析数据,帮助用户提取有价值的知识。网络和通信代理(Networking and communicating agents)负责促进网络通信和管理。例如,邮件传输代理(如Microsoft Outlook)能够与POP3邮件服务器通信,而无需用户理解底层的POP3命令协议,并且可以根据用户设定的规则过滤邮件。甚至,我们平时的工作流程中,领导根据人员能力让财务完成报表制作、营销完成方案策划也都可以认为是一种 Agent 机制。
铺垫了那么多,现在,可以进一步探讨一下 AI Agent 了。
AI Agent(智能体),在本质上是一种软件系统,其设计目标在于感知周围环境,处理所接收到的信息,并采取相应的行动以达成特定的目标。相比较于传统的应用,AI Agent 具备一定的自主性,能够在没有人为持续干预的情况下处理各种任务。其实,理解AI Agent 的关键在于,需要明白它并非横空出世,而是从传统的软件代理概念演变而来,AI智能体继承了传统代理的核心思想,即代表用户或系统执行任务以达成特定目标。然而,与传统的基于规则或预编程逻辑的代理不同,AI智能体利用大型语言模型(LLM)作为其核心元素,从而在信息处理和决策制定方面实现了质的飞跃。 AI Agent加持了大型语言模型(LLM)的能力,有显著提升其应用边界的趋势。
表格对照传统代理和 AI 智能体
| 特征 | 传统代理 | AI智能体 |
| 委托机制 | 是 | 是 |
| 核心智能 | 基于规则或预编程逻辑 | 大型语言模型(LLM) |
| 任务复杂度 | 相对简单,预定义明确 | 可以处理复杂、多步骤任务 |
| 学习能力 | 有限或无 | 具备学习和适应能力 |
| 与环境交互 | 基于预设的接口和协议 | 可以通过工具使用与更广泛的环境交互 |
| 示例 | 购物机器人、邮件传输代理 | 自动驾驶汽车、医疗诊断助手 |
LLM作为AI智能体的“大脑”,使其能够以更复杂的方式理解自然语言、进行推理、制定计划并与环境互动。LLM为AI智能体带来了以下关键能力:
第一、自然语言理解(NLU): 处理和解释用户输入,包括理解上下文、情感和意图。这使得用户可以使用自然语言与AI智能体进行交流,而无需遵循严格的命令格式。
第二、规划能力(Planning): 自主评估和优先处理实现目标的行动,将复杂的任务分解为更小的子任务。例如,ReAct(推理与行动)框架展示了LLM如何通过交替进行思考、行动和观察来解决复杂问题。
记忆: 在对话和任务中保留信息,提供持续的上下文。这包括短期记忆和长期记忆,使得AI智能体能够记住过去的交互并将其应用于未来的任务。
第三、工具使用(Tool Usage): 与外部系统、API、数据库和其他工具进行交互,以执行现实世界的行动。这项能力使得AI智能体能够超越简单的文本生成,执行诸如查询数据库、发送电子邮件或控制智能设备等操作。大型动作模型(LAM)的出现进一步强调了这种以动作为中心的能力。
第四、适应性和学习(记忆能力): 通过分析过去交互的数据并适应新信息来提高性能。学习型智能体使用机器学习技术来实现这一目标。这使得AI智能体能够随着时间的推移不断改进其能力。
第五、自我纠正: 检测错误,修复错误,并通过多步骤计划和内部检查进行学习。这项能力有助于提高AI智能体的可靠性和准确性。
AI智能体将LLM作为控制中心,协调各种行动。工具使用和函数调用是关键的进步,使得AI智能体能够与现实世界互动并执行实际操作,而不仅仅是提供信息。规划和记忆模块,由LLM驱动,使得AI智能体能够处理多步骤任务并保持上下文,更接近人类复杂的认知过程。
那从学术界而言,AI 智能体的研究进展怎样呢?
这篇论文的核心是提出了一个名为 ReAct (Reasoning + Acting) 的新框架,旨在通过协同语言模型的推理能力和与环境的交互能力,来解决复杂的任务。
以下是对该论文主要内容的分析:
• ReAct 框架的核心思想:论文指出,先前的工作主要关注于大型语言模型的推理能力(如 Chain-of-Thought, CoT),而忽略了模型与环境互动并从环境反馈中学习的能力。ReAct 框架强调将推理(reasoning)过程与行动(acting)和观察(observation)相结合。
◦ 推理(Reasoning):模型生成自然语言的思考过程,用于分解问题、制定计划或反思过去的行动5.
◦ 行动(Acting):模型根据其推理结果,采取与环境交互的步骤,例如搜索信息、导航网页或操作物体4.
◦ 观察(Observation):模型接收环境对行动的反馈,例如搜索结果、网页内容或物理状态的变化4.
• ReAct 通过这种 “思考-行动-观察” 的循环,使得语言模型能够动态地调整其推理和行动策略,从而更有效地完成任务5.
• ReAct 的优势:论文强调了 ReAct 框架的几个关键优势1:
◦ 直观且易于设计 (Intuitive and easy to design):设计 ReAct 的 prompt 非常直接,只需要人工标注人员记录他们的思考过程以及采取的行动即可,无需特定的格式或复杂的示例选择1.
◦ 通用且灵活 (General and flexible):由于其灵活的思考空间和思考-行动发生格式,ReAct 适用于各种具有不同动作空间和推理需求的任务,包括问答、事实核查、文本游戏和网页导航等1.
◦ 高性能且鲁棒 (Performant and robust):ReAct 在仅从少量上下文示例中学习的情况下,对新任务实例表现出强大的泛化能力,并且始终优于仅进行推理或仅进行行动的基线模型1…. 论文还在第三节展示了启用微调后的额外优势,并在第四节展示了 ReAct 性能对 prompt 选择的鲁棒性1.
◦ 符合人类直觉且可控 (Human aligned and controllable):ReAct 提供了一个可解释的顺序决策和推理过程,人类可以轻松检查其推理和事实正确性。此外,人类还可以通过编辑思考过程来实时控制或纠正 agent 的行为1….
• ReAct 在不同任务上的应用和表现:论文在多个任务上评估了 ReAct 的性能,并与不同的基线模型进行了比较6…:
◦ 知识密集型问答 (Knowledge-intensive QA):在 HotpotQA 和 Fever 数据集上,ReAct 通过与外部知识源(如维基百科)交互,能够检索相关信息并进行多步推理,显著优于 Standard prompting、CoT 和 Act-Only 等基线方法5…. 尤其值得一提的是,ReAct 能够获取最新的知识,解决数据集中标签过时的问题2….
◦ 文本游戏 (Text Game):在 ALFWorld 环境中,ReAct 作为动作生成器,展现了在需要长期规划和决策的任务中的成功8…. ReAct 能够通过显式的中间思考过程来指导其在复杂环境中的导航和物体操作28. 论文还探讨了在 ALFWorld 中使用 ReAct 时,通过自我评估来避免长期低效规划或陷入幻觉的情况30….
◦ 网页购物 (WebShop):在 WebShop 任务中,ReAct 通过推理来指导与网页的互动,能够更有效地找到满足用户特定属性要求的商品,优于仅依赖行动的 Act-Only 模型20….
• 与相关工作的比较:论文将 ReAct 与其他利用语言模型进行交互式决策的工作进行了比较,例如 SayCan 和 Inner Monologue. ReAct 借鉴了 Inner Monologue 中环境反馈的思想,但认为 Inner Monologue 并没有真正包含“内部思考”.
• 消融实验和分析 (Ablation Studies and Analysis):论文通过消融实验分析了 ReAct 轨迹中不同组成部分(思考、行动、观察)的重要性6. 结果表明,将推理和行动相结合对于提升性能至关重要6…. 论文还对 ReAct 的成功和失败案例进行了分析,指出了模型可能出现的错误类型,例如推理错误和幻觉31….
• 与其他大型语言模型 (LLMs) 的兼容性:论文在 PaLM 和 GPT-3 上进行了实验,结果表明 ReAct prompting 是一种通用的方法,可以在不同的 LLMs 上有效提升性能9. GPT-3 在 HotpotQA 和 ALFWorld 上甚至优于 PaLM-540B,这可能归因于其在人类指令遵循方面的微调9.
• 结论与未来方向:论文总结认为,ReAct 框架通过将推理和行动相结合,显著提升了语言模型在交互式任务中的性能和可解释性1…. 作者认为,更好地融入推理能力可以提升最近提出的互联网增强语言模型(如 WebGPT, Lazaridou et al., 2022; Shuster et al., 2022a)在需要最新知识的任务上的表现10.
总而言之,论文 “2210.03629v3.pdf” 深入探讨了 ReAct 框架,强调了推理和行动协同在构建更智能、更通用的语言 agent 中的关键作用。通过在多个具有挑战性的任务上的实证研究,论文证明了 ReAct 相对于现有方法的优越性,并为未来研究交互式语言模型指明了方向。
这篇论文的核心是提出了 Toolformer,一个让大型语言模型(LLMs)能够自监督地学习使用外部工具(如问题回答系统、维基百科搜索、计算器、日历和机器翻译)的框架。
以下是对该论文主要内容的分析:
• Toolformer 的核心思想:论文指出,虽然大型语言模型在各种任务中表现出色,但它们仍然存在一些局限性,例如缺乏获取最新信息的能力、计算能力薄弱以及难以处理特定领域的任务。Toolformer 通过允许 LLMs 调用外部工具来增强自身的能力,从而克服这些限制。Toolformer 的关键在于,它不需要人工标注哪些工具应该在何时使用,而是通过自监督学习的方式,让模型自己决定何时以及如何利用这些工具来改进其预测。
• Toolformer 的自监督学习方法:Toolformer 的训练过程主要包括以下几个步骤:
◦ 生成工具调用:对于给定的文本,Toolformer 会预测是否以及在何处插入对外部工具的调用。它通过在文本中插入特殊的标记(例如 [QA(query)])来表示工具调用,并生成相应的查询(query)。
◦ 执行工具并获取结果:一旦模型生成了工具调用,系统就会实际执行该调用(例如,向问题回答系统发送查询,或执行计算器表达式)并获取返回的结果。
◦ 评估工具调用的有用性:Toolformer 引入了一种有用性评估机制,用于判断工具返回的结果是否有助于模型更好地预测原始文本中的后续内容。具体来说,它比较了在没有工具结果和有工具结果的情况下,模型对后续文本的困惑度(perplexity)。如果使用工具结果能够显著降低困惑度,则认为该工具调用是有用的。
◦ 微调语言模型:模型会基于原始文本以及有用的工具调用和结果进行微调。微调的目标是让模型学会预测哪些工具调用是有用的,以及如何将工具返回的结果融入到后续的文本生成中。
• Toolformer 使用的工具:论文中展示了 Toolformer 可以学习使用的多种外部工具,包括:
◦ 问题回答 (Question Answering):用于回答自然语言提出的问题。
◦ 维基百科搜索 (Wikipedia Search):用于检索维基百科上的相关信息。
◦ 计算器 (Calculator):用于执行数学计算。
◦ 日历 (Calendar):用于获取当前的日期和时间信息。
◦ 机器翻译 (Machine Translation):用于将文本从一种语言翻译成另一种语言。
• Toolformer 的评估:论文在多个基准数据集上评估了 Toolformer 的性能,包括:
◦ LAMA 基准:用于评估模型对世界知识的掌握程度。Toolformer 在这个基准的多个子集上都取得了显著的性能提升,即使在禁用维基百科搜索的情况下,也优于基线模型,而在启用维基百科搜索后,性能更是大幅提高。
◦ 数学数据集 (ASDiv, SVAMP, MAWPS):用于测试模型的数学推理能力。Toolformer 通过使用计算器工具,在这些数据集上取得了明显的改进。
◦ 日期推理数据集 (DATESET):这是一个新的合成数据集,用于评估模型在处理与日期相关的问题时的能力。Toolformer 通过调用日历工具,能够准确地回答各种日期相关的问题。
• 有用性分析:论文还对学习到的工具调用进行了详细的分析,揭示了 Toolformer 如何以及何时选择使用不同的工具。例如,它发现模型学会了在需要特定事实时使用问题回答和维基百科搜索,在需要进行计算时使用计算器,以及在处理跨语言信息时使用机器翻译。
• 与相关工作的比较:论文将 Toolformer 与其他利用外部知识或工具增强语言模型的方法进行了比较,强调了 Toolformer 自监督学习方法的创新性,因为它避免了对工具使用的人工标注。
• 结论与未来方向:论文总结认为,Toolformer 证明了大型语言模型可以通过自监督学习有效地利用外部工具来增强自身的能力,从而在各种任务中取得更好的性能。作者认为,这种方法为构建更强大、更通用的语言模型开辟了新的方向。
总而言之,论文 “2302.04761v1.pdf” 提出了 Toolformer 这一新颖的框架,它允许大型语言模型以自监督的方式学习使用各种外部工具,从而显著提升了模型在知识密集型问答、数学推理和日期推理等任务上的性能。Toolformer 的核心贡献在于其自监督学习方法,这使得模型能够自主地决定何时以及如何利用工具来改进自身的预测,而无需人工干预。
这篇论文的核心是提出了一个名为 Reflexion 的新框架,旨在通过自我反思来增强语言模型在复杂任务中的推理和行动能力。
该论文主要内容:
• Reflexion 的核心思想:Reflexion 框架的关键在于让 Agent 能够从过去的失败中学习,通过分析其推理过程和行动轨迹,并在后续的尝试中改进策略1。这个自我反思的过程是由语言模型自身生成的。反思的结果会作为一种记忆(memory)添加到 Agent 的短期记忆中,从而影响其后续的决策过程。
• 基于自我反思的强化学习:论文提出了一个基于自我反思的强化学习算法(Algorithm 1),其主要步骤包括:
◦ 初始化 Actor(负责生成行动)、Evaluator(负责评估任务完成情况)和 Self-Reflection 模块(负责生成反思),它们都由大型语言模型构成。
◦ Agent 根据当前策略生成初始的任务执行轨迹。
◦ 使用 Evaluator 评估该轨迹的成功与否。
◦ 使用 Self-Reflection 模块基于之前的轨迹和评估结果生成自我反思文本。
◦ 将该反思文本添加到 Agent 的短期记忆中。
◦ 重复上述过程,Agent 在后续的尝试中会受到其历史经验(包括反思)的影响。
• Reflexion 的应用领域:论文主要探讨了 Reflexion 在以下两个领域的应用:
◦ 决策制定(Decision-making):在 ALFWorld 这种需要与环境交互的任务中,Agent 需要找到物体、操作它们并完成给定的目标。Reflexion 允许 Agent 在多次尝试失败后,反思其规划和行动中的错误,并在下一次尝试中采取更有效的步骤。
◦ 编程(Programming):Reflexion 被应用于代码生成任务,目标是根据自然语言描述生成正确的 Python 和 Rust 代码。通过执行生成的代码并获取单元测试的反馈,Agent 可以反思其代码中的错误,并尝试生成更符合要求的代码4。论文还引入了一个新的交互式编程基准 LeetcodeHardGym 来评估模型在更具挑战性的编程问题上的表现。
• Reflexion 的性能评估:论文在多个基准数据集上评估了 Reflexion 的性能,并取得了显著的提升:
◦ ALFWorld:表 4 的结果表明,相较于没有自我反思的基线模型(Base),Reflexion 显著提高了 Agent 在各种决策任务上的成功率。
◦ 编程任务:表 1 显示,在 HumanEval (PY & RS) 和 Leetcode Hard (PY) 等代码生成基准上,Reflexion 实现了比基线模型更高的 Pass@1 准确率。在 MBPP (PY) 上,Reflexion 的性能略低于当时的 SOTA,但仍高于基线水平。表 2 进一步对比了 Base 和 Reflexion 在编程任务中的 TP、FN、FP、TN 等指标。
◦ HotPotQA:表 5 展示了 Reflexion 相对于 “CoT (GT)” 在 HotPotQA 上的性能提升。
• 失败分析与自我修正:论文通过 ALFWorld 的示例清晰地展示了自我反思如何帮助 Agent 识别其初始计划的缺陷,并为下一次尝试制定更好的策略3。在编程任务中,自我反思有助于 Agent 发现并修正其代码中基于错误假设的缺陷6。YouTube 视频的转录也提供了一个类似的例子,模型在第一次使用 ReAct 框架解决问题失败后,通过反思意识到关键词错误并成功解决了问题2。
• 消融实验:论文进行了消融实验,例如在编程任务中移除了自我反思模块(”Reflexion no Self-Reflection”)和单元测试生成模块(”Reflexion no test generation”),以评估这些组件对性能的贡献7。这些实验表明,自我反思和测试反馈对于 Reflexion 在编程任务中的有效性至关重要。
• 与 ReAct 的联系:论文的 Excerpt D.3 展示了 Reflexion 可以与 Chain-of-Thought (CoT) 结合应用于 HotPotQA8,这表明 Reflexion 可以增强像 ReAct 这样依赖推理的框架。YouTube 视频的转录也提到模型在第一次尝试中使用了 ReAct 框架2。这暗示 Reflexion 可以被视为一种更高级的学习机制,它可以应用于不同的基础框架(如 ReAct 或 CoT),使其具备从经验中学习和改进的能力。
• 结论:论文总结认为,Reflexion 是一个有效的框架,它通过赋予语言 Agent 自我反思的能力,使其能够从失败中学习并持续改进其在需要复杂推理和 последовательных действий 的任务中的表现,例如在具身环境中的导航和操作以及代码生成。
总而言之,论文 “2303.11366v4.pdf” 主要介绍了 Reflexion 框架,它通过让语言模型具备自我反思的能力,显著提升了其在决策制定和编程等复杂任务上的性能。Reflexion 的核心在于其能够使 Agent 从过去的经验中学习,并在后续的尝试中调整策略,从而更有效地完成目标。
这篇论文主要介绍了 MALT (Multi-Agent Language modeling with Tree Search) 框架。MALT 的核心思想是利用一个由多个语言模型组成的智能体系统(生成器、验证器和改进器)进行协同工作,并通过树搜索的方式来增强语言模型在复杂推理任务中的表现,特别是数学问题求解。
该论文主要内容:
• 多智能体框架:MALT 框架包含三个核心智能体:
◦ 生成器 (Generator, G):负责生成初始的推理路径或答案。
◦ 验证器 (Verifier, V):负责评估生成器输出的质量和正确性。
◦ 改进器 (Refiner, R):负责根据验证器的反馈对生成器的输出进行改进和修正。
• 基于树搜索的推理过程:MALT 通过一种树搜索的方法探索不同的推理路径。对于给定的问题 (q),生成器生成多个初始输出 (gi,j)。然后,每个生成器的输出都会被多个验证器评估 (vi,j,k)。最后,每个验证器的评估结果会引导改进器生成多个精炼后的答案 (ri,j,k,l)。这个过程形成了一个树状结构。
• 奖励模型:论文使用一个基于训练集中真实答案的奖励模型 (R) 来评估最终改进答案的正确性,输出奖励值为 1(正确)或 0(错误)。
• 值函数和值传播:每个树节点(改进器输出、验证器输出、生成器输出)都关联着一个值函数 (V),表示其下游节点的预期正确性。这个值通过蒙特卡洛估计从叶子节点(改进后的答案)的奖励反向传播到树的根节点(生成器的初始输出)。
• 阈值化和二值化:为了进行后续的训练,节点的值会被阈值化并二值化。如果一个节点的值大于 0.5,则被认为是“正确” (✓),否则为“错误” (×)。这类似于多数投票机制。
• MALT 的后训练:利用树搜索过程中收集到的带有值的输出,MALT 对生成器、验证器和改进器进行后训练 (post-training)。这个过程主要使用两种方法:
◦ 监督式微调 (Supervised Finetuning, SFT):对于被标记为“正确”的输出,使用其数据进行监督学习,以鼓励模型生成类似的高质量输出。
◦ 直接偏好优化 (Direct Preference Optimization, DPO):通过构建偏好对(一个“正确”的输出和一个“错误”的输出),并使用 DPO 目标函数来优化模型,使其更倾向于生成“正确”的输出。
• 实验评估:论文在多个数学推理基准数据集(如 GSM8K、CSQA 和 MATH)上评估了 MALT 的性能。实验结果表明,MALT 相对于只使用生成器或其他简化版本的多智能体系统,能够显著提高数学问题求解的准确率。消融实验也证明了生成器、验证器和改进器这三个组件对于 MALT 取得最佳性能都是必不可少的。
• DPO 的有效性:实验结果还表明,在 SFT 的基础上使用 DPO 能够进一步提升 MALT 的性能,这说明利用负样本数据进行偏好学习的重要性。
• 定性案例分析:论文提供了定性的案例分析,展示了 MALT 中验证器如何识别生成器初始答案中的错误,以及改进器如何根据验证器的反馈进行修正,最终得到正确的答案。
与我们之前的讨论的联系:
• 与 Toolformer (2302.04761v1.pdf) 不同,MALT 主要关注于模型内部的协同工作和自我纠正机制,而不是依赖外部工具来获取信息或执行计算。尽管两者都旨在增强语言模型的能力,但采取了不同的策略。
• 与 Reflexion (2303.11366v4.pdf) 类似,MALT 也包含了自我评估和改进的思想。验证器在 MALT 中扮演着评估的角色,而改进器则类似于 Reflexion 中根据反思改进策略的机制。然而,Reflexion 主要是一个单智能体的框架,通过记忆历史经验进行反思;而 MALT 是一个多智能体系统,通过多个智能体之间的交互和树搜索来探索和验证推理路径。
总而言之,论文 “2412.01928v2.pdf” 提出的 MALT 框架通过引入多智能体协同和树搜索机制,以及有效的后训练方法(SFT 和 DPO),在数学推理任务上取得了显著的成果。该框架强调了通过内部的验证和改进过程来提升语言模型的推理能力。
这篇论文主要介绍了 Mobile-Agent-V,一个利用视频指导来增强移动设备自动化操作能力的框架。
Mobile-Agent-V 的核心思想是利用用户录制的任务操作视频作为丰富的、低成本的操作知识来源,通过多智能体协作的方式,使系统能够学习并自主执行移动设备上的任务。
该论文主要内容:
• 解决的问题:现有的 AI 驱动的自动化框架在移动设备操作方面面临挑战,主要是因为缺乏足够的操作知识。手动编写知识既费时又效率低下。Mobile-Agent-V 旨在通过利用视频指导来解决这个问题,提供了一种更有效、成本更低的方式来获取操作知识。
• Mobile-Agent-V 框架:该框架是一个多智能体协作系统,主要包括以下几个关键组件:
◦ 滑动窗口视频输入机制 (Sliding Window Video Input Mechanism):为了减少关键帧的冗余并保留关键信息,系统采用滑动窗口机制,每次只将关键帧的一个子集输入到决策智能体中。
◦ 视频智能体 (Video Agent):分析设备的当前状态,并自适应地向前移动滑动窗口,确保所选帧与当前的决策相关。
◦ 决策智能体 (Decision Agent):根据当前窗口内的视频内容、视频中的指令、当前设备屏幕截图、用户指令以及历史操作生成当前的操作。该智能体直接从视频内容中学习操作,而不是依赖内部的操作知识。
◦ 深度反思智能体 (Deep-Reflection Agent):对决策智能体生成的动作进行深入的验证和改进,以确保与演示的任务对齐,必要时进行错误纠正。该智能体通过长链的思考推理来分析视频并改进决策智能体的输出。
• 工作流程:
- 1. 系统首先从输入的任务演示视频中提取关键帧。
- 2. 开始时,滑动窗口位于关键帧序列的开头。
- 3. 在每个迭代步骤中,决策智能体基于当前窗口、视频指令、当前设备状态和用户指令生成一个动作。
- 4. 如果任务成功完成,则过程终止。否则,深度反思智能体会验证并改进该动作。
- 5. 改进后的动作在设备上执行,更新设备状态。
- 6. 视频智能体随后确定下一个滑动窗口的起始位置,动态调整观察范围。
- 7. 此迭代过程持续到任务完成或达到预定义的最大探索限制。
• 动作空间:Mobile-Agent-V 采用了与 Mobile-Agent-V2 相同的动作空间,包括点击 (Click)、滑动 (Scroll)、输入文本 (Type)、返回 (Back)、Home 键 (Home) 和完成任务 (Done)。为了应对某些 UI 页面中潜在的 XML 解析问题,还引入了通过文本点击 (click-by-text) 的补充操作。
• 评估:论文设计了一个需要广泛外部知识的基准来评估 Mobile-Agent-V 从视频中获取和应用操作知识的能力。该基准包含简单、普通和高级三种难度级别的指令。评估指标包括成功率 (SR)、完成率 (CR)、决策准确率 (DA) 和步数 (Step)。
• 实验结果:实验结果表明,Mobile-Agent-V 在各种难度级别的指令上都持续优于现有的基线方法(包括 AppAgent、Mobile-Agent-v1 和 Mobile-Agent-v2)。尤其在高级指令上,Mobile-Agent-V 的成功率显著提高。与人工标注知识的基线 (Human-Know.) 相比,Mobile-Agent-V 在高级指令上的性能差距很小,表明基于视频的学习是人工标注的可行替代方案,并且能够接近人类的效率。论文还指出,基线方法尽管在简单指令上表现良好,但在决策准确率方面较低,导致冗余操作。Mobile-Agent-V 通过有效地提取和应用基于视频的知识,克服了仅依赖内置操作规则的局限性。
• 关键贡献:
◦ 提出了 Mobile-Agent-V 框架,利用视频指导实现自主移动设备操作。
◦ 提出了滑动窗口策略和视频智能体来处理长上下文视频输入。
◦ 引入了深度反思智能体来提高决策准确率。
◦ 实验证明 Mobile-Agent-V 比现有框架性能提高高达 30%。
• 与我们之前的讨论的联系:
◦ Mobile-Agent-V 与 Reflexion (2303.11366v4.pdf) 都包含反思和改进的机制,Mobile-Agent-V 中的深度反思智能体扮演着类似的角色,通过分析历史操作和当前状态来改进后续的决策。然而,Reflexion 主要关注于单智能体通过文本反思进行学习,而 Mobile-Agent-V 是一个多智能体系统,通过视频信息和多个智能体的协作来完成任务。
◦ 与 Toolformer (2302.04761v1.pdf) 不同,Mobile-Agent-V 的主要知识来源是视频,而不是通过 API 调用外部工具获取信息。Toolformer 侧重于利用外部工具增强语言模型的能力,而 Mobile-Agent-V 则侧重于从视觉演示中学习操作知识。
◦ Mobile-Agent-V 与 MALT (2412.01928v2.pdf) 都是多智能体系统,但 MALT 主要应用于数学推理,通过生成、验证和改进推理路径来解决问题;而 Mobile-Agent-V 则专注于移动设备操作,通过视频指导和不同智能体的协作来执行任务。
总而言之,论文 “2502.17110v2.pdf” 提出的 Mobile-Agent-V 框架通过创新性地利用视频指导作为操作知识的来源,并结合滑动窗口机制和多智能体协作(视频智能体、决策智能体和深度反思智能体),在移动设备自动化任务中取得了显著的性能提升。这为 AI 智能体学习和执行复杂移动设备操作提供了一条新的有效途径。
当前(2025 年 3 月)AI Agent 标准接口的发展正处于一个充满活力和竞争的阶段,旨在解决不同大语言模型与外部工具和服务交互时的碎片化和不兼容问题。Anthropic 提出的模型上下文协议(MCP)是这一领域的重要尝试,。然而,包括 OpenAI、Google 和 LangChain 在内的其他主要参与者也在通过各自的技术和平台推动标准化。
MCP 由 Anthropic 于 2024 年底推出,旨在成为连接 AI 模型(尤其是大型语言模型)与外部数据源和工具的开放标准。其核心目标是取代目前各种模型和工具之间定制化的、一次性的集成方案,提供一个统一的 API 接口层 。Anthropic 将 MCP 比作大语言模型时代的“Type-C”接口,能够简化 AI Agent 的开发流程,提高不同模型和工具之间的互操作性。
MCP 基于客户端/服务器工作流,使用 JSON-RPC 进行通信。开发者可以创建专门的 AI/Agent “服务器”,任何兼容 MCP 的 “客户端”(如 AI 助手)都可以使用这些服务器。MCP 的关键特性包括工具发现、工具调用以及对资源和提示的支持。
尽管 MCP 具有潜力,但其大规模采用仍面临挑战。截至目前(2025 年初),OpenAI 等主要参与者尚未公开宣布支持 MCP 的计划。然而,开发者社区对 MCP 的兴趣正在增长,认为其是实现跨多个 AI 模型提供商互操作性的重要一步。Anthropic 也在积极推动 MCP 成为行业标准,并与多家公司合作进行集成。
这是 OpenAI 提供的一项功能,允许开发者向模型描述函数,模型可以智能地选择何时调用这些函数并返回调用所需的参数。OpenAI 最近通过结构化输出进一步简化了函数调用的使用。Function Call 使得 OpenAI 模型能够方便地与第三方工具集成,但其主要局限于 OpenAI 生态系统。尽管如此,许多开源模型也采用了与 OpenAI Function Call 类似的格式。
这是一个流行的开源框架,旨在帮助开发者使用大型语言模型构建应用,包括 AI Agent。LangChain 提供了一系列抽象和工具,用于提示工程、链式调用、记忆管理以及与各种数据源和工具的连接。LangChain 支持多种 LLM 提供商,并被广泛应用于构建各种 AI Agent 应用。LangChain 的方法侧重于工具链的抽象和流程管理,为开发者提供了高度的灵活性,但也可能需要更多的适配器开发。
谷歌的 Gemini API 也提供了函数调用(或称工具调用)功能。类似于 OpenAI 的 Function Call,Gemini API 允许开发者定义函数,模型可以生成结构化输出以调用这些函数。这使得 Gemini 模型能够与外部 API 和服务进行交互,增强其功能。然而,与 OpenAI 类似,Gemini API 的工具调用功能主要服务于谷歌的生态系统。
OpenAPI 规范是定义和描述 RESTful API 的行业标准。随着 AI 的发展,有人提议通过扩展 OpenAPI 规范来更好地支持 AI 模型的集成和交互。这种方法旨在创建一个通用的、跨模型和跨工具的标准化协议。然而,这一领域尚不成熟,缺乏实际部署案例。
微软也推出,旨在为 .NET 开发者提供统一的 AI 服务 API 抽象,支持不同的 AI 提供商。
不同的解决方案各有优势和局限性,许多方案仍然与特定的生态系统紧密相关。未来,随着 AI Agent 应用的普及,我们可能会看到不同标准之间的融合或更广泛的互操作性,最终目标是为开发者提供更便捷、高效的方式来构建功能强大的 AI Agent。
| 技术 | 核心类比 | 适用场景 | 局限性 |
| MCP | 统一 LLM 与工具的协议层 | 跨厂商模型与工具的高效集成 | Anthropic 私有,需生态支持 |
| OpenAI Function Call | 模型内置工具调用标准化 | OpenAI 模型与第三方工具的快速整合 | 仅限 OpenAI 生态 |
| LangChain | 工具链抽象与流程管理 | 自定义 Agent 开发,支持多模型 | 依赖框架,需适配器开发 |
| Google Gemini API | 生态内统一工具调用 | Google 服务与模型的深度整合 | 封闭生态,扩展性有限 |
| OpenAPI + AI 扩展 | 通用 API 标准与工具描述 | 跨模型、跨工具的标准化协议 | 尚未成熟,缺乏实际部署案例 |
GAIA(通用AI助手基准)是一个旨在评估AI智能体能力的基准数据集。与侧重于人类难以完成的任务的传统基准不同,GAIA 专注于对人类来说概念简单,但需要 AI 系统展现基本能力的现实世界问题。
GAIA 的关键特点:
- • 多层次难度: GAIA 将任务分为三个难度级别,以评估 AI 在不同复杂程度下的表现 :
- • Level 1 (简单): 通常需要少于 5 个步骤和少于 1 个工具来解决。
- • Level 2 (中等): 需要 5-10 个步骤,可能涉及多个工具。
- • Level 3 (复杂): 可能需要任意数量的步骤和工具。
- • 考察多种能力: GAIA 旨在测试 AI 智能体的多种核心能力,包括网页浏览、信息检索、多模态处理(例如,文本、图像、音频)、代码编写、数据分析和文件读取等。
- • 评估方法: GAIA 不仅评估答案的正确性,还评估 AI 系统得出答案的方法。
- • 性能差距: 目前,包括 GPT-4 在内的主流 LLM 在 GAIA 的高难度任务上与人类水平(人类在 GAIA 上的准确率约为 92%)仍存在显著差距。例如,即使配备了插件,GPT-4 在最简单的任务上的成功率也未超过 30%,而在最难的任务上则为 0%。
- • 基准意义: GAIA 被认为是评估通用人工智能(AGI)的重要基准,因为它侧重于 AI 在实际场景中的通用智能和问题解决能力,而不仅仅是特定领域的专业知识。
GAIA 的结果表明,尽管大型语言模型在某些专业领域已经超越人类,但在面对需要综合运用多种基本能力来解决的现实世界问题时,AI 智能体仍然面临巨大的挑战,开发出能够像人类一样通用地处理任务的 AI 仍然是一个重要的研究方向。
为了简化开发和部署过程,AI 代理框架应运而生。这些框架是专门为促进自主代理创建的平台、工具或库。它们通过提供模块化组件来实现感知、规划、行动执行和记忆管理等基本功能,从而简化了代理的工作流程,使开发人员能够专注于其应用程序的独特方面和定制。通过提供预构建的组件和标准化的接口,框架抽象了复杂性,将复杂的任务分解为更易于管理的步骤,并确保所开发的 AI 代理系统的可扩展性。这缩短了开发时间并降低了工作量,使得构建和部署复杂的 AI 代理系统变得更加容易。
OpenManus 的主要特点包括多代理系统,该系统利用协作式 AI 代理协同解决复杂任务。它采用 Docker 化环境,通过容器化实现简易的设置和部署。OpenManus 支持各种任务执行,例如旅行规划、数据分析和内容生成。此外,它还具备工具集成能力,能够集成网络浏览、代码执行和数据检索等工具。其模块化设计使得框架易于扩展,可以方便地添加新的代理、工具或功能。OpenManus 秉承社区驱动的理念,鼓励社区成员贡献和改进 8。
OpenManus 采用了现代化的模块化和容器化架构,其核心技术栈包括 Docker、Python 和 JavaScript 8。这种设计赋予了框架高度的灵活性、可扩展性和易维护性。该架构主要由后端容器、前端容器和 API 服务器构成。后端容器是整个系统的核心,负责运行多代理系统和集成工具,其配置位于 docker/unified/ 目录下,包括 Dockerfile 和 start.sh 脚本,并通过 5000 端口暴露 API 9。前端容器则用于托管用户友好的 Next.js Web 界面,其配置位于 docker/frontend/ 目录下,运行在 3000 端口 9。API 服务器作为后端容器的一部分 (src/server.py),主要负责管理任务的委托和执行。模块化设计确保了系统能够轻松地扩展新的代理、工具或功能,从而促进开发人员的创新和定制 8。
OpenManus 的成功运行依赖于多个关键软件。首先是 Docker(版本 20.10 或更高),用于实现容器化。其次是 Docker Compose(版本 1.29 或更高),用于管理多容器 Docker 应用程序。Node.js(版本 20.18 或更高)主要用于前端的本地开发。Python(版本 3.9 或更高)对于后端逻辑和工具的实现至关重要。最后,Git 用于版本控制、克隆存储库和参与项目贡献 8。这些依赖项反映了 OpenManus 所选择的技术栈以及构建和运行该框架的要求。
凭借其灵活的架构和强大的工具集成能力,OpenManus 可有效用于构建各种 AI 应用程序,包括能够处理复杂对话的复杂聊天机器人和虚拟助手、用于情感分析或文档分类等任务的高级文本分类系统、实现各种自然语言处理(NLP)模型和机器学习算法(例如语言翻译或预测建模),以及通过集成相关的库和工具来开发计算机视觉应用程序 10。除了这些通用应用程序之外,OpenManus 在许多具体用例中也展现出潜力,例如从 PDF 文档中提取关键信息、比较多个临床试验的结果、生成带有数据可视化的综合研究报告、规划详细且个性化的旅行行程、进行深入的股票市场趋势分析、创建针对特定学习需求的教育材料,以及比较保险政策以提供清晰的推荐表 10。这些多样化的示例突显了 OpenManus 在解决广泛现实世界问题方面的多功能性。
洞察 1: OpenManus 明确旨在复制 Manus AI,这表明开源社区正努力实现尖端但通常是专有的 AI 代理技术的普及。OpenManus 在围绕 Manus AI 的热议之后迅速出现,表明市场对这种易于访问的替代方案存在强烈的需求。
- • 思维链: Manus AI 最初仅通过邀请方式提供,这为渴望探索其功能的开发人员和研究人员设置了门槛。OpenManus 的开源特性直接解决了这个限制,提供了对类似功能的即时且无限制的访问。这反映了 AI 社区内更广泛的开源运动,该运动高度重视协作、透明和共享创新的原则。OpenManus 的快速开发和发布突显了社区希望利用和构建在专有代理所展示的进步之上的愿望。
洞察 2: OpenManus 的技术栈(Docker、Python、JavaScript)指向一种现代化的、以 Web 为中心的 AI 代理开发方法,利用容器化实现可移植性和易于部署。
- • 思维链: Docker 的采用确保了 OpenManus 可以在各种操作系统上的不同机器中轻松部署和运行,简化了用户的设置过程并减少了依赖项冲突。Python 在 AI 和机器学习领域中的突出地位使其成为框架核心逻辑和工具实现的自然选择。前端包含 JavaScript 和 Next.js 表明专注于提供用户友好的 Web 界面以与 AI 代理交互,这与通过直观界面使复杂 AI 技术更易于访问的趋势一致。
OWL 被定位为一个尖端的框架,专门用于多代理协作,其主要目标是在实际场景中实现更自然、高效和稳健的任务自动化 13。它基于 CAMEL-AI 框架构建,这暗示了对结构化和通信式代理交互的重视。
OWL 拥有一系列全面的核心功能,包括强大的在线搜索能力,支持包括 Wikipedia、Google、DuckDuckGo、Baidu 和 Bocha 等在内的多个搜索引擎,用于实时信息检索和知识获取;先进的多模态处理能力,能够处理互联网或本地的视频、图像和音频数据;强大的浏览器自动化功能,利用 Playwright 框架模拟各种浏览器交互(滚动、点击、输入处理、下载、导航);高效的文档解析功能,能够从各种文件格式(Word、Excel、PDF、PowerPoint)中提取内容并将其转换为文本或 Markdown;以及使用集成解释器编写和执行 Python 代码的能力 14。这些功能共同赋予了 OWL 处理需要多种功能的复杂任务的能力。
OWL 的架构设计围绕多代理协作的原则展开,旨在促进能够有效解决现实世界问题的动态代理交互 14。基于 CAMEL-AI 框架很可能为定义代理角色和通信协议提供了结构化的方法。
该架构通常涉及协同工作的不同类型的代理,包括负责分解高级任务的用户代理、创建执行策略并与工具交互的助手代理,以及连接到外部 API 和服务以检索和处理数据的工具代理 16。这种责任划分使得能够以更有组织和更有效的方式解决复杂的任务。
要运行 OWL,需要兼容的 Python 版本(特别支持 3.10、3.11 或 3.12)。该框架利用标准的 Python 包管理器 pip 或 uv 来安装必要的依赖项,这些依赖项通常列在项目存储库中的 requirements.txt 文件中 14。这些依赖项可能包括用于网络抓取、浏览器自动化以及与不同 LLM 后端交互的库。
OWL 通过支持各种 LLM 后端展现了其灵活性,包括 OpenAI 的著名模型(强烈推荐 GPT-4 或更高版本)、Qwen、DeepSeek,以及通过 Ollama 集成本地 LLM 和 Azure OpenAI 的能力 14。这种广泛的兼容性允许用户根据其特定需求和资源可用性利用不同的模型。
LLM 的选择对代理的整体能力有着重要的影响,尤其是在工具调用(有效使用外部工具的能力)和多模态理解(解释和处理图像和视频等不同类型数据的能力)等领域 14。对 OpenAI 的 GPT-4 的推荐表明,它目前为需要这些高级功能的复杂任务提供了卓越的性能。
虽然提供的代码片段没有提供具体用例的详尽列表,但 OWL 支持的丰富功能表明其适用于广泛的领域。这些可能包括自主网络研究和信息收集、可能涉及多模态数据的复杂内容生成任务、各种基于网络的自动化工作流程(例如数据提取或表单提交)、复杂的文档分析和处理以及执行代码以用于各种开发或分析目的 14。该框架对多代理协作的关注使其特别适合需要多个专业 AI 代理之间协调和信息共享的任务。
洞察 3: OWL 基于 CAMEL-AI 框架,这暗示着它侧重于结构化的、角色扮演式的代理交互,从而可能实现更可预测和可控的多代理协作。
- • 思维链: CAMEL-AI 框架以强调遵循特定角色和指令的通信代理而闻名。通过在此基础上构建,OWL 很可能继承了定义清晰的代理职责和交互协议的机制。这种结构化的方法可以带来更可靠和更易于管理的多代理系统,尤其是在需要协调行动的复杂工作流程中。用户代理、助手代理和工具代理的使用进一步支持了这种结构化的协作模型。
洞察 4: 强烈推荐使用 OpenAI 的 GPT-4(或更高版本)凸显了高级 LLM 能力的重要性,尤其是在工具调用和多模态处理方面,以便在复杂的 AI 代理任务中实现高性能。
- • 思维链: 虽然 OWL 在支持各种 LLM 后端方面提供了灵活性,但对 GPT-4 的明确推荐表明,其在理解和利用外部工具方面的先进能力以及处理不同数据模式方面的熟练程度,对于充分发挥 OWL 框架的潜力至关重要。这暗示着,当前用于复杂任务的 AI 代理技术在很大程度上受益于最先进的 LLM,尤其是那些在推理和与外部系统交互方面表现出色的 LLM。
MOFA(Modular Framework for Agents)通过采用基于组合的方法来构建 AI 代理而脱颖而出,其中复杂的代理可以通过组装和分层模块化模板来构建 18。这种“构建块”方法提高了可重用性并简化了复杂代理系统的创建。
该框架非常强调模块化,确保代理组件是独立且可互换的;通过“乐高积木”式的逻辑实现系统组装的清晰性;通过组合简单的代理来创建更强大的“超级代理”;以及通过零代码方法构建复杂代理的简洁性 18。这种对易用性和灵活性的关注使得 MOFA 成为各种编码专业水平的开发人员的有吸引力的选择。
MOFA 的架构旨在支持各种 AI 代理设计模式,包括 LLM 推理和自定义提示等基本模式,以及更高级的模式,如 反思(用于自我审查和改进)、Actor(用于工具和资源利用)、ReAct(结合反思和工具使用)和多代理协作 18。对各种设计模式的支持为开发人员提供了选择最适合其特定代理应用程序的方法的灵活性。
与许多工作流 Workflow 驱动的框架不同,MOFA 采用数据流 Dataflow 驱动的方法,该方法侧重于数据元素之间的依赖关系,而不是预定义的步骤序列。这种方法简化了系统结构并增强了其模块化,使其更易于理解和修改。
MOFA 目前利用 Dora-RS 框架进行代理开发。Dora-RS 被描述为高性能、低延迟的分布式 AI 和机器人计算环境,这表明 MOFA 旨在擅长于资源密集型应用程序,并且在速度和效率方面可能优于传统的基于 Python 的环境 18。对 Dora-RS 的依赖表明专注于构建健壮且可扩展的代理系统。
MOFA 的主要依赖项似乎是核心 mofa-ai Python 包,可以使用 pip 通过命令 pip3 install mofa-ai 轻松安装 19。鉴于其对 Dora-RS 框架的依赖,可能存在与 Dora-RS 本身相关的其他依赖项,这些依赖项可能在 MOFA 存储库的 python 子目录中的 README 文件中详细说明 18。打算使用 MOFA 进行开发的开发者应查阅此文档以获取所需库和设置说明的完整列表。
MOFA 的核心技术栈包括 Python(用于框架的实现)和 Dora-RS(作为底层计算环境),提供了高性能能力 18。这种技术选择表明专注于构建高效且可扩展的 AI 代理系统。
MOFA 的设计也着眼于实现边缘 AI 应用。这通过其与专注于本地模型推理(直接在设备上运行 AI 模型)的 MoXin 项目以及为 AI 应用程序提供用户界面的 MoLy 项目的集成来实现 18。通过与这些相关项目协同工作,MOFA 旨在使 AI 应用程序更易于访问和普及,将其覆盖范围扩展到传统的基于云的部署之外。
虽然提供的代码片段没有提供特定用例的详细分类,但 MOFA 的特性和支持的设计模式表明其适用于广泛的 AI 代理应用程序。这些可能包括构建需要高性能计算的复杂机器人代理、开发需要在资源有限的本地环境中运行的边缘 AI 解决方案、创建用于复杂任务协调的多代理系统,以及实现利用高级推理模式(如反射和 ReAct)以提高输出质量的代理 18。该框架的模块化和对各种设计模式的支持使其能够适应各种问题领域。
洞察 5: MOFA 强调使用零代码方法构建复杂代理,这表明它有可能被具有不同技术专业知识的用户广泛采用,从而降低创建复杂的 AI 代理系统的门槛。
- • 思维链: 该框架的“乐高积木”式逻辑以及零代码开发的既定目标暗示着 MOFA 可能提供了一种更直观或声明式的方式来定义和组装 AI 代理,而不是需要编写大量的代码。这可以使那些具有领域专业知识但编码技能有限的个人能够创建自定义 AI 解决方案,从而可能加速 AI 代理在不同行业的采用。
洞察 6: 对 Dora-RS 框架的依赖表明专注于性能和可扩展性,尤其是在分布式 AI 和机器人应用方面,这表明 MOFA 可能非常适合资源密集型任务或边缘计算环境中的部署。
- • 思维链: Dora-RS 作为一个为 AI 和机器人技术优化的分布式计算环境,很可能为 MOFA 提供了处理复杂计算并跨多个设备或节点扩展代理部署所需的基础设施。这使得 MOFA 成为一个能够支持高级代理应用程序的框架,这些应用程序在性能和可扩展性至关重要的领域(例如自主系统和大规模数据处理)中运行。
Manus AI 被誉为由中国初创公司 Butterfly Effect(http://Monica.im)开发的突破性“通用 AI 代理”,声称是世界上第一个真正自主的 AI 代理,能够以最少甚至无人为干预的方式完成从启动到完成的复杂任务 21。这种自主性水平使其区别于许多其他通常需要更多逐步指导的 AI 助手。
实现这种自主性的关键特性包括独立执行复杂任务的能力,例如撰写报告、创建电子表格和表格、进行深入的数据分析、生成各种格式的内容、规划详细和个性化的旅行行程以及高效地处理文件,通常具有异步执行功能,即使在用户的设备离线时也能继续执行任务 21。此外,Manus AI 拥有多模态能力,使其能够处理和生成包括文本、图像和代码在内的各种数据类型,从而增强了其在不同应用中的多功能性 21。其功能的一个重要方面是其先进的工具调用,能够与外部工具(例如用于实时信息检索的网络浏览器、用于 AI 辅助编程的代码编辑器和用于处理结构化数据的数据库管理系统)无缝集成,使其非常适合业务工作流程自动化 21。最后,Manus AI 融入了自适应学习和优化机制,持续从用户交互中学习以改进其流程,并随着时间的推移提供越来越个性化和高效的响应 21。
与通常依赖于单个大型语言模型的传统聊天机器人不同,Manus AI 的架构基于复杂的多代理系统。这涉及使用多个 LLM 和其他独立运行的软件组件来协作自主地处理各种任务 22。这种方法允许 Manus 将复杂的问题分解为更小、更易于管理的子任务,并将它们分配给系统内最适合执行该特定子任务的专业子代理,从而实现高效和协调的执行 24。这种多代理设计是 Manus 实现高度自主性及其处理各种复杂工作流程能力的关键因素。
Manus AI 在 GAIA 基准测试中表现出了卓越的性能,这是一个旨在评估通用 AI 助手在实际场景中能力的严格测试。报告显示,Manus 在此基准测试中优于包括 OpenAI 的 GPT-4 在内的其他领先 AI 模型,尤其是在自主任务执行、问题解决和整体实际应用方面 9。Manus 在 GAIA 上的卓越表现突显了其在处理需要推理、工具使用和信息综合的复杂多步骤任务方面的先进能力。虽然与 ChatGPT 等模型相比,Manus 通常提供更详细和全面的响应,但由于其更深入的研究和处理,生成这些响应可能需要更长的时间 22。这表明响应速度与输出的深度和质量之间存在权衡。
Manus AI 的自主性和多模态能力使其适用于众多领域和应用的广泛用例。这些包括生成详细且个性化的旅行行程,其中考虑了预算、偏好和外部条件等各种因素;制作关于各种主题的深入分析报告;从简单的提示开发交互式 Web 游戏;协助关键业务流程,例如简历筛选和候选人评估;进行彻底的房地产市场研究和分析;执行复杂的财务评估并生成投资见解;通过创建量身定制的学习材料来支持教育目的;以及促进跨不同媒体格式的内容创建 21。Manus AI 的多功能性使其成为个人用户和寻求自动化复杂工作流程并提高生产力的企业具有变革潜力的工具。
洞察 7: Manus AI 强调完全自主及其在 GAIA 基准测试中报告的卓越性能,这表明 AI 代理可能会朝着减少人为干预的方向发展,并且能够比传统的 AI 助手或聊天机器人更有效地处理复杂的现实世界任务。
- • 思维链: GAIA 基准测试专门用于测试 AI 系统在对人类来说概念简单但对 AI 来说具有挑战性的任务中的表现,这些任务需要推理、多模态处理、网络浏览和工具使用等能力。Manus 声称在该基准测试中处于领先地位,这表明在实现更通用和自主的 AI 能力方面取得了重大进展,可能代表了人工通用智能(AGI)未来发展方向的一瞥。这暗示着 AI 的发展正从主要辅助人类转向能够真正自主地采取行动以实现目标的 AI。
洞察 8: Manus AI 的多代理架构利用了多个 LLM 和专门的软件,这预示着 AI 代理设计正朝着更复杂和分布式的系统发展,这些系统可以利用不同 AI 模型和工具的优势来完成更大目标中的各种子任务。
- • 思维链: 通过采用多代理方法,Manus 可以将复杂的任务分解为更小、更易于管理的组件,并将每个组件分配给最适合该特定子任务的专门代理。这种架构允许更高效和更稳健的问题解决过程,有可能克服单模型 AI 系统的局限性。这标志着 AI 的发展正朝着能够协调各种能力以实现复杂目标的更精细的设计迈进,类似于人类团队如何与不同领域的专家协作。
LangChain 是一个开源框架,旨在帮助开发人员使用大型语言模型(LLM)构建应用程序,通过利用公司数据和 API 实现上下文感知和推理应用程序。它提供了一个灵活的架构,允许链接多个语言模型交互并集成外部数据源和工具。LangGraph 构建于 LangChain 之上,是一个用于创建可控的代理工作流程的编排框架,具有状态管理和人工参与支持等功能,从而增强了 AI 代理执行的可靠性和控制力。
AutoGPT 是一个开源 AI 平台,它利用 OpenAI 的 GPT 模型实现多步骤项目和复杂工作流程的自动化,旨在为其用户自动化重复性和复杂性任务 27。它允许 AI 代理使用 LLM 自主做出决策并采取行动,将高级用户目标分解为一系列子任务,然后尝试自主完成这些子任务,通常利用插件访问互联网和其他应用程序。AutoGPT 的特点包括内容生成、翻译、编码和数据分析自动化 28。
BabyAGI 是一个简单的框架,用于使用 AI 管理任务,根据先前任务的结果和预定义的目标创建新任务 32。它利用 LLM 进行自然语言处理,并利用向量数据库(如 Pinecone 或 Chroma)提供记忆能力,使代理能够从过去的经验中学习并保持上下文。其架构围绕一个任务队列展开,任务在其中被动态地确定优先级并执行。BabyAGI 的核心是名为 functionz 的函数框架,该框架旨在存储、管理和执行数据库中的函数 37。
CrewAI 是一个开源 Python 框架,专门用于促进多代理 AI 系统的开发和管理。它通过分配特定的角色、实现自主决策以及促进代理之间的通信来改进这些 AI 系统,从而使它们能够比单独工作的单个代理更有效地解决复杂问题 38。该框架由一系列工具组成,包括网络搜索引擎和语言模型,使代理能够与外部世界交互、收集信息并采取行动以实现其目标。CrewAI 的特点包括代理编排、基于角色的架构、灵活的通信、工具集成和可扩展性 39。
AgentGPT 是一个平台,允许用户直接在其 Web 浏览器中创建和部署自主 AI 代理,无需复杂的安装或编码 43。用户可以通过提供名称和目标来定义自定义 AI 代理,并且该平台基于 Langchain 和 OpenAI 的底层技术使这些代理能够通过迭代任务执行和学习自主地追求定义的目标。AgentGPT 的主要功能包括用户友好的界面和对各种插件的支持以增强代理的功能。
Microsoft AutoGen 是微软研究院 AI 前沿实验室开发的一个开源编程框架。它旨在促进构建能够通过对话相互协作以解决复杂任务的 AI 代理系统 48。该框架支持代理之间的异步消息传递,具有高度的模块化和可扩展性,允许集成自定义组件(如代理、工具和内存),并提供内置的工具用于可观察性和调试。AutoGen 的一个关键特性是其对多样化对话模式的支持,使开发人员能够创建具有不同程度自主性和人工参与的复杂多代理工作流程。
比较分析与洞察
下表总结了所讨论的每个框架的主要特点、架构、依赖项、支持的模型(如果适用)和主要用例。
| 框架 | 主要特点 | 架构 | 依赖项 | 支持的模型 | 主要用例 |
| OpenManus | 多代理系统、Docker 化、任务执行、工具集成、模块化设计、社区驱动 | 模块化、容器化 (Docker, Python, JavaScript)、后端/前端分离、API 服务器 | Docker, Docker Compose, Node.js, Python, Git | 类似 GPT-4o 的 LLM | 复制 Manus AI、聊天机器人、虚拟助手、NLP/ML 应用、研究、数据分析、内容生成、旅行/股票分析 |
| OWL | 多代理协作、在线搜索、多模态处理、浏览器自动化、文档解析、代码执行 | 基于 CAMEL-AI、用户/助手/工具代理协作 | Python (3.10-3.12), pip/uv | OpenAI (GPT-4+), Qwen, DeepSeek, Ollama, Azure OpenAI | 协作式任务自动化、研究、信息检索、内容生成、基于 Web 的任务自动化 |
| MOFA | 模块化、可组合、支持各种 AI 代理设计模式、数据流驱动 | 基于组合、数据流驱动、支持 Dora-RS | pip (mofa-ai),可能与 Dora-RS 相关 | 未明确说明 | 构建模块化 AI 代理、机器人应用、边缘 AI |
| Manus | 自主任务执行、多模态能力、高级工具调用、自适应学习、多代理 | 多代理系统(多个 LLM 和软件组件) | 未明确说明 | 多个 LLM | 跨各种领域的自主任务执行(旅行、金融、内容创作、简历筛选、游戏/网站开发) |
| LangChain | 模块化、任务链、工具集成、记忆模块、代理 API、LangGraph 用于编排 | LLM 交互的可组合链、LangGraph 用于有状态工作流 | Python,取决于工具和 LLM 的各种集成 | 多个 LLM 提供商(OpenAI、Hugging Face 等) | 构建上下文感知和推理应用程序、聊天机器人、知识检索、语义搜索、网络抓取、复杂代理工作流 |
| AutoGPT | 自主任务执行、任务分解、通过插件访问互联网、记忆(短期/长期) | 多代理框架、任务创建/优先级排序/执行代理 | Python、Git、OpenAI API 密钥、可能需要其他 API 密钥用于插件 | OpenAI GPT 模型(GPT-4o mini、GPT-4、GPT-3.5) | 自动化重复/复杂任务、内容生成、翻译、编码、数据分析、市场研究、产品开发、财务分析 |
| BabyAGI | 自主任务创建、持续学习、任务优先级排序、记忆(向量数据库) | 任务队列、执行代理、任务创建代理、任务优先级排序代理、利用 functionz 框架 | Python、OpenAI API 密钥、Pinecone/Chroma(可选) | OpenAI GPT 模型 | 自动化研究、内容创建、项目管理、个人生产力提升、业务战略开发、客户支持 |
| CrewAI | 多代理编排、基于角色的架构、灵活的通信、工具集成、可扩展性 | 具有明确角色、目标和背景故事的代理团队,支持顺序或并行处理 | Python, crewai-tools (可选) | 各种 LLM(OpenAI、本地模型) | 协作问题解决、内容规划/创建、电子邮件自动化、股票分析、构建交互式登录页面、社交媒体推广 |
| AgentGPT | 基于浏览器的部署、自主目标追求、可定制代理、插件支持 | 基于 Web 的平台,代理通过名称和目标进行配置 | 需要 OpenAI API 密钥,可选 Serper/Replicate API 密钥 | OpenAI GPT 模型 | 自动化客户服务、管理日程安排、协助内容创作、语言翻译、文档摘要、创意写作 |
| Microsoft AutoGen | 多代理对话框架、异步消息传递、模块化/可扩展、可观察性、跨语言 | 事件驱动、分布式架构、核心/AgentChat/扩展层 | Python、.NET(初步支持)、可能还有其他语言正在开发中 | 多个 LLM 和 SLM | 构建基于多代理对话的下一代 LLM 应用、自动化复杂的 LLM 工作流 |
发布者:Ai探索者,转载请注明出处:https://javaforall.net/238861.html原文链接:https://javaforall.net
