万字读透:智能体(Agent代理)

万字读透:智能体(Agent代理)

随着LLM在复杂语义的理解、推理规划、工具使用的进步,基于llm的智能体开始逐渐普及。而26年初大火的openclaw,也体现了着智能体的突破性进展。

一文读懂:openClaw 分析与教程+免费大模型(Moltbot、Clawdbot) 二更

人在处理复杂任务时,往往需要借助工具补充知识;生成式AI模型亦是如此,通过训练具备工具使用能力后,可实现信息获取与任务执行——例如通过数据库检索提供个性化推荐,或发起API调用完成邮件发送、金融交易等操作。

万字读透:智能体(Agent代理)

要实现这类功能,大模型需满足两个核心条件:一是获得工具使用权限,二是具备自主规划能力。当模型集成了推理、逻辑判断与外部信息获取能力,能够自主调用工具完成复杂任务时,那便是智能体(Agent)。

智能体突破了传统单任务固定范式的AI模型能力边界,本文将深入探讨这些相关内容。本文将总结在过去一年里业界积累下来的Agent实战经验和技巧。

万字读透:智能体(Agent代理)

智能体(Agent)的定义多样。一些人认为它是完全自主的系统,可独立完成复杂任务;另一些人则认为它是遵循预定义工作流的实现。目前,基于LLM的AI Agent被广泛认可。其架构包括基础规划、工具使用等模块,通过感知、规划和行动(PPA)循环实现智能决策。

细说复旦大学智能体综述AI-Agent(二更)

可以将Agent视为人工智能大脑,它使用LLM进行推理、计划和采取行动。

万字读透:智能体(Agent代理)

业界有很多智能体系统,但在架构上,他们在工作流和智能体之间划分了一个重要的区别:

  • 工作流:是指通过预定义的代码路径对LLM和工具进行编排的系统,侧重于流程的设计和执行。
  • 智能体:是指LLM动态指挥其自身的流程和工具使用的系统,并保持对任务完成方式的控制权,侧重于大模型的分析调度能力。

接下来,本文将详细探讨这两种类型的智能体系统。

智能体的工作通常从用户指令或交互式讨论开始。在任务明确后,智能体独立规划并执行任务,并可能在执行过程中再次向用户寻求信息或判断支持。在运行过程中,智能体需要在每一步从环境中获取“真实情况”(如工具调用或代码执行的结果)来评估进展。在某些节点或遇到阻碍时,智能体可以等待用户的反馈。任务的终止条件可以是完成任务目标,也可以通过设置最大迭代次数等机制来确保运行受控。

AI Agent的诞生就是为了处理各种复杂任务的,就复杂任务的处理流程而言AI Agent主要分为两大类:行动类、规划执行类。

行动类Agent负责执行简单直接的任务,例如他们可以通过调用API来检索最新的天气信息。

Agent首先会制定一个包含多个操作的计划任务,然后按照顺序去执行这些操作。

这种方案对于复杂任务的执行而言是非常有用的,AutoGPT、BabyAGI、GPTEngineer等都是这样的例子。

同时Agent在执行计划时会有以下特别重要的两点:

1)反思与完善:Agent中设置了一些反思完善的Agent机制,可以让其进行自我批评和反思,与其它一些信息源形成对比,从错误中不断地吸取教训,同时完善未来的步骤,提供最终的效果和质量!

2)长期记忆:常见的上下文学习的提升工程项目都是利用模型的短期记忆来学习的,但是AI Agent则提供了长期保留和调用无限信息的能力,通常是利用外部的向量储存和快速检索来实现!

尽管智能体能够处理复杂任务,但现在的实现方式通常较为简单,主要通过LLM基于环境反馈循环调用工具。因此,清晰设计并精心文档化的工具集对于智能体的成功运行至关重要。有关工具开发的详细建议,请参阅附录2(“工具的提示词工程”)。

适用场景:自主智能体适合处理开放式问题,尤其是那些难以预测所需步骤或无法通过硬编码预设路径的任务。在这些场景中,LLM可能需要经过多轮交互完成任务,因此需要对其决策能力有足够的信任。自主智能体非常适合在可信环境中扩展任务。

AI Agent充当大语言模型的大脑,主要有以下几个关键组件进行补充:

  • 子目标和分解:代理将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。
  • 反思和完善:智能体可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
  • 短期记忆:我认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。
  • 长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。
  • 代理学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。
万字读透:智能体(Agent代理)

在使用LLM构建应用程序时,建议尽可能选择简单的解决方案,只有在必要时才增加复杂性。因此,某些情况下可能完全不需要构建智能体系统。

智能体系统通常需要在延迟和成本上做出妥协,以换取更高的任务性能。在决定使用智能体之前,需要仔细评估这种权衡是否值得。

任务复杂性较高时,工作流可以为明确的任务提供稳定性和一致性,而在需要灵活性以及大规模模型驱动决策的场景中,智能体则是更好的选择。

然而,对于多数应用场景,通过检索和上下文示例优化单次LLM调用通常已经足以满足需求。

目前有多种框架可以简化智能体系统的实现,包括:

  • LangGraph(LangChain提供的工具),
  • 亚马逊BedrockAI Agent框架
  • Rivet,一个拖放式的GUI工具,用于构建LLM工作流,
  • Vellum,另一款支持构建和测试复杂工作流的GUI工具。

这些框架通过处理底层的常规任务(如调用LLM、定义和解析工具、链式调用等),大大降低了开发难度。然而,它们也会增加额外的抽象层,可能掩盖提示词和响应的实际逻辑,从而增加调试难度。此外,这些框架可能让开发者倾向于引入不必要的复杂性,而简单的实现方式可能已经足够。

建议开发者优先直接使用LLM的API,许多功能可以通过简单的几行代码实现。如果选择使用框架,务必确保理解底层的实现逻辑,因为对底层机制的错误假设往往是开发中的主要问题之一。

从最基本的角度来看,生成式AI智能体是一种应用程序,它通过观察周围环境并运用各种可用工具来实现既定目标。智能体具有自主性,尤其是在明确目标后,能够独立于人类干预开展行动。在目标实现过程中,智能体表现出主动性特征。它能够自主推理下一步行动方案,即使没有人类的具体指令。

虽然AI领域中智能体的概念已较为成熟且应用广泛,本白皮书将重点关注当前生成式AI模型能够构建的特定类型智能体。为了深入理解智能体的运作机制,首先需要了解驱动其行为行动决策的基础组件。这些组件共同构成了认知架构,通过不同组件的组合可以实现多样化的架构设计。

如图1所示,智能体的认知架构主要包含三个核心组件:Model(模型)Tools(工具)Orchestration(编排层)

万字读透:智能体(Agent代理)
图1:通用智能体架构及其组件构成

在智能体框架中,大模型(LLM)是核心决策单元,可以是通用型、多模态型或特定微调的专用模型,规模和类型不一,支持如ReAct、CoT或ToT等推理和逻辑框架。

为达到最佳效果,应对比选择最适合目标应用场景且经过相关数据训练的模型。虽然模型通常未针对智能体的具体配置进行专门训练,但可通过示例优化其适应性。工具的引入使智能体能与外部数据和服务交互,执行如更新数据库或获取天气数据等操作,支持RAG等专业系统,扩展功能范围。编排层管理智能体的信息接收、推理和行动决策,其复杂性根据智能体类型和任务需求而变化,可能包括简单计算、链式逻辑或概率推理技术,将在认知架构部分详细讨论。总之,工具在连接智能体内部能力与外部世界方面发挥关键作用,为智能体开启更广阔的应用空间。

为了更清晰地理解智能体和模型的区别,可以从以下几个方面进行对比:

模型 智能体
知识范围 仅限于训练数据中包含的内容 可通过工具接入外部系统获取扩展知识
推理能力 仅能进行单次查询响应,除非特别设计,否则无法维护会话历史和上下文连续性 能够维护完整会话历史,支持基于用户查询和编排层决策的多轮对话
工具使用 不具备内置工具调用能力 在架构层面直接支持工具集成
逻辑处理 无内置逻辑处理层,需要用户通过简单问询或利用CoT、ReAct等推理框架构建复杂提示来引导预测 具备完整的认知架构,能够集成CoT、ReAct或LangChain等预置智能体框架

*注:在智能体语境中,一轮对话指的是系统接收一个查询并生成一个响应的完整交互过程。

  1. 上下文学习:在推理阶段提供提示词、工具和少样本示例,让模型实时学习工具使用。
  2. 基于检索的上下文学习:从外部存储检索相关信息和示例,动态构建模型提示词。
  3. 基于微调的学习:使用大规模特定示例数据集训练模型,使其在接收用户查询前理解工具使用。

通过烹饪类比理解这些方法:

  • 上下文学习:厨师根据顾客提供的菜谱、食材和参考菜品,实时思考如何制作菜品。
  • 基于检索的上下文学习:厨师在储藏室中选择合适的食材和参考资料,结合经验创造菜品。
  • 基于微调的学习:厨师通过专门学习新菜系获得专业知识,更好地应对烹饪要求。

这些方法在速度、成本和延迟方面各有优劣,但综合运用可以构建更可靠和灵活的解决方案。

接下来用厨师在餐厅繁忙工作的场景来比喻、理解智能体的运作方式。厨师的目标是为顾客准备美味菜品,这个过程涉及持续的计划、执行和调整:

  • 首先需要收集信息,包括顾客点单内容、储藏室和冰箱中的食材库存;
  • 然后基于收集到的信息进行内部分析,思考可以制作的菜品类型和口味搭配;
  • 最后付诸行动:切配食材、调配香料、煎炒烹饪。

在整个过程中,厨师会根据食材消耗情况和顾客反馈不断调整计划,并借鉴之前的经验来优化后续行动。这种信息获取、规划、执行调整的循环过程,正是厨师为实现目标而采用的独特认知架构。

智能体与厨师类似,也通过认知架构来实现其目标。它通过迭代式的信息处理、决策制定和基于先前输出的行动优化来完成任务。智能体认知架构的核心是编排层,负责管理记忆(memory)状态(state)推理(reasoning)规划(planning)等功能。它利用快速发展的提示词工程技术和相关框架来指导推理和规划,使智能体能够更有效地与环境交互并完成任务。

语言模型在提示词工程框架和任务规划领域的研究正在快速发展,已经产生了多种有前景的方法。虽然不是完整列表,以下是目前最受欢迎的几种框架和推理技术:

  • ReAct是一个提示词工程框架,为语言模型提供一种思维过程策略,可以对用户查询进行推理和采取行动,不论是否有上下文示例。实践证明,ReAct提示方式的性能超过了多个目前最优的基准,并提高了LLM的人机交互能力和可信度。
  • CoT是一个通过中间步骤实现推理能力的提示词工程框架。它包括多个子技术,如自我一致性(self-consistency)主动提示(active-prompt)多模态CoT,这些技术根据具体应用场景各有优势。
  • ToT是一个特别适合探索和战略前瞻任务的提示词工程框架。它在CoT提示的基础上进行了扩展,允许模型探索多条思维路径,作为语言模型解决通用问题的中间步骤。

智能体可以使用上述某一种推理技术或其他技术来为用户请求选择最佳的下一步行动。例如,对于一个使用ReAct框架来为用户查询选择正确行动和工具的智能体。其事件序列可能如下:

  1. 用户向智能体发出查询
  2. 智能体启动ReAct序列
  3. 智能体向模型提供提示词,要求生成下一个ReAct步骤及其对应输出: a. 问题:用户查询中的输入问题,与提示一起提供。 b. 思考:模型关于下一步行动的思考。 c. 行动:模型对下一步行动的决定 (i). 这里涉及工具选择 (ii). 例如,行动可以是[Flights, Search, Code, None]之一,前三个代表模型可选择的已知工具,最后一个表示“不使用工具”。 d. 行动输入:模型决定提供给工具的输入内容(如果需要)。 e. 观察:行动/行动输入序列的结果 (i). 这个思考/行动/行动输入/观察过程可能根据需要重复多次。 f. 最终答案:模型对原始用户查询的最终回答。
  4. ReAct循环结束,将最终答案返回给用户
万字读透:智能体(Agent代理)
图2. 编排层中使用ReAct推理的示例智能体

如图2所示,模型、工具和智能体配置协同工作,基于用户的原始查询提供有依据的简明回答。虽然模型可以基于已有知识推测答案(产生非真实信息),但它选择使用工具(Flights)来获取实时外部信息。这些额外信息被提供给模型,使其能够基于真实数据做出更明智的决定,并将这些信息总结反馈给用户。

智能体响应的质量与模型的推理和行动能力直接相关,包括选择正确工具的能力,以及工具定义的完善程度。就像厨师使用新鲜食材制作菜品并重视顾客反馈一样,智能体依靠合理的推理和可靠的信息来提供最佳结果。

接下来,将深入探讨智能体连接新数据的各种方式。

本节将介绍生产环境中智能体系统的常见设计模式。从基础构建模块——增强型LLM开始,逐步扩展至复杂度更高的组合工作流和完全自主的智能体。

智能体系统的核心构建模块是增强型LLM,它结合了检索(Retrieval)工具使用(Tools)以及记忆(Memory)等功能。目前的模型能够主动利用这些能力,例如生成搜索查询、选择适合的工具以及确定需要保存的重要信息。

万字读透:智能体(Agent代理)
图1:增强型LLM

在实际应用中,应重点关注两个方面:一是根据具体的业务场景对这些功能进行定制化;二是确保为LLM提供一个简洁且文档完善的接口。

实现这些增强功能的方法有多种,其中之一是利用最新发布的模型上下文协议(Model Context Protocol),通过这一协议,开发者可以使用简单的客户端集成到不断扩展的第三方工具生态系统中。

在后续内容中,将默认每次LLM调用都可访问上述增强功能。

提示词链式调用是一种将任务分解为一系列步骤的流程,其中每次LLM调用都会基于上一步的输出进行处理。在流程的任意中间步骤,可以加入程序化检查(如图2中的“门控”所示),以确保流程按照预期顺利推进。

万字读透:智能体(Agent代理)
图2:提示词链式调用的工作流

适用场景:这种工作流适合那些可以被清晰分解为固定子任务的场景。其核心目标是在延迟与更高的准确性之间找到平衡,通过简化每次LLM调用的复杂度来提升整体效果。

提示词链式调用的典型应用示例

  • 生成营销文案并将其翻译为其他语言。
  • 撰写文档的大纲,验证大纲是否符合特定标准,再基于大纲撰写完整文档。

路由是一种将输入分类并引导到特定后续任务的工作流。这种方法能够有效地分离关注点,便于针对不同输入类型设计更专业的提示词。如果不使用路由,优化某一类型输入时可能会影响其他输入的性能。

万字读透:智能体(Agent代理)
图3:路由工作流

适用场景:路由适合处理复杂任务,尤其是当任务包含可分别处理的不同类别,并且可以通过LLM或传统分类模型/算法准确完成分类时。

路由的典型应用示例

  • 将不同类型的客户服务请求(如常规问题、退款申请、技术支持)分别引导至对应的下游流程、提示词或工具。
  • 将简单或常见问题分配给较小的模型(如Claude 3.5 Haiku),将复杂或罕见问题分配给更强大的模型(如Claude 3.5 Sonnet),从而平衡成本与响应速度。

并行化是一种让LLM同时处理任务并通过程序汇总输出的工作流。这种方式通常有两种实现形式:

  • 分块:将任务拆分为相互独立的子任务,并行执行。
  • 投票:对同一任务运行多次,以获得多样化的视角或结果。
万字读透:智能体(Agent代理)
图4:并行化工作流

适用场景:当任务能够被分解成独立子任务以提升速度,或者需要通过多次尝试来增强结果置信度时,并行化是一种高效的工作流。对于涉及多个考量的复杂任务,让LLM分别处理每个考量,可以更专注地关注各自的具体内容,从而提升整体性能。

并行化的典型应用示例

  • 分块
    • 实现防护机制:一个模型实例负责回答用户查询,另一个实例同时筛查不适当内容或请求。将防护和核心任务分离处理的效果通常优于单一调用。
    • 自动化性能评估:在评估LLM表现时,每次调用分别评估模型对特定提示词的不同性能维度。
  • 投票
    • 代码漏洞审查:利用多个提示词从不同角度审查代码是否存在漏洞,并标记出潜在问题。
    • 内容适当性评估:通过多个提示词从不同角度对内容进行评估,并设定投票机制,如不同的通过门槛,以平衡误报与漏报的风险。

协调器-工作者工作流由一个中心LLM负责,它根据任务动态分解子任务,分派给多个工作者LLM处理,并最终整合所有工作者的结果。

万字读透:智能体(Agent代理)
图5:协调器-工作者工作流

适用场景:这种工作流非常适合处理无法预先确定子任务的复杂场景。例如,在编程任务中,需修改的文件数量及其具体修改内容通常取决于任务的具体要求。与并行化工作流类似,协调器-工作者的区别在于灵活性:子任务不是事先规划好的,而是由协调器根据输入动态生成。

协调器-工作者的典型应用示例

  • 编程工具:支持对多个文件进行复杂修改的任务,动态调整每个文件的修改内容。
  • 搜索任务:从多个信息来源中动态收集、分析数据,并提取最相关的信息。

评估器-优化器工作流通过一个LLM生成响应,另一个LLM对其进行评估并提供反馈,形成一个迭代循环。

万字读透:智能体(Agent代理)
图6:评估器-优化器工作流

适用场景:当任务有明确的评估标准且迭代优化能够显著提高质量时,这种工作流效果尤为突出。两个关键特征是:第一,LLM生成的响应在获得明确反馈后能够显著改进;第二,LLM可以自动生成这样的反馈。这种流程类似于人类作家通过多次修改完善文档的过程。

评估器-优化器的典型应用示例

  • 文学翻译:在翻译复杂文学作品时,翻译LLM可能无法初步捕捉其中的细微差别,而评估器LLM可以提供精准的修改建议。
  • 复杂搜索任务:在需要多轮搜索和分析的场景下,评估器判断当前信息是否足够全面,并决定是否需要进一步搜索和优化。

语言模型 (LLM) 仅限于它们所训练的知识,并且这些知识很快就会过时。(每天用最新信息重新训练这么大的模型是不可行的。)

以下是LLM的一些缺点:

1)会产生幻觉。

2)结果并不总是真实的。

3)对时事的了解有限或一无所知。

4)很难应对复杂的计算。

这就是AI Agent的用武之地,它可以利用外部工具来克服这些限制。

  • 编程智能体:处理SWE-bench任务,根据任务描述对多个文件进行复杂编辑。
  • “计算机使用”参考实现:智能体(如Claude)通过与计算机交互完成复杂任务,如数据处理或信息检索。
万字读透:智能体(Agent代理)
图8:编码智能体的High-Level工作流

智能体的工具就是代理用它来完成特定任务的一个插件、一个集成API、一个代码库等等,例如:

1)Google搜索:获取最新信息

2)Python REPL:执行代码

3)Wolfram:进行复杂的计算

4)外部API:获取特定信息

而LangChain则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。

为了展示一个可实际运行的智能体示例,将使用LangChainLangGraph库构建一个快速原型。

这两个广受欢迎的开源库允许用户通过串联逻辑序列、推理过程和工具调用来构建自定义智能体,以响应用户查询。将使用gemini-1.5-flash-001模型和一些基础工具来处理用户的多阶段查询,

如代码片段8所示,该示例中使用的工具包括SerpAPI(用于Google搜索)和Google Places API

代码片段8:使用LangChain和LangGraph的智能体及其工具示例

from langgraph.prebuilt import create_react_agent from langchain_core.tools import tool from langchain_community.utilities import SerpAPIWrapper from langchain_community.tools import GooglePlacesTool os.environ["SERPAPI_API_KEY"] = "XXXXX" os.environ["GPLACES_API_KEY"] = "XXXXX" @tool def search(query: str): """Use the SerpAPI to run a Google Search.""" search = SerpAPIWrapper() return search.run(query) @tool def places(query: str): """Use the Google Places API to run a Google Places Query.""" places = GooglePlacesTool() return places.run(query) model = ChatVertexAI(model="gemini-1.5-flash-001") tools = [search, places] query = "Who did the Texas Longhorns play in football last week? What is the address of the other team's stadium?" agent = create_react_agent(model, tools) input = {"messages": [("human", query)]} for s in agent.stream(input, stream_mode="values"): message = s["messages"][-1] if isinstance(message, tuple): print(message) else: message.pretty_print()

代码片段9展示了代码片段8程序的运行结果。

代码片段9. 程序执行结果

=============================== Human Message ================================ Who did the Texas Longhorns play in football last week? What is the address of the other team's stadium? ================================= Ai Message ================================= Tool Calls:search Args: query: Texas Longhorns football schedule ================================ Tool Message ================================ Name:search {...Results:"NCAA Division I Football, Georgia, Date..."} ================================= Ai Message ================================= The Texas Longhorns played the Georgia Bulldogs last week. Tool Calls: places Args: query: Georgia Bulldogs stadium ================================ Tool Message ================================ Name:places {...Sanford Stadium Address: 100 Sanford...} ================================= Ai Message ================================= The address of the Georgia Bulldogs stadium is 100 Sanford Dr, Athens, GA 30602, USA.

尽管这是一个相对简单的智能体示例,但它展示了模型、编排层和工具这三个基础组件如何协同工作以实现特定目标。

在最后一节中,将探讨这些组件在Vertex AI智能体和生成式操作手册等Google规模托管产品中的应用方式。

虽然本白皮书讨论了智能体的核心组件,但构建企业级应用需要将它们与用户界面、评估框架和持续优化机制等额外工具整合。Google的Vertex AI平台通过提供包含前文介绍的所有基础要素的完整托管环境来简化这个过程。

通过自然语言界面,开发人员可以快速定义智能体的关键要素 – 目标、任务指令、工具、用于任务委派的子智能体和示例 – 以构建所需的系统行为。此外,该平台配备了完整的开发工具套件,支持测试、评估、性能度量、调试和质量提升。这使开发人员能够专注于智能体的构建和优化,而将基础设施、部署和维护等复杂工作交由平台处理。

图15展示了一个在Vertex AI平台上构建的智能体架构示例,其中使用了Vertex Agent BuilderVertex ExtensionsVertex Function CallingVertex Example Store等多个平台功能。该架构包含了企业级应用所需的各项核心组件。

万字读透:智能体(Agent代理)
图15. Vertex AI平台上的端到端智能体架构示例

要在LLM应用中取得成功,关键是找到最适合需求的方案,从简单提示词开始,仅在必要时引入复杂的多步骤智能体系统。构建智能体时,应遵循三个原则:保持设计简洁,提高透明度,优化接口设计。这有助于构建可靠、易维护的系统,赢得用户信任。
智能体通过使用工具扩展了语言模型的能力,可以访问实时信息、提出行动建议、规划和执行复杂任务。编排层是智能体运作的核心,负责构建推理过程、规划决策并指导行动。工具是智能体连接外部世界的关键,包括扩展、函数和数据存储,它们使智能体能与外部系统交互并获取额外知识。
智能体发展前景广阔,目前仅触及潜力表面。随着工具完善和推理能力提升,智能体将能应对更复杂挑战。通过组合专业智能体,可以创建智能体专家组合模式,在不同领域实现卓越成果。构建复杂智能体架构需要迭代方法,通过不断试验和优化找到适合特定业务场景的解决方案。

智能体构建平台,现在已经成为已经成为智能体应用构建与承载的中流砥柱。大家看到的或者体验的很多智能体基本都是通过一些智能体平台的构建的。 目前智能体平台更多的还是面向开发者,普通用户想构建适合自身需求的智能体还有一定的门槛,当然直接使用开发者们构建的智能体是没有问题的。 像coze、文心智能体、智谱清言等现在创建和使用已经很简单,能够实现一句话创建一个智能体,当然要实现多智能体、工作流等复杂的功能仍旧需要一些时间去学习、理解和应用。所以要想让更多人更简单的构建和使用智能体,还需要进一步降低这个门槛。 在AI应用构建方面,智能体构建平台初步把智能体改造成了基于LLM的低\无代码平台,低\无代码平台也正在积极融合Agent技术升级为Agent构建平台。接下来这类平台都会先向LLM低\无代码平台过渡,再慢慢进化为具备更多功能能够构建复杂智能体的平台。

总体评估:仍处于AI Agent的初级阶段

万字读透:智能体(Agent代理)

当前仍处于AI Agent的初级阶段。更多智能体更像是对话机器人,能够执行相对复杂的任务,距离终极目标自主Agent还有很大一段距离。 即便如此,它的应用趋势已经势不可挡。基础模型的生成特性使每个智能体独一无二,但通过发挥基础组件优势,可以开发出扩展语言模型能力并创造实际价值的应用。本文讨论了生成式AI智能体的基础构建模块及其实现方法。

AI Agent在多个行业如客服、编程、内容创作等领域广泛应用,尤其在中国电商、教育等行业落地显著。 技术进步使AI Agent能自主工作,展现人类推理和创造性思维。安全性和伦理问题受到关注,多模态交互界面实现突破。AI Agent在科研等领域应用拓展,预计5-10年内将推动企业分层和应用聚焦,商业价值逐渐显现。

近期研报显示,AI Agent市场潜力巨大。AI Agent正迅速普及,改变企业运营模式和客户体验,其在金融、零售和医疗保健等领域的应用也日益增多。

  • 到2028年,15%的日常工作决策将由AI Agent自主完成,33%的企业软件将包含Agentic AI。
  • 到2027年,50%使用生成式AI的企业将部署AI Agents。
  • 82%的企业到2026年集成AI Agent,主要用于电子邮件生成、代码编程和数据分析等任务。
  • 到2026年,50%的中国500强数据团队将使用AI Agent进行数据清洗和分析。

从近期来看AI Agent在2025年的一些发展趋势。有五个趋势,如下:

  • AI Agent采用率显著增加
  • 多模态Agent增强用户体验
  • 多Agent系统开始流行
  • AI Agent集群与AI Agent网络
  • 垂直AI Agent蓄势待发
万字读透:智能体(Agent代理)

1、AI Agent采用率显著增加

万字读透:智能体(Agent代理)

AI Agent的采用率在未来一年将显著增加,各行各业的组织计划将其用于处理跨部门任务,如电子邮件生成、编码和数据分析等。据Capgemini报告,82%的组织计划到2026年集成AI Agent。 德勤预测,到2025年,25%使用GenAI的企业将部署AI Agents,到2027年将增长到50%。Gartner预测,到2028年,至少15%的日常工作决策将通过Agent AI自主做出,且33%的企业软件应用程序将包含Agent AI。 未来一年,还将出现专门从事金融、零售和医疗保健等领域的AI Agent。

2、多模态Agent增强用户体验

万字读透:智能体(Agent代理)

多模态AI Agent的兴起标志着AI能力的重大进步,它们能处理文本、图像、音频和视频等多种输入数据,为各行业带来广泛应用。 比如在医疗保健领域,这些Agent通过分析医学成像、患者记录和症状,提供更全面准确的诊断建议。在零售业,它们结合视觉识别与自然语言处理,打造更直观交互的购物助手。 在创意产业,如广告和设计,多模态AI Agent可生成融合文本与图像的内容,理解视觉与语言交流的细微差别,对创建针对性营销材料和个性化内容极具价值。 随着AI Agent在特定行业影响的增长,多模态AI处于转型前沿,其处理和合成多类型信息的能力更贴近人类认知过程,成为复杂决策场景中的重要工具。

3、多Agent系统开始流行

万字读透:智能体(Agent代理)

多Agent系统因企业对复杂解决方案的需求而开始流行,成为开发的中心。AI Agent将协作解决问题,执行多层决策任务,共享信息、协调行动,处理跨部门复杂工作流程。例如在物流领域,可优化供应链、管理库存、预测需求波动。 2025年,更多组织将部署多Agent系统管理优化业务流程,OpenAI Swarm和Microsoft的Magentic AI等Agent编排平台将引领这一趋势,助力企业协作部署管理多个Agent。

4、AI Agent集群与AI Agent网络

万字读透:智能体(Agent代理)

2025年,AI Agent将迈向更高层次的协作与协同工作阶段。Salesforce AI研究负责人Silvio Savarese预测,未来一年AI Agent将像蚂蚁一样成群结队合作,解决日常任务和业务挑战,以空前规模重新定义生产力和问题解决能力。 AI Agent将无缝融入生活,个人拥有个人Agent,组织部署专业Agent,这些Agent可通过Agentforce等平台获取,针对特定任务定制并协同达成共同目标。未来,AI应用将聚焦于创建和定制协作执行战略任务与决策的Agent,无论在个人还是商业环境。 5、垂直AI Agent蓄势待发

万字读透:智能体(Agent代理)

垂直AI Agent专注于特定行业或领域,利用AI技术自动执行任务、提高效率并部分取代人工。业内人士预测,其未来市场规模可能是SaaS市场的10倍,并有望在多领域取代SaaS。 从2025年起,凭借更成熟的技术和增长的用户需求,垂直Agent将迅速占领市场。 它们的主要优势是高度专业化和定制化,在特定领域表现优于通用智能体,具有高效率、快速响应以及经大量训练优化后的高稳定性和可靠性。应用领域广泛,涵盖医疗、金融、客户支持、市场研究与分析等。


通过与客户合作,团队发现智能体在两个领域中展现出显著的应用潜力,这些领域也清晰地体现了智能体模式的实际价值。这些应用表明,智能体特别适用于以下场景:需要兼顾对话与操作有明确的成功标准支持反馈机制,并能有效结合人类监督

客户支持结合了聊天机器人界面的直观性与工具集成后的增强能力,是开放式智能体的理想应用场景。原因包括:

  • 客户支持交互既需要自然的对话流程,也需要访问外部信息和完成任务;
  • 智能体可以集成工具,用于提取客户数据、查询订单记录、访问知识库内容;
  • 操作(如退款处理或工单更新)可以通过自动化程序高效完成;
  • 成功标准清晰,可通过客户问题的解决情况进行衡量。

一些公司已通过“基于成功解决的计费模式”验证了这一方法的可行性,这种模s式仅对成功完成问题的智能体任务收费,充分展现了对其可靠性的信心。

在软件开发领域,LLM功能从代码补全演变为自主问题解决,为智能体提供了广阔的应用前景。智能体在此领域的优势包括:

  • 代码解决方案可以通过自动化测试直接验证其正确性;
  • 测试结果为智能体提供反馈,帮助其反复优化解决方案;
  • 编程问题通常具有清晰的定义和结构化特征;
  • 输出质量可以通过客观的标准(如测试通过率)进行评价。

在团队的实现中,智能体能够基于拉取请求描述,在SWE-bench Verified基准测试中解决实际的GitHub问题。然而,尽管自动化测试能够验证功能实现,确保解决方案与系统的整体需求一致仍需要人类审查的参与,以提升质量控制。

在智能体系统的构建中,工具往往是关键组成部分之一。通过API定义的工具使Claude能够与外部服务交互。当Claude需要调用工具时,API响应中会包含一个特定的工具调用部分。因此,工具的定义与规范设计应像整体提示词工程一样受到重视。以下是提示词工程在工具设计中的一些要点。

通常,同一操作可以有多种定义方式。例如,文件编辑既可以通过编写差异来实现,也可以通过重写整个文件完成。而对于结构化输出,代码既可以嵌入markdown中,也可以用JSON格式返回。虽然这些在软件工程中属于可互相转换的格式,但对LLM而言,某些格式生成起来更加复杂。例如,编写差异需要在生成代码前准确计算变化的行数;而将代码嵌入JSON则需要对换行符和引号进行额外的转义。

以下是选择工具格式时的一些建议:

  • 留有余地:为模型提供足够的tokens,让其有“思考空间”,避免写入死胡同。
  • 贴近自然:选择与模型在互联网上常见的格式相似的形式。
  • 简化负担:避免让模型处理额外的格式复杂度,例如大规模行计数或代码转义。

与设计人机交互(HCI)同样重要,ACI的设计也需要足够的投入。以下是具体优化方法:

  1. 站在模型的角度思考
    确保工具描述和参数定义清晰易懂。一个优秀的工具定义应包括使用示例、特殊情况说明、输入格式要求,以及与其他工具的明确界限。
  2. 优化参数设计
    参数名称和描述应清晰直观,便于理解。可以将其视为为团队中的新手开发者撰写注释文档,尤其是在多个类似工具共存时,这一点尤为重要。
  3. 测试并迭代
    使用工作台运行大量示例输入,观察模型的错误表现,并逐步优化工具设计,确保可靠性。
  4. 防错设计(Poka-yoke)
    通过调整参数或设计限制,降低模型犯错的可能性。例如,将工具参数限制为绝对路径而非相对路径,可有效避免路径错误。

在为SWE-bench构建智能体时,团队发现优化工具的重要性甚至超过了整体提示词。例如,他们发现模型在使用相对路径的工具时容易出错,特别是智能体从根目录切换到其他目录后。通过调整工具以要求使用绝对路径,模型显著提高了任务完成的准确性。

语言模型虽然在信息处理方面表现出色,但它们缺乏直接感知和影响现实世界的能力。这一限制降低了它们在需要与外部系统或数据交互场景下的实用性。这意味着从某种程度上说,语言模型的能力仅限于从其训练数据中获得的知识。无论输入多少训练数据,模型仍然缺乏与外部世界交互的基本能力。

那么,如何使模型能够与外部系统进行实时、具有上下文感知的交互呢?

函数、扩展、数据存储和插件都是为模型提供这种核心能力的方式。尽管这些工具有不同的名称,但它们都是连接基础模型与外部世界的桥梁。这种与外部系统和数据的连接使智能体能够执行更广泛的任务,并提供更高的准确性和可靠性。例如,通过工具,智能体可以调整智能家居设置、更新日历、从数据库获取用户信息或按照特定指令发送电子邮件。

目前,Google模型可以与三种主要工具类型交互:扩展(Extensions)函数(Functions)数据存储(Data Stores)。通过配备这些工具,智能体不仅能够理解世界,还能够对世界采取行动,从而开启了众多新的应用可能。

理解扩展最直观的方式是将其视为API和智能体之间的标准化桥梁,使智能体能够无缝调用API,而不受其具体实现方式的影响。假设您正在开发一个帮助用户订票的智能体。您计划使用Google Flights API获取航班信息,但需要确定如何让智能体调用这个API端点。

万字读透:智能体(Agent代理)
图3. 智能体与外部API的交互机制

一种实现方式是编写自定义代码,接收用户查询,解析相关信息,然后执行API调用。

例如,在航班预订场景中,用户可能会说“我想订从奥斯汀到苏黎世的机票。”此时,自定义代码需要先从用户查询中提取“奥斯汀”和“苏黎世”这两个关键信息,才能进行API调用。但如果用户只说“我想订去苏黎世的机票”而未提供出发城市,API调用就会因缺少必要数据而失败。为了处理这类边界情况,需要编写更多代码进行异常处理。这种方法缺乏可扩展性,在遇到预设场景之外的情况时容易失效。

相比之下,使用扩展是一种更具韧性的方法。扩展通过以下方式建立智能体和API之间的连接:

  1. 通过示例教导智能体如何使用API端点
  2. 指导智能体了解成功调用API所需的参数要求
万字读透:智能体(Agent代理)
图4. 扩展作为智能体和外部API的连接器

扩展可以独立于智能体开发,但需要作为智能体配置的组成部分。智能体在运行时基于模型和示例判断哪个扩展最适合处理用户查询。这体现了扩展的核心优势:其内置的示例类型使智能体能够动态选择最适合任务的工具

万字读透:智能体(Agent代理)
图5. 智能体、扩展和API的一对多关系

这类似于软件开发者解决用户问题时选择API端点的过程。当用户需要订机票时,开发者会选用Google Flights API;当用户询问附近咖啡店位置时,则会使用Google Maps API。智能体/模型系统同样通过已知的扩展集合来选择最适合用户查询的工具。

如果您想体验扩展的实际应用,可以在Gemini应用中通过Settings > Extensions启用并测试这些功能。例如,启用Google Flights扩展后,您可以询问Gemini“显示下周五从奥斯汀到苏黎世的航班。

为简化扩展的使用,Google提供了一系列预置扩展,这些扩展可以快速导入项目并通过最简配置即可使用。例如,代码片段1中展示的Code Interpreter扩展能够将自然语言描述转换为可执行的Python代码。

代码片段1. Code Interpreter扩展可生成并执行Python代码

import vertexai import pprint PROJECT_ID = "YOUR_PROJECT_ID" REGION = "us-central1" vertexai.init(project=PROJECT_ID, location=REGION) from vertexai.preview.extensions import Extension extension_code_interpreter = Extension.from_hub("code_interpreter") CODE_QUERY = """Write a python method to invert a binary tree in O(n) time.""" response = extension_code_interpreter.execute( operation_id = "generate_and_execute", operation_params = {"query": CODE_QUERY} ) print("Generated Code:") pprint.pprint({response['generated_code']}) # The above snippet will generate the following code. ``` Generated Code: class TreeNode: def __init__(self, val=0, left=None, right=None): self.val = val self.left = left self.right = right def invert_binary_tree(root): """ Inverts a binary tree. Args: root: The root of the binary tree. Returns: The root of the inverted binary tree. """ if not root: return None # Swap the left and right children recursively root.left, root.right = invert_binary_tree(root.right), invert_binary_tree(root.left) return root # 例程: # 构建一颗二叉树示例 root = TreeNode(4) root.left = TreeNode(2) root.right = TreeNode(7) root.left.left = TreeNode(1) root.left.right = TreeNode(3) root.right.left = TreeNode(6) root.right.right = TreeNode(9) # 翻转二叉树 inverted_root = invert_binary_tree(root) ```

总之,扩展为智能体提供了多种感知、交互和影响外部世界的方式。扩展的选择和调用过程由配置中定义的示例来引导。

在软件工程中,函数是指完成特定任务且可重复使用的独立代码模块。软件开发人员在编程时通常会创建多个函数来执行不同任务。他们会明确定义何时调用function_a或function_b的逻辑,以及相应的输入输出规范。

在智能体领域,函数的工作机制与此类似,但由模型代替了软件开发人员的角色。模型可以基于一组预定义函数,根据具体规范决定使用哪个函数以及需要哪些参数。

函数与扩展的主要区别在于:

  1. 模型输出函数及其参数,但不直接执行API调用
  2. 函数在客户端执行,而扩展在智能体端执行

以Google Flights为例,函数的基本设置如图7所示。

万字读透:智能体(Agent代理)
图7. 函数与外部API的交互机制

需要注意的是,此处的关键区别在于函数和智能体都不直接与Google Flights API交互

那么API调用是如何实现的呢?

在函数调用模式下,实际API端点的调用逻辑和执行过程从智能体转移到了客户端应用程序,如图8图9所示。这使开发人员能够更精细地控制应用程序中的数据流。

开发人员选择使用函数而非扩展的常见原因包括:

  • API调用需要在应用程序其他层级执行,如中间件系统或前端框架等
  • 由于安全或认证限制,智能体无法直接调用API
  • 时序或操作顺序限制导致智能体无法实时调用API
  • API响应需要额外的数据转换处理,而智能体无法完成
  • 开发人员希望在不部署额外基础设施的情况下进行智能体开发迭代

图8所示,虽然两种方法在内部架构上的差异较小,但函数调用为开发人员提供了更多的控制权限,并降低了对外部基础设施的依赖

万字读透:智能体(Agent代理)
图8. 扩展(A)和函数(B)调用在客户端与智能体端的控制边界

模型可以用于调用函数,处理最终用户的复杂客户端执行流程。在这种情况下,智能体开发人员可能不希望由语言模型来管理API执行(这与扩展机制不同)。

看一个示例:某智能体被训练成旅游顾问,负责与想要预订度假行程的用户互动。目标是让智能体生成城市列表,中间件应用程序可以使用这些信息为用户的旅行计划下载图片和相关数据。用户可能会这样询问:”我想带家人去滑雪,但不知道该去哪里。“在传统的模型提示词下,输出可能是这样的:

以下是适合家庭滑雪旅行的城市推荐:

  • 美国科罗拉多州克雷斯特德比特
  • 加拿大不列颠哥伦比亚省惠斯勒
  • 瑞士采尔马特

虽然上述输出包含了所需的城市名称信息,但这种格式不便于系统解析。通过函数调用,可以训练模型生成结构化输出(如JSON格式),使其更易被其他系统处理。对于相同的用户输入,函数可能会输出如代码片段5所示的JSON数据。

代码片段5. 展示城市列表和用户偏好的函数调用数据示例

function_call { name: "display_cities" args: { "cities": ["Crested Butte", "Whistler", "Zermatt"], "preferences": "skiing" } }

模型生成的JSON数据会被发送到客户端服务器进行后续处理。在这个例子中,会调用Google Places API获取这些城市的图片,然后将格式化后的富媒体内容返回给用户。图9的序列图详细展示了这个交互过程。

万字读透:智能体(Agent代理)
图9. 函数调用的生命周期序列图

图9示例展示了模型如何为客户端UI提供调用Google Places API所需的参数。客户端UI使用模型在返回函数中提供的参数来执行实际的API调用。这只是函数调用的其中一个应用场景,还有其他值得考虑的场景:

  • 当需要语言模型推荐代码中可用的函数,但不希望在代码中包含访问凭据时。由于函数调用不直接执行函数,因此无需在函数信息中包含凭据。
  • 处理需要较长执行时间的异步操作时。函数调用的异步特性使其特别适合这类场景。
  • 需要在不同于函数调用生成系统的设备上执行函数时。

关于函数机制,最重要的是要理解它们的设计目的是为开发人员提供更大的控制权限,不仅包括API调用的执行,还包括应用程序整体的数据流向。

在图9的示例中,开发人员选择不将API信息返回给智能体,因为这对智能体的后续行为并无影响。但根据具体的应用架构,有时将外部API调用的数据返回给智能体可能更有价值,因为这些数据可能会影响后续的推理、逻辑判断和行动选择。最终,应该由应用程序开发人员根据具体需求做出选择。

为了在滑雪度假场景中实现上述输出,需要构建相关组件以配合gemini-1.5-flash-001模型工作。

首先,将display_cities函数实现为一个基本的Python方法。

代码片段6. 实现城市列表显示功能的Python方法示例

def display_cities(cities: list[str], preferences: Optional[str] = None): """Provides a list of cities based on the user's search query and preferences. Args: preferences (str): The user's preferences for the search, like skiing, beach, restaurants, bbq, etc. cities (list[str]): The list of cities being recommended to the user. Returns: list[str]: The list of cities being recommended to the user. """ return cities

然后需要初始化模型,构建工具,并将用户查询和工具传递给模型。执行下面的代码将生成如代码片段末尾所示的输出结果。

代码片段7. 构建工具,将用户查询发送至模型并执行函数调用

from vertexai.generative_models import GenerativeModel, Tool, FunctionDeclaration model = GenerativeModel("gemini-1.5-flash-001") display_cities_function = FunctionDeclaration.from_func(display_cities) tool = Tool(function_declarations=[display_cities_function]) message = "I’d like to take a ski trip with my family but I’m not sure where to go." res = model.generate_content(message, tools=[tool]) print(f"Function Name: {res.candidates[0].content.parts[0].function_call.name}") print(f"Function Args: {res.candidates[0].content.parts[0].function_call.args}") > Function Name: display_cities > Function Args: {'preferences': 'skiing', 'cities': ['Aspen', 'Vail', 'Park City']}

总而言之,函数为应用程序开发人员提供了一个清晰的框架,既能精确控制数据流和系统执行,又能有效利用智能体/模型生成关键输入。开发人员可以根据应用程序架构的具体需求,灵活选择是否通过返回外部数据来维持智能体参与处理流程,或是将其排除在外。

语言模型可以类比为一个巨大的知识库,其中包含了训练数据积累的信息。但与持续更新的实体知识库不同,这个知识库是静态的,仅包含初始训练时获得的知识。这种局限性带来了挑战,因为现实世界的知识在不断演进。

数据存储通过提供对动态和最新信息的访问来克服这一限制,确保模型的响应始终建立在准确和相关的事实基础之上。例如,开发人员经常需要通过电子表格或PDF等形式向模型提供补充数据。

万字读透:智能体(Agent代理)
图10. 智能体与结构化和非结构化数据的交互机制

数据存储允许开发人员以原始格式向智能体提供额外数据,避免了繁琐的数据转换、模型重训练或微调过程。数据存储将输入文档转换为向量数据库中的向量集合,智能体可以利用这些向量提取所需信息,用于补充下一步行动或用户响应。

万字读透:智能体(Agent代理)
图11. 数据存储连接智能体与多种类型的实时数据源

在生成式AI智能体框架中,数据存储通常以向量数据库的形式实现,智能体在运行时访问这些数据库。虽然本文不会深入讨论向量数据库的技术细节,但关键是要理解它们将数据以向量形式存储,这是对原始数据的高维数学表示。

过于向量数据库可以参考文章:向量数据库:AI时代的机遇与挑战

近期,检索增强生成(RAG)应用是语言模型使用数据存储最典型的例子之一。这类应用通过使模型能够访问多种格式的数据来扩展其知识范围:

  • 网站内容
  • PDF、Word文档、CSV、电子表格等结构化数据
  • HTML、PDF、TXT等非结构化数据
万字读透:智能体(Agent代理)
图12. 智能体与数据存储的一对多关系,展示各类预索引数据类型

用户请求和智能体响应的基本循环过程如图13所示:

  1. 将用户查询发送至向量模型生成查询向量
  2. 使用SCaNN等算法将查询向量与数据库内容匹配
  3. 以文本格式检索匹配内容并返回给智能体
  4. 智能体处理用户查询和检索内容,制定响应策略
  5. 向用户发送最终响应
万字读透:智能体(Agent代理)
图13. RAG应用中用户请求和智能体响应的完整流程

这种方式使智能体能够通过向量搜索将用户查询与数据存储中的信息匹配,获取原始内容,并将其提供给编排层和模型进行处理。后续步骤可能是直接向用户提供答案,或进行额外的向量搜索以优化结果。

图14展示了一个集成ReAct推理/规划的RAG应用示例交互过程。

万字读透:智能体(Agent代理)
图14. 结合ReAct推理/规划的RAG应用示例

扩展、函数和数据存储是智能体在运行时可以使用的三种主要工具类型。每种工具都有其特定用途,开发人员可以根据具体需求选择组合使用或独立使用。

扩展 函数 数据存储
执行位置 智能体端 客户端 智能体端
适用场景 1.开发人员需要智能体控制API端点交互;
2.使用原生预构建扩展(如Vertex Search、Code Interpreter);
3.需要连续API调用和规划(后续动作依赖前序API调用结果);
4.存在安全或认证限制的API调用。
1.存在时序或操作顺序限制,无法实时调用API(如批处理、人工审核流程);
2.API不对外开放或系统无法直接访问。
开发人员需要实现RAG,处理以下数据类型:

1.预索引域名和URL的网站内容;
2.结构化数据(PDF、Word、CSV、电子表格等);
3.关系型/非关系型数据库内容;
4.非结构化数据(HTML、PDF、TXT等)。

万字读透:智能体(Agent代理)

看一下这两张图,左边这张是New Economies在6月份绘制的市场地图,右边这张是投资机构Insight Partners给出的12月市场全景图。从6月到12月,AI Agent项目增加了这么多,变化还是蛮大的。

半年时间便有大量的AI Agent项目出现,并且实现了产品化,可以用于企业与个人的工作与生产。 这张图中间主体是Agents部分,这些公司已经推出了AI Agent产品、解决方案或者服务,或者是在原有AI产品基础上推出的AI Agent。其他部分厂商,他们也正在向AI Agent过渡,或者已经推出了相关产品或服务,还有一些是从自动化角度切入到Agent赛道。 但不管过去的产品形态怎样,现在他们都在向Agent过渡或转型。这些企业既有科技巨头,也有企业服务及自动化领域的名宿,更有大量初创企业。

所以,这张图名为AI Automation & Agents Market Map。 这里多说一句,其实从自动化角度看,包括LLM及AI Agent等在内的任何类型的AI技术带来的都是业务流程的自动化,区别只是自动化程度的高低。

近几年生成式AI和AI Agent带来的企业经营管理与范式的颠覆性变革,但无论技术、架构和方案怎么变化,只要抓住业务流程再造与自动化需求这两个点,产业链上所有参与者都能因创造商业价值而获得成功。 不用过多关注技术的变革与颠覆,重要的是在每个技术变革时代善用这些技术去解决问题,那么你就能成为每个时代的弄潮儿。

万字读透:智能体(Agent代理)

国内的市场情况,王吉伟频道查阅了两份行业报告。左边这张图是甲子光年在4月份发布的《中国AI Agent行业研究报告》,他们根据当时的市场情况绘制了中国AI Agent生态图谱1.0版本。当然,这张图也体现了去年国内智能体行业的生态结构。 右边这张图是InfoQ发布的第二季度报告。可以看到智能体产品明显多了。从4月到6月,一些创业型产品出来了,还有一些大公司也推出了相关产品。当然这是半年前的市场情况,现在的产品要更多。

当前的AI Agent产品及服务形态,大概有以下几种。其中常见AI Agent产品包括聊天助手、编码助手、AI搜索等。

万字读透:智能体(Agent代理)

当前的AI Agent产品,具备以下几个产品通性:

万字读透:智能体(Agent代理)

聊天机器人如ChatGPT、Kimi、通义千问等已发展为综合应用类AI Agent,具备工具使用和推理功能。AI搜索和编码助手是较成功的AI Agent产品,传统搜索引擎和创业项目均有相关产品推出。 C端产品主要集中在AI Agent构建平台上的用户自建产品,尚未出现大量爆款应用。众多厂商将AI Agent开发应用于B端,提供企业级解决方案,企业软件厂商也纷纷推出相关产品。 目前,B端是AI Agent红利的主要领域,因企业对安全、可信、可控智能体的需求,以及大语言模型存在的问题,使得基于软件架构集成Agent的企业级产品更受青睐。 市面上的AI Agent多基于特定知识库或数据构建,在问答交互方面表现出色,但在程序联动和操作,如直接操作ERP系统等方面存在局限。

万字读透:智能体(Agent代理)
Agent 智能体
万字读透:智能体(Agent代理)

这里,也列举一些AI Agent的开源项目与闭源项目。下面的两个表格中列出的是已经推出AI Agent技术框架、产品及解决方案的开源与闭源项目。左边是开源项目,右边是闭源项目。 这些项目来自智能体沙盒技术供应商e2b的Github仓库awesome-ai-agents,它通过搜集和提交的方式来累积智能体项目。这里只对这些项目做了简单介绍,关于每个项目的具体介绍大家可以到Github去查阅。

1.AgentGPT

基于浏览器的 AutoGPT 实现,可通过无代码平台访问。

agentgpt.reworkd.ai/zh

2.AI Legion

一个让智能体协同工作的平台,其类似于 AutoGPT 和 Baby AGI,但用 TypeScript 编写。github.com/eumemic/ai-l

3.AutoGPT

一项旨在使 GPT-4 完全自动化的实验性开源尝试,在 GitHub 上拥有超过 14k星标。

agpt.co/?

4.Automata

一个复杂的系统,根据项目的上下文自动生成自己的代码。

github.com/emrgnt-cmplx

5.AutoPR

AI 生成的拉取请求来解决问题,由 ChatGPT 提供支持。

github.com/irgolic/Auto

6.Autonomous HR Chatbot

企业应用程序 – 由 GPT-3.5 提供支持的自主 HR 助理。

github.com/stepanogil/a

7.BabyAGI

使用人工智能管理任务的简单框架。

github.com/yoheinakajim

8.BabyBeeAGI

BabyAGI 之上的任务管理和功能扩展。

yoheinakajima.com/babyb

9.BabyCatAGI

BabyCatAGI 是 BabyBeeAGI 的 mod,BabyBeeAGI 是 OG BabyAGI 的 mod。

BabyCatAGI

10.BabyDeerAGI

BabyDeerAGI 是 BabyAGI 的 mod,大约 350 行代码

twitter.com/yoheinakaji

11.BabyElfAGI

BabyDeerAGI 和 OG BabyAGI 的最新 mod,大约 895 行代码

twitter.com/yoheinakaji

12.BabyCommandAGI

一个 AI 代理,旨在测试结合 CLI 和 LLM 时会发生什么,它们是比 GUI 更传统的界面

github.com/saten-privat

13.BabyFoxAGI

BabyAGI 的最新版本带有新的并行 UI 面板

github.com/yoheinakajim

14.BambooAI

BambooAI 库是一个用户友好的半自主人工智能代理,旨在使非程序员更容易进行数据探索和分析。

github.com/pgalko/Bambo

15.BeeBot

自主人工智能助手,旨在自主执行各种实际任务。

github.com/AutoPackAI/b

16.Bloop

使用 AI 代理的 GPT-4 支持的语义代码搜索引擎

bloop

17.Cal.ai

基于 http://Cal.com 构建的开源日程安排助手。

cal.ai/

18.Camel

大规模语言模型社会“心灵”探索的代理架构。

github.com/camel-ai/cam

19.ChemCrow

一种执行合成、药物发现和材料设计任务的化学试剂。

github.com/ur-whitelab/

20.Clippy

Clippy 的目的是为用户或与用户一起编写代码。它可以自主规划、编写、调试和测试一些项目。对于较困难的任务,使用它的最佳方法是查看其工作并向其提供反馈。

github.com/ennucore/cli

21.Cody by ajhous44

人工智能助手,旨在让您使用自然语言交互式查询代码库。通过利用向量嵌入、分块和 OpenAI 的语言模型,Cody 可以帮助您以高效、直观的方式浏览代码。

github.com/ajhous44/cod

22.Cody by Sourcegraph

Sourcegraph 的人工智能代码助手,可以通过阅读您的整个代码库和代码图来编写代码并回答您的问题。

docs.sourcegraph.com/co

23.Continue

用于软件开发的开源自动驾驶仪。

continue.dev/

24.Cursor

人工智能优先的代码编辑器。在专为与人工智能进行结对编程而设计的编辑器中更快地构建软件。

cursor.so/

25.Databerry

一个超级简单的无代码平台,用于创建根据您自己的数据进行训练的人工智能聊天机器人。

databerry.ai/

26.Deepnote AI Copilot

人工智能代码副驾驶可以立即建立代码并与整个笔记本环境配合使用。

Introducing Deepnote AI

27.DemoGPT

一种人工智能,只需使用提示即可快速生成基于 LLM 的应用程序的演示。

github.com/melih-unsal/

28.DevGPT

虚拟软件开发团队。

GitHub – jina-ai/dev-gpt: Your Virtual Development Team

29.DevOpsGPT

DevOpsGPT:人工智能驱动的软件开发自动化解决方案。

github.com/kuafuai/DevO

30.English Compiler

基于 POC AI 的编译器,用于将基于英语的 Markdown 规范转换为功能代码。

github.com/uilicious/en

31.Friday

一个开发助手,能够以无限的提示创建整个nodejs项目。

github.com/amirrezasali

32.GeniA

Engineering Gen AI平台工程团队成员。

github.com/genia-dev/Ge

33.Godmode

受Auto-GPT 和 BabyAGI 启发的项目,通过漂亮的 UI 执行各种任务。

Godmode

34.GPT Engineer

一个人工智能代理,根据提示生成整个代码库。

github.com/AntonOsika/g

35.GPT Migrate

轻松地将代码库从一种框架或语言迁移到另一种框架或语言。

GitHub – joshpxyne/gpt-migrate: Easily migrate your codebase from one framework or language to another.

36.GPT Researcher

基于 GPT 的自主代理,可对任何给定主题进行在线综合研究。

github.com/assafelovic/

37.GPT Runner

与您选择的文件对话!管理并运行您的 AI 预设。

github.com/nicepkg/gpt-

38.Lemon Agent

计划-验证-解决 (PVS) 代理,实现准确、可靠和可重复的工作流程自动化。

github.com/felixbrock/l

39.Loop GPT

将流行的 Auto-GPT 项目重新实现为适当的 python 包,编写时考虑了模块化和可扩展性。

github.com/farizrahman4

40.LocalGPT

受 privateGPT 启发,允许使用您自己的文档作为信息源。

github.com/PromtEnginee

41.Mentat

Mentat 是一款人工智能工具,可以直接从命令行帮助您完成任何编码任务。

与 Copilot 不同,Mentat 协调多个位置和文件的编辑。与 ChatGPT 不同的是,Mentat 已经拥有您项目的上下文 – 无需复制和粘贴!

github.com/biobootloade

42.MetaGPT

一种多代理框架,根据一条线的要求,返回 PRD、设计、任务或存储库。

github.com/geekan/MetaG

43.Mini AGI

基于 GPT-3.5 / GPT-4 的最小通用自治代理。

github.com/muellerbernd

44.Multi GPT

使 GPT-4 完全自治的实验性开源尝试。

github.com/rumpfmax/Mul

45.OpenAGI

开源 AGI 研发平台,支持代理执行基准任务和开放式任务。

GitHub – agiresearch/OpenAGI: OpenAGI: When LLM Meets Domain Experts

46.Open Interpreter

一个开源解释器,让大语言模型在您的计算机上运行代码来完成任务

openinterpreter.com/

47.Pezzo

旨在简化提示设计、版本管理、发布、协作、故障排除、可观察性等的开发工具包。

pezzo.ai/

48.Private GPT

无需互联网连接即可与文档进行私人交互的工具。

privategpt.io/

49.PromethAI

个性化人工智能助手,帮助实现营养和其他目标。

github.com/topoteretes/

50.React Agent

开源 React.js 自治 LLM 代理。

reactagent.io/

51.Smol developer

您自己的初级开发人员,通过 e2b 在几秒钟内完成部署。

52.Superagent

不是单个代理,而是一个无需编码即可创建代理的工具。

Defend Your AI Agents | Superagent

53.SuperAGI

一个开源自主人工智能框架,支持开发和部署自主代理。

SuperAGI | AI-Native CRM

54.Sweep

Github 助手可帮助修复小错误并实现小功能。

Sweep: The Best AI Assistant for JetBrains IDEs

55.Teenage AGI

一款受BabyAGI启发的智能体,可以回忆无限的记忆,在采取行动之前“思考”,并且在关闭后不会丢失记忆。

github.com/seanpixel/Te

56.“Westworld” simulation

《西部世界》的多智能体模拟库,旨在模拟和优化多个智能体交互的系统和环境。

Home – Westworld documentation

57.Voyager

Minecraft 中由大语言模型驱动的终身学习代理。

An Open-Ended Embodied Agent with Large Language Models

58.WorkGPT

用于调用 API 的 GPT 代理框架。

github.com/team-openpm/

59.yAgents

yAgents 是 Yeager.ai 制作的 Agent-Builder Agent,能够设计、编码和调试自己的工具。

github.com/yeagerai/yea

60.Yourgoal

BabyAGI 的快速实现。

GitHub – pj4533/yourgoal: Swift implementation of BabyAGI

1.Ability AI

为企业提供安全、以人为本的自主人工智能代理。

ability.ai/2.Adept AI

机器学习研究和产品实验室通过使人类和计算机创造性地协作来构建通用智能。

Adept: AI that powers the workforce

3.Airkit.ai

Airkit 是一个开发人员优先的平台,用于构建、测试和部署 AI 代理。

airkit.ai/

4.Airplane Autopilot

Airplane 是一家构建内部工具的公司,他们正在构建自动驾驶仪人工智能助手。

airplane.dev/autopilot/?

5.Aomni

专为商业智能设计的AI代理。

aomni

6.BitBuilder

“开发人员虚拟实习生”,通过针对您的存储库提出的 PR 生成代码。

bitbuilder.ai/?

7.broadn

AI 无代码副驾驶,允许用户构建AI应用程序。

broadn – AI for manufacturing sales ops

8.Butternut AI

一款可在 20 秒内创建功能齐全、可随时启动的网站的工具。

butternut.ai/

9.Codium AI

由人工智能驱动的交互式代码完整性开发工具使开发人员能够更快地交付软件并减少错误。

codium.ai/

10.Commit

软件开发人员的职业副驾驶和人工智能代理。

commit.dev/

11.Cognosys

基于网络的 AutoGPT/babyAGI 版本。

cognosys.ai/

12.Diagram

人工智能驱动的设计工具适用于从文案写作到从文本生成独特图标的所有内容,最近被 Figma 收购。

diagram.com/

13.encode

完全自主的软件工程师。

encode.software/

14.Factory

致力于开发用于端到端构建软件的自主编码机器人。

factory.ai/

15.Fine

使用 AI 代理构建软件。最大限度地利用 AI 并将您的开发速度提高 10 倍。

Anyone can build.

16.Fine Tuner

用于无代码构建 AI 代理的平台。

fine-tuner.ai/

17.Fixie

用于创建由大语言模型支持的应用程序(例如人工智能代理)的平台

fixie.ai/

18.Floode

人工智能行政助理,可自动处理通信事务。

floodehq.com/

19.GitHub Copilot X

人工智能驱动的软件开发商。

github.com/features/pre

20.GitLab Duo

适用于软件开发生命周期每个步骤的一套人工智能功能。

about.gitlab.com/gitlab

21.GitWit

为全栈开发人员创建的自动化代码生成工具(测试版)。

AI coding for the next generation of developers

22.Grit

自动修复技术差距、将代码迁移和依赖项升级置于自动驾驶仪的工具的测试版。

grit.io/

23.Heights Platform

您的AI教练和AI副驾驶,适合课程创建者、社区建设者和教练。内置于一体化课程创建和社区软件中。

AI Online Course Creation and Community Software – Heights Platform

24.Hex Magic

Hex 人工智能驱动的工具帮助人类利用数据做出惊人的事情。

hex.tech/product/magic-

27.Heymoon.ai

终身私人助理:让您随时掌握日历、任务和信息。

heymoon.ai/

28.Julius

Julius AI允许数据处理、分析和可视化。

Attention Required! | Cloudflare

29.Kadoa

使用 AI 自动驾驶仪进行网页抓取

Kadoa · AI Web Scraper

30.Lindy

人工智能助手,可以帮助完成日常任务,例如日历管理、电子邮件起草和合同发送。

Lindy – Meet your first AI employee

31.Minion AI

由 GitHub Copilot 的创建者制作,目前处于候补阶段。

Minion AI

32.MultiOn

AI私人助理,保持首个AI机票预订、点餐(一个汉堡)和职场证明记录。

multion.ai/

33.Mutable AI

人工智能加速软件开发。

mutable.ai/

34.Naut

仍处于早期阶段,有抢先体验的等候名单。

naut.ai/

35.Otherside’s AI Assistant

用于日常任务的人工智能浏览助手,可以操作网络浏览器来完成几乎任何任务。

AI Personal Assistant | HyperWrite AI Agent

36.Phind

个人编程和研究助理。

Just a moment…

37.Proficient AI

交互 API 和 SDK 允许开发人员在其应用程序中构建、部署和操作对话式 AI 代理。

proficientai.com/

38.Questflow

Questflow 是一个面向无代码自主人工智能工作者的市场。

questflow.ai/

39.Saga

数字AI助手,集成笔记、任务和工具的AI驱动的工作空间。

Saga AI – AI workspace for your notes, docs, and tasks

40.Second

每个代码库的自动迁移和升级。

second.dev/

41.Spell

带有插件的AutoGPT代理

spell.so/

42.Superluminal

只需几行代码即可将人工智能副驾驶添加到产品的数据仪表板中。

Superluminal

43.TalktoData

TalktoData AI允许高级数据发现、清理、分析和可视化。

Your AI Data Analyst | Talk to Data | Instant Answers & Visualizations | data analyst ai |

44.ThinkChain AI

使用您自己的知识库的金融人工智能代理平台。

ThinkChain.ai – Bridging the Gap Between AI and Humans

了解了AI Agent以后,再来看看行业的情况。接下来有一个问题需要大家思考:为什么这个时间节点智能体爆发了? 开头也说过,AutoGPT作为第一个被大家关注的LLM Agent,它出现到现在已经1年8个月了,实际时间还要长,为什么到现在AI Agent才真正火爆起来呢?

万字读透:智能体(Agent代理)

首先,来看两个近期的现象: 二级市场火爆。现在有大量的机构,研报机构、券商等,发布了对解读智能体的市场趋势的报告。然后二级市场涌入了很多智能体相关的概念股,一些上市公司都开始关注相关的概念,包括一些股民也开始研究相关的概念。这就导致很多人开始围绕智能体进行炒作,包括公募基金等。然后市场一起来,大家就开始更多地关注。 币圈市场疯狂。web 3 代币领域AI Agent现在特别火,10月中旬首个AI Agent代币GOAT发布后,迅速成为市场的焦点,现在很多组织都在考虑基于AI Agent技术来发行代币。GOAT与ACT两个代币在这个赛道上线后短时间内实现了惊人的价值飞跃,市场空前高涨。 币圈包括其他金融市场的很多人,都是因为这个知道了AI Agent。比如我有个混币圈的读者,就是因为Agent代币现在买了书恶补相关知识。这里有个数据,ACT代币在币安上市24小时内,涨幅超过2000%,GOAT代币市值一度突破14亿。

万字读透:智能体(Agent代理)

AI Agent在这个事件节点爆发,主要有三个原因: 原因1:商业化临界点突破实现落地商用。确实,现在很多企业开始应用并取得了不错的成效。与半年前或一年前不同,那时大家都在讨论概念和发展趋势,实际应用案例很少。 如今,包括很多个人用户也在探索和应用AI Agent。微软之前在大会上公布,已有超过十万用户在使用他们的智能体产品。京东之前也有数据,他们已经有7000多个智能体。 通过与一些创业公司交流得知,他们现在每个员工至少在用10个智能体。当然,这些智能体有的可能只是简单的问答机器人,有的能执行一些简单的文本搜索任务,但他们都算当前业内定义的智能体。 此外,豆包用户据说已突破6000万。现在,使用豆包这类智能体进行创作、数据处理的案例越来越多。用户也越来越多,用户年龄小到10来岁的小学生,大到年过五旬的大爷大妈。 原因2:真正能够解决实际问题。大语言模型不断进化,今年当中大语言模型就迭代多次。多模态、推理微化、端侧应用包括RAG等技术的不断突破,让大语言模型能力不断增强。 这些新技术、新的大语言模型技术、新的技术架构,让智能体真正能够让大模型实现从理论到实际执行任务的转变。尤其是工作流的引入,让智能体能够更强地执行更复杂的任务。 原因3:商业应用可见。Coze、文心智能体、元器、智谱清言等智能体平台上,已经有大量用户构建了很多AI Agent。 智能体平台的手机端应用,手机厂商提出的手机智能体,包括PC厂商推出的PC智能体,以及智能眼镜、智能耳机等终端设备,现在都贴着智能体应用的标签,或者本身就是一个智能体,这让很多C端用户有了更多感知,用户正在呈现指数级增长。 其中,代表性事件是11月初Anthropic(推出Cloude的公司)推出的一个能操控电脑的模型,用该模型加上一个应用程序就能直接操控电脑帮助用户做一些事情。这其实就是一个智能体应用,电脑使用(Computer Use)概念股也因此大热。 还有智谱推出的AutoGLM,当时吸引了市场投资等众多机构的关注。以前智能体只是在讨论其可能性,现在通过Cloude、AutoGLM等,大家真的能感受到这些智能体可以做一些事情。 这三个原因叠加,足以让AI Agent火爆起来。

万字读透:智能体(Agent代理)

宏观角度来看,全球企业持续投入,使得一些领域已经初步实现了商业化,加上众多企业布局产品和生态,所以大家都在说2025年有望成为AI Agent商用元年。宏观上,AI Agent的市场爆发可以归结为以下三个主要原因: 技术进步:一些技术有效推动了AI Agent在各个领域的应用。 政策支持:全球各国对人工智能的重视,然后会出台一系列相关政策,政策出台后,AI的发展就会进一步加速。 自动化与个性化客户体验需求上升:企业通过实施AI Agent提升自动化运营效率,对个性化数字互动的需求也在增长,各种需求都在增长,最后使得智能体的采用率和渗透率不断提升。 3、大公司动态 要研究一个行业或者产业,必须要看大公司在这个领域做什么,大公司的各种动作最能彰显某项技术应用与发展的情况。 最近几个月,科技公司在AI Agent方面动作频频。事实上,从AI Agent概念出现以来,他们一直在做相关方面的探索、技术开发和运用。

万字读透:智能体(Agent代理)

国外公司:微软、Facebook、谷歌等国外技术公司,他们最近两到三个月内有不少动作。当然,我只选取了一些比较重要的放在这里,其实他们做的还更多。再看创业公司这边,OpenAI、Anthropic等都有布局。 同时,还能看到许多知名的国外公司,像Nvidia、苹果、IBM等都一直在潜心探索、推出和应用智能体。尤其是在B端,像Salesforce、Oracle、SAP等企业管理软件公司,他们现在在AI Agent方面的动作甚至比科技巨头公司还多,经常隔上一段时间就会发布产品和解决方案,以及公布相关数据。

万字读透:智能体(Agent代理)

国内公司:国内情况也一样。可以看到这里列举的公司,如阿里、腾讯、字节、百度,他们在AI Agent方面有一些动作,提出一些政策或解决方案、技术等。 大模型创业公司,如智谱AI,在AI Agent方面一直有非常密集的动作。其他大模型创企,如月之暗面等也是如此,包括产品的迭代和开发、应用市场的开拓等,重点围绕AI Agent做生态拓展。 从2024年下半年开始,大家都在讲LLM的落地应用。现在应用重点落点到AI Agent,2025年以后更是如此,大家自然要在这个落点上全速奔跑。 大模型公司对AI Agent的推广、应用以及在各领域的合作有更强的需求,所以要积极拓展应用生态,不断推出更新的产品和解决方案。现在几乎所有的大模型公司接下来都要往运用走,都在做AI Agent的事情,可以说现在的大语言模型公司都是AI Agent公司、智能体企业。 其他的大公司,像华为、美团、京东等也都有相应的动作,包括小米、荣耀、Vivo、联想等终端公司也是如此,都在重点围绕市场、生态、技术等相关布局及市场拓展。 4、行业数据 接下来看一些行业数据,这里搜集整理了五个行业的相关数据。

万字读透:智能体(Agent代理)

在医疗保健行业,AI Agent自动执行89%的临床文档任务,用于斑块检测的CT图像处理中的AI Agent达到97%的准确率。 在人力资源行业,使用智能体后,简历筛选这块可以减少75%的工作量,94%的人力资源人员认为AI Agent可以很好地改进招聘流程,6%的人力资源领导者认为它可以提供个性化学习机会,HR运营成本能节省25%。 零售行业现在采用AI Agent算是比较领先的,因为他们的数字化程度比较高,所以能够很快引入智能体技术或推出自己的解决方案,一些方面的数据也很好,可以看到零售商的运营成本能降低72%。 金融行业不用多说,它在全行业中数据化程度最高、数据最完整、结果化数据最多。所以它采用AI Agent的速度比较快、效率比较高,效果也比较好。 对于制造业来说,很难想象制造业在RPA应用方面,有的可能还在RPA 2.0阶段,有的可能刚开始使用结合AI的RPA,如果他们使用AI Agent,也能达到这些数据的呈现。

多智能体之5 种不同类型的 AI Agents 万字读透:智能体(Agent代理) 读懂AI Agent:基于大模型的人工智能代理Agents | Google《Building effective agents》 \ Anthropic

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/273999.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午12:46
下一篇 2026年3月12日 下午12:47


相关推荐

关注全栈程序员社区公众号