内容简介
2025年被称为Agent元年,那是不是通用Agent近在眼前?当前顶流模型的能力是否能达到人工水平?
Surge AI研究团队11月3日发布博文(RL Environments and the Hierarchy of Agentic Capabilities),用看似简单的客服 Agent来阐述目前9个顶级模型的 Agent 能力层级。
以下是个人解读,供参考。
2025年前,大模型(如GPT-4o)基本都在 Chatbot 层级挣扎;
2025年后,模型不断变强,不停刷新sota记录,仿佛下一刻就替代人类。
通用智能体是不是快实现了,还有多久?十年?
先思考一个万亿美元级别的问题:这些智能体究竟能完成多少有实际价值的任务?
如今,模型训练和评估已从评价单个回答转变为评估多步骤工具使用任务。
2025 年也是 RL 环境之年,模型在虚拟环境中行动、实验,并通过多步骤任务进行学习。
RL 环境几个组成部分:
- 一个连贯的世界模型:定义环境整体结构。
- 一组实体:世界模型中的对象及其关系。
- 一个工具系统:智能体与实体交互的界面。
接下来采用Corecraft公司开发的智能客服环境,来评测顶流大模型效果。
等等,为什么选客服场景?
- 当前最厉害的技术大多面向高级研发领域,然而AI经济价值往往来自不起眼的日常任务,智能客服是典型刚需场景。
- 智能客服覆盖了各种难度、类型的任务,测试智能体能力的理想试验场
实测九大AI 模型,执行 150 项任务
效果:
- GPT-5 和 Claude Sonnet 4.5 处于领先水平。
- 但即使是 GPT-5 和 Claude,超过40%任务失败。
Corecraft是一家在线销售高性能电脑部件和定制组装的零售商,评测中的世界模型就是这家公司,实体包括客户、订单、支持工单以及所有维持运营的记录。
客服智能体帮助客户和员工处理各种任务:快速产品查询、政策问题、多个系统交互的多步骤工作流等
简单示例:2025 年 7 月有多少退款?
复杂案例:一位顾客订购了一套游戏配置,但在最终审核时我收到了兼容性警告。他们订购了 ZentriCore Storm 6600X CPU、SkyForge B550M Micro 主板,以及 32GB HyperVolt DDR5-5600 内存。系统标记为不兼容。你能帮我找出问题所在,并建议最便宜的解决方法吗?
仔细研究各个智能体的行为轨迹,就会发现失败案例很多。
智能体能力层级
- 底层是基础能力:工具使用、目标达成和任务规划。
- 往上是高级能力,如适应性和根基性:在适应真实世界环境的不确定性和混乱时模型时刻保持情境关联。
- 只有当模型在基础能力上高熟练度,才展现出类似常识推理能力:即在未曾遇到的情况下合理推理的能力,这是通用智能的核心
这个图只是初步近似,大模型进化路线并非线性。这些能力相互重叠、相互强化,并平行发展,而且,高熟练度并不意味着完美:GPT-5 和 Claude Sonnet 4.5 偶尔还会在基本工具使用上出错,最好的高尔夫球手有时也会错过一个简单的推击。重要的是足够稳定,使得注意力可以转移到更高级别的技能上。
这些层级定义并非制定固定顺序,而是诊断哪些方面还不错,哪些仍需努力。
(1)第一步:简单工具调用、规划和目标定义
判断模型能否可靠使用工具实现特定目标,GPT-4o、Mistral Medium 和 Nova Pro 属于这个层级
要完成任务,模型要能持续地做4件事情:
-
Agent 智能体
- 复杂任务拆解成子目标
- 确定每个目标相关工具及使用顺序
- 可用信息映射到正确的工具参数上
- 逐步执行不偏离方向或遗漏细节
能力弱的模型无法稳定完成这些。
比如,以下任务中,3个模型都没能正确使用工具,因为参数提取错误、未能遵循MCP模式
- 查找黄金或白金会员等级中拥有未解决的高优先级支持工单的客户
GPT-4o 正确搜索了金卡和铂金会员客户,但搜索高优先级工单时犯了简单工具错误,将“高”传递给“状态”参数以尝试找到高优先级工单
另一个例子中,所有模型在制定和执行计划方面都遇到了困难
- SkyForge X670E Pro 产品已发布召回。请给我一个项目符号列表,列出 2025 年 8 月订购此产品的客户姓名,状态为已履行、已支付或待处理。
正确流程:
- 使用
searchProducts工具来识别产品 ID。该工具允许在产品记录中搜索文本并返回完整的产品信息 - 用
searchOrders工具查找包含该产品 ID 的相关订单,确保检查已履行、已支付或待处理的订单 - 返回所有相关客户列表
GPT-4o 表现稍好,正确找到了产品 ID,搜索订单,但只搜了“已完成”订单,完全忘了“已支付”和“待处理”的订单。
(2)适应性——当计划遭遇现实
即使模型正确使用工具,仍然有问题。工具文档不完善、存在歧义,或者信息不足。如何适应意外结果并在任务中途修改计划?
Gemini 2.5 和 Qwen3 模型执行工具调用序列时,经常出错,没做出反应。
示例:
- 嗨,我是 Penny Whitcomb。我想升级我的显卡,通常选择 Vortex Labs。你能检查一下 RX820L 或 RX780 是否与我从上次订单中获得的部件兼容,并告诉我每个的价格吗?
正确流程:
- 用
searchCustomers工具查找 Penny 的忠诚度等级(以确定价格)和客户 ID(以搜索之前的订单) - 用
searchOrders工具查找 Penny 之前订单中购买的产品 - 用
searchProducts工具查找 Vortex Labs 显卡的产品 ID - 用
validateBuildCompatibility工具检查新显卡是否与 Penny 之前购买的产品兼容
Gemini 2.5 Flash、Gemini 2.5 Pro 和 Qwen3 Max 都正确调用了工具。然而,第三步遇到同一个问题:“品牌”字段中使用“Vortex Labs”,而系统中品牌名没有空格。模型直接接受空结果,并说没有这些商品
而Claude Sonnet 4.5 则实时尝试不同搜索方法,灵活性更高,更像人类
(3)忠实度:
保持与当前情境紧密联系的能力:不产生幻觉的 ID,不偏离剧本,不编造与现实脱节的事实。
Kimi K2 Turbo 在规划和适应能力上强于 Qwen3 Max 和 Gemini 模型,但在保持与当前语境的关联性方面存在重大问题,工具调用中经常弄错年份。
- 当被要求查找 8 月 25 日至 31 日的订单时,Kimi 搜索了 2024 年的订单,给出最终回复时,Kimi 又切换回 2025 年
Claude Sonnet 4.5 整体表现不错,但仍存在一些问题,与 GPT-5 的主要差距。Claude 明显与上下文脱节,但随后成功进行了修正。Claude 要查找 9 月 30 日前订购产品但尚未发货的客户信息。在正确找到其中一个相关订单后,试图用明显是伪造的电子邮件地址来搜索客户信息
尽管 Claude 适应和纠错能力较好,但在保持与当前语境的关联方面存在困难,对任何被期望以真实自主性运作的场景不利。
(4)常识推理 – 最终前沿
即使模型可靠使用工具、有效规划、即时调整计划,并始终立足于环境和任务背景,距离与“人类水平”表现还存在最后的障碍:常识推理
AGI领域中的常识推理定义模糊,但对于通用智能体必不可少。
“通用智能”中的“通用”指那些无法明确训练的内容:当面对不熟悉情况时,表现如何。这个阶段模型以智能体方式可靠行动并保持连贯性。
常识推理方面问题是导致 GPT-5 表现与人类水平存在差距的主要原因
GPT-5 失败例子,不是规划或工作流有问题,而是简单的常识推理问题
- 识别当前归类为“其他”的支持工单中,哪些应重新归类为“退货”
GPT-5 做出了正确的工具调用,以找到相关的工单,包括这个工单,但工单重新分类需要常识推理:
- 客户要求退款——可能是退货或取消订单。
- 包裹几小时前到了——已经收到商品了,所以是退货
GPT-5收集了所有正确信息,没有关联起来,导致在最终回应中遗漏了工单。
所以,别再说智能客服简单,也别说Agent能替代人类
(5)GPT-5 已经接近“人类水平”?
前面四个领域的熟练程度,并不意味着模型达到胜任实际任务的人类水平。这只代表智能体在真实环境中进行常识推理表现之前必须掌握的基本能力。
常识推理尚无明确定义,但缺乏时便能察觉。究竟是可识别、可训练的子技能集合,还是大规模真实场景训练中涌现的属性,尚待观察。
2025 年是智能体之年,并不意味着已实现通用智能体。相反,获得了能可靠地、有足够一致性行动的智能体,从而开始分析和讨论常识推理。
弥补这一差距需要多长时间,仍然悬而未决。
参考:
RL Environments and the Hierarchy of Agentic Capabilities: https://surgehq.ai/blog/rl-envs-real-world
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/235865.html原文链接:https://javaforall.net
