markdown OPPO AI Agent Team于2025年8月发布了其突破性研究,论文编号为arXiv:2508.13167v1,这项名为 Chain-of-Agents的技术为人工智能领域带来了新的活力。 传统 AI 智能体系统在协作效率和资源消耗方面一直面临挑战,而 OPPO 的这项研究则提供了一种全新的解决方案。
单模型多智能体:Chain-of-Agents 的核心理念
Chain-of-Agents 的核心在于利用单个大语言模型模拟多智能体协作。 这种方法避免了传统多智能体系统所需的复杂通信和高昂成本,转而让模型在内部动态激活不同的“智能体角色”,如思考智能体、规划智能体、反思智能体以及搜索智能体、代码生成智能体等工具智能体。 这种设计理念既保留了多智能体协作的优势,又显著提高了效率。 这种单模型架构的优势在于降低了 计算资源需求,并提升了模型的可扩展性。
为了训练这样的模型,OPPO 研究团队开发了一套创新的训练框架。 首先,他们采用 多智能体蒸馏技术,将先进多智能体系统 OAgents 的执行过程转化为适合单模型学习的 Chain-of-Agents 轨迹。 其次,在有监督微调的基础上,研究团队进一步使用了 智能体强化学习来优化模型性能。 针对网络智能体任务和代码智能体任务,他们分别采用了基于大语言模型判断的奖励函数和结合答案正确性与格式规范性的复合奖励函数。
性能飞跃与成本优化:AFM 模型的卓越表现
研究团队将训练出的模型命名为 AgentFoundationModels (AFM),并在近 20 个不同的智能体基准测试中进行了全面评估。 结果显示,AFM 在各个领域都取得了显著的成就。 在网络智能体任务中,32B 参数的 AFM 在 GAIA 基准上达到了 55.3% 的成功率,在 BrowseComp 上达到 11.1%,在 HLE 上达到 18.0%。 在代码生成任务中,AFM 在 LiveCodeBenchv5 上达到 47.9%,在 CodeContests 上达到 32.7%。 在数学推理方面,AFM 在挑战性的 AIME2025 基准上Agent 智能体达到 59.8% 的解题率,比之前最好的工具集成推理方法提升了超过 10.5%。 令人印象深刻的是,AFM 在保持竞争性能的同时,将推理成本降低了 84.6%。 此外,AFM 展现出出色的 泛化能力,即使在训练时没有见过某些工具,也能在推理时正确使用它们。 在测试时扩展实验中,AFM 通过简单的“三选一最佳”策略,在 GAIA 上的性能从 55.3% 提升到 69.9%,在 HLE 上从 18.0% 提升到 33.2%。
技术革新背后的产业思考
OPPO Chain-of-Agents 的研究成果不仅仅是一项技术突破,它为 AI 智能体的发展指明了一条全新道路。 通过改变模型的训练方式,让单个模型具备多智能体协作的内在能力,这种方法不仅更加高效,也为未来的智能体应用开辟了更广阔的可能性。 此次 OPPO 开源了所有研究成果,包括模型权重、训练代码、评估代码和训练数据,为整个 AI 社区的发展做出了重要贡献,为未来在智能体模型和智能体强化学习方面的研究提供了坚实的起点。 对于开发者而言,Chain-of-Agents 范式提供了一种全新的构建智能应用的方法,既保持了强大的功能,又大大降低了部署成本。 你认为 单模型智能体架构是否会成为未来 AI 发展的主流趋势?

发布者:Ai探索者,转载请注明出处:https://javaforall.net/245719.html原文链接:https://javaforall.net
