论文:C^3-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking
基于大型语言模型的智能体借助工具来改造环境,这一方式彻底革新了人工智能与物理世界的交互模式。不同于仅依赖历史对话来生成回答的传统自然语言处理任务,这些智能体在做出选择时,必须考虑更为复杂的因素,例如工具间的相互关系、环境反馈以及过往决策等。
当前的研究通常通过多轮对话来评估智能体,但却忽略了上述关键因素对智能体行为的影响。
为了填补这一空白,我们推出了一个开源且高质量的基准测试—C^3-Bench。该基准测试融入了攻击概念,并运用单变量分析来精准定位影响智能体鲁棒性的关键要素。
具体而言,我们设计了三项挑战:复杂工具关系规划、关键隐藏信息处理以及动态决策路径管理。除了这些挑战,我们还引入了细粒度指标、创新数据收集算法以及可复现的评估方法。
我们在49个主流智能体上进行了广泛实验,这些智能体涵盖了通用型快思维模型、慢思维模型以及特定领域模型。实验发现,智能体在处理工具依赖关系、长上下文信息依赖以及频繁的策略类型切换方面存在显著缺陷。
从本质上讲,C^3-Bench旨在通过这些挑战揭示模型的弱点,并推动智能体性能可解释性方面的研究。
论文链接:
$C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking
代码链接:
https://
github.com/Tencent-Huny
uan/C3-Benchmark
[2025.05.28] 我们发布了 预印版论文,我们还会在最终版本进行修改。
[2025.05.26] 我们发布了 Controllable Multi Agent Data Generation 的代码。
[2025.05.25] 我们发布了 C3-Bench 的测试数据和评估代码。
[2025.03.18] 我们团队在 2025年3月SuperClue中文大模型基准测评 中拿下了Agent方向国内第一名、世界第二名的好成绩,比DeepSeek、千问、豆包领先分数分别高达5分、10分、15分以上。
– 测试数据地址:c3_bench/data/C3-Bench.jsonl 或
数据集
地址:c3_bench/data/C3-Bench.jsonl
说明:我们的测试数据经过了了五名从业NLP、CV、LLM方向多年的高级算法研究员五轮的人工查验与修正,总耗时约1个月。具有极高的质量和准确率,多轮任务之间具有紧密的联系,难度依次递增,不存在不可用的无效数据,并且与人类分布完全一致,其评测结果与结论对后续Agent方向的优化有着极高地参考价值。
具体来说,经过了如下几个阶段的数据质量优化工作:
1、初始数据是使用我们提出的Multi Agent Data Generation框架生成的,并且覆盖了所有可能的动作空间。
2、之后将测试数据按照我们的定义的四种不同类型的动作进行划分,并交由不同的四名算法研究员进行人工查验与修正。具体地,由于LLM生成的任务总是过于正式,不够口语化,特别是到了第二个任务之后,难以生成真多轮问题。因此,我们基于口语化、必须为真多轮任务两个准则对数据进行第一轮修正。特别的,在设计第三轮和第四轮任务时,我们会增加长期记忆这一真多轮类型的任务,来增加测试集的难度。
注:特别的,在实际构建过程中,四名算法研究员均采用了一层一层的方式构建,先由模型生成一层的数据,之后交由人工查验与修正,之后再进行下一层的数据生成与修正。这样做的好处是,避免了在一次性生成所有层的数据之后,当某一层的数据存在问题需要修正时,往往需要对其前一层和后几层的任务均修改,才能保证整体正确性,这会使得数据构建困难,并难以保证数据整体的连贯性。因此,我们采用逐层构建的方式,使得我们的数据层与层之间的任务逻辑性强,关系紧密,不存在不合理的轨迹。
3、在四名算法研究员进行了第一轮修正之后,会由一名Agent领域的高级专家对每条数据进行点评,说明其是否符合要求以及存在的问题,之后由这四名算法研究员进行二次修正。
4、在第二轮修正之后,我们引入了交叉验证,四名算法研究员分别去查验其他人的数据并进行点评,然后四名算法研究员和一位Agent领域的高级专家进行讨论,对存疑的数据进行第三轮的修正。
5、在第三轮修正之后,会由一名Agent领域的高级专家分别对全部数据进行第四轮查验与修正,确保数据的绝对准确。
6、最后,由于人类修正可能存在误操作,我们会使用代码对可能误操作产生的参数类型错误、不合理依赖关系进行检查,并由一位高级专家进行最终第五轮的修正。
经过上述五个阶段的数据质量优化工作,每一条数据均由多个算法专家人工修正与构建,使得我们的测试数据从最初的准确率不到60%,最终达到了100%的正确性,并且模型生成结合多人修正的方式,也让我们的数据具备极佳的多样性和质量。
同时,相比其他BenchMark,如BFCL、T-EVAL等,我们的数据覆盖了所有可能的动作空间,并且在第二至四轮全部是真多轮任务,覆盖率达到了2个100%,这也让我们的数据分布十分均衡,能够无死角的测试出模型的短板所在。

最终,我们构建的这份高质量数据,为我们后续的实验奠定了基础,让我们的结论具有绝对的可信度。
此外,我们为测试数据提供了双语支持,包括英文和中文两个版本,并全部经过上述人工查验过程。后续LeadBoard结果主要汇报的是英文版本的结果。
– 可复现性高:我们的测试数据里所有正确答案对应的工具执行结果都进行了持久化保存,不需要任何网站的KEY,不存在工具调用不稳定的情况,确保了结果的可复现性
– 评估效率高:我们的评估采用动态评估的方式进行,第一阶段使用EvalByToolCallGraph进行,根据动作(预测工具名)是否与标准答案一致,决定是否继续调用。同时,过程中采用了决策树剪枝的方式,极大地减少了维护的路径数量,加快了评估速度
– 代码可复用性高:我们所有的请求均采用标准的ToolCalls协议,这使得我们的评估代码具有极高的可复用性。同时,我们为多个未支持ToolCalls协议的开源通用模型和开源专用模型封装了ToolCalls协议,使代码逻辑更加清晰,解决了其他评估框架Prompt和ToolCalls两种调用方式混用,逻辑混乱的问题
– 评估分析维度多:在获取第一阶段的预测和动作级的评估结果后,我们使用AnalysisResult模块对其结果进行细致评估,包含六种维度的分析。据我们所知,在所有Agent评估框架中,我们提供的分析维度最多,结果最为详细。同时,我们的结果均保存在了CSV文件中,方便开发者进行badcase分析
– 可扩展性强:由于我们采用了标准的ToolCalls协议,对于API模型,可使用GPTHandle快速接入;对于新的开源模型,我们会持续更新该仓库,进行接入;对于开发者自己训练的模型,可以参考我们的Handle代码,将Prompt的调用方式封装为ToolCalls协议,即可快速接入验证
整体框架图如下所示:


本论文设计的是一个可控的多智能体数据生成框架,相比其他框架,有如下八大独特的优势:
– 可控任务生成:在生成每一轮任务时,能够可控地指定当前需要生成的任务类型,包括单工具调用、多工具调用、澄清后调用工具、闲聊四个类型。也正是该优势,让我们的框架能够遍历所有可能的动作空间,构建出无偏的数据,这一点在大模型领域十分重要,无论是训练还是测试,数据的无偏性直接决定了模型的效果是否优秀、评估是否可靠
– 指定数量任务生成:我们的框架能够生成任务数量的任务,搭配第一点优势可控任务生成,生成的数据能够覆盖任意数量任务的所有可能的动作空间
– 多样化任务生成:在第一轮任务生成时,我们的框架能够生成多个具有不同语气、长度、主题/实例、场景、角色身份的任务,并从中随机挑选一个继续进行生成,具有极高的多样性,贴近人类真实分布
– 真多轮任务生成:在后续轮次任务生成时,我们的框架是目前唯一能够可控的生成真多轮任务的框架,我们能够生成包括指代理解、省略成分、长期记忆这三种核心的真多轮任务,并且我们提供了几十种few-shot来指导模型生成真多轮任务,每次生成时随机选择其中一个示例,大大提高了数据多样性和生成有效率
– 丰富的智能体:我们设计了五大类型的智能体,包括User智能体、AI智能体、Planner智能体、Tool智能体、Checker智能体,二级类型共有15种,多样化的智能体保证了我们的框架生成数据的多样性和高质量
– 强力的Planner:我们设计的 Planner Agent 是目前所有智能体框架中唯一能够决策复杂串并行多工具调用任务的智能体,我们通过编写 4000 字以上的Prompt,让其按照我们设定的指导意见进行决策,具备极高的决策准确率
– 可靠的Checker:我们设计的 Checker Agent 是目前唯一会对并行调用逻辑进行检查的智能体,同时我们编写了几十种规则,以检查 Planner 可能犯的低级错误,并提供评论意见,让其能够进行反思。最终我们的 Planner Agent 和 Checker Agent搭配使用,在没有人工干预的情况下,决策准确率在90%以上,据我们所知,这是目前所有多智能体数据生成框架中最高的。
– 任意模型指定:我们的框架能够使用任意LLM来作为智能体的基座模型,研究者可以使用任意一个他们觉得更强的模型,来获得更好的效果
– 双语支持:我们的框架支持英文和中文两种语言,能够生成中英两种语言的数据,据我们所知,这同样也是目前唯一一个支持双语数据生成的框架

最后,展示一下我们生成的一个实际case的部分结果,可以发现,Continue Question User Agent 生成了一个指代理解类型的真多轮任务 “第三张壁纸的上传者是谁?”,这意味着在解决该任务时,需要模型参考上文内容,才能获取第三张壁纸的ID ,从而继续调用获取壁纸详细信息的工具getWaifuDetails。
用户: 我需要最新的5张动漫壁纸。 Planner:getWaifuImages(limit=5, tags=["动漫壁纸"]) Tool:... Planner:prepare_to_answer(answer_type=tool) Agent助手: 以下是最新的5张动漫壁纸: 1. 壁纸ID: - [查看壁纸](https://wallhaven.cc/w/) -  - 分辨率: 1920x1080 2. 壁纸ID: - [查看壁纸](https://wallhaven.cc/w/) -  - 分辨率: 2560x1440 3. 壁纸ID: - [查看壁纸](https://wallhaven.cc/w/) -  - 分辨率: 3840x2160 4. 壁纸ID: - [查看壁纸](https://wallhaven.cc/w/) -  - 分辨率: 1920x1080 5. 壁纸ID: - [查看壁纸](https://wallhaven.cc/w/) -  - 分辨率: 2560x1440 你可以点击链接查看完整壁纸。希望你喜欢这些壁纸!如果需要更多帮助,请告诉我。 Continue Question User Agent Generate: 用户: 第三张壁纸的上传者是谁? Planner:getWaifuDetails(image_id=)
需要说明的是,即便我们的框架能够生成这样优秀的真多轮任务,但是真多轮任务生成对LLM来说仍十分困难,因此我们前面提到的通过多位专家人工标注,才将准确率从不足60%提升到100%,这也包括将LLM生成的伪多轮任务修改为真多轮任务。
在不久的未来,我们计划发布以下内容:
– [] 发布 LeadBoard Website,并持续更新
– [✅] 发布 C3-Bench 测试数据
– [✅] 发布 C3-Bench 评估代码
– [✅] 发布多智能体数据生成框架代码
– [✅] 发布论文 C^3-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking
发布者:Ai探索者,转载请注明出处:https://javaforall.net/237052.html原文链接:https://javaforall.net
