始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。
随着人工智能技术的飞速发展,基于大语言模型的智能体正逐渐成为研究和应用的热点。这些智能体能够自主规划、调用工具并执行长周期任务,被广泛应用于深度研究、计算机辅助、软件工程及金融投资等领域。然而,这种高度的自主性和非确定性也带来了前所未有的安全与防护挑战。现有的护栏模型往往缺乏对智能体特有风险的感知能力,且在风险诊断方面缺乏透明度。
为了解决这一问题,上海人工智能实验室的研究团队提出了框架。该框架基于一个统一的三维安全分类体系,不仅构建了细粒度的智能体安全基准,还提供了一种能够诊断不安全行为根本原因的。本文将详细介绍该框架的核心创新、方法论及实验成果。AgentDoG系列模型和ATBench数据集已经发布到了始智AI wisemodel开源社区,欢迎感兴趣的用户前往了解详情!
01
智能体安全的全新挑战
在大语言模型(LLM)的演进推动下,AI智能体已经具备了在复杂环境中进行自主决策和工具使用的能力。然而,这种能力的提升伴随着复杂的安全隐患。与传统的单轮对话不同,智能体的风险往往隐藏在多步交互、环境反馈以及工具调用的过程中。
当前的防护模型(如LlamaGuard3、Qwen3Guard等)主要针对LLM的输出内容进行安全过滤,但在应对复杂的智能体场景时表现出明显的局限性。这些局限性主要体现在两个方面:
为了构建有效的智能体护栏,研究团队首先定义了一个全面且层次化的安全分类体系,进而提出了AgentDoG框架。该框架不仅能在上进行细粒度的上下文监控,更重要的是,它能诊断出不安全行为或看似安全但不合理行为的根本原因,从而提供超越二元标签的透明度,促进更有效的智能体对齐。
02
核心创新:
为了系统性地组织多样且不断演变的智能体风险,研究团队提出了一种统一的三维正交分类体系。该体系打破了以往扁平化、枚举式的风险定义方式,从三个正交维度对智能体风险进行分类:风险来源、失效模式和现实危害。
如图2所示,这三个维度分别回答了关于风险的三个核心问题:
2.1 风险来源:风险从何而来?
该维度描述了潜在风险在智能体交互循环中的起源位置。研究团队将其细分为四类:
2.2 失效模式:智能体如何失效?
该维度描述了风险源引入后,智能体如何通过行为或输出具体实现该风险。主要分为两大类:
2.3 现实危害:造成了什么后果?
该维度关注失效行为导致的现实世界影响,支持以结果为导向的安全评估。具体类别包括:
03
AgentDoG框架详解
AgentDoG是一个专门针对智能体安全与防护的诊断式护栏框架。与以往仅关注最终输出的模型不同,AgentDoG关注的是轨迹层面的安全诊断。
3.1 任务定义
AgentDoG定义了两个核心任务:
图3展示了AgentDoG的任务指令模板。模型被要求根据轨迹内容,不仅输出“safe”或“unsafe”的判断,还要在诊断任务中输出细粒度的风险类别,从而实现对风险的精准定位。
3.2 数据合成与收集
为了训练能够覆盖完整工具使用链的高质量风险数据,研究团队设计了一种基于分类法的智能体风险轨迹合成方法。
如图4所示,该流水线包含三个阶段:
该数据集包含超过10万条多轮交互轨迹,使用了包含约10,000个不同工具的工具库,其规模比现有基准(如R-Judge、ASSE-Safety)大40倍以上,确保了数据的多样性和真实性。
04
ATBench基准测试
为了评估护栏模型在真实场景下的表现,研究团队构建了ATBench(Agent Trajectory Safety and Security Benchmark)。
4.1 基准概况
ATBench包含500条完整的执行轨迹,平均长度为8.97轮,覆盖了1575个独特工具。该基准具有以下特点:
图6展示了ATBench中不安全数据在三维分类法下的分布情况,确保了各类风险的均衡覆盖。
4.2 数据处理流水线
ATBench的构建同样遵循分类法指导的合成框架,并引入了严格的验证机制:
05
实验评估与结果
研究团队在多种智能体基准上对AgentDoG进行了全面评估,包括R-judge、ASSE-Safety以及新提出的ATBench。
实验结果表明,AgentDoG在各项指标上均取得了显著的性能提升:
05
可解释性分析
除了安全评估,AgentDoG还引入了一个可解释性AI(XAI)模块,用于归因分析。
该模块采用层次化的智能体归因方法,能够追踪特定不安全动作的根本原因,将其归因于具体的规划步骤、工具选择或上下文误解。通过这种方式,AgentDoG不仅告诉开发者“出了什么问题”,还能解释“为什么会出现这个问题”,从而为智能体的对齐和优化提供有力支持。
07
结论与展望
AgentDoG的提出标志着智能体安全研究从单一的输出审核迈向了轨迹级的全链路诊断。通过构建统一的三维安全分类体系、合成大规模高质量数据以及开发诊断式护栏模型,该工作为解决智能体在复杂交互环境中的安全问题提供了新的思路。
尽管如此,研究团队也指出了未来的改进方向,例如进一步扩展风险分类体系以涵盖更边缘的案例,以及优化模型在超长轨迹上的推理效率。随着智能体技术的广泛应用,AgentDoG及其衍生的开源模型和数据集将为构建安全、可靠、透明的AI系统奠定坚实基础。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/276328.html原文链接:https://javaforall.net
