多智能体安全——Multi-Agent Security Tax： Trading Security and Collaboration

该文本探讨了多智能体系统中大型语言模型（LLMs）的安全性，特别是恶意指令如何像蠕虫一样在系统中传播。文章通过模拟自动化化学研究设施，展示了当单个代理被攻击时，恶意指令可以感染其他代理，导致系统故障（例如实验室爆炸）。研究评估了四种防御策略：两种“疫苗”方法（在代理记忆中植入虚假的安全处理恶意输入的记忆）和两种通用安全指令策略。研究发现，这些防御措施虽然能有效减少恶意指令的传播和执行，但也可能降低代理之间的协作能力，揭示了安全性与协作效率之间潜在的权衡。

随着AI智能体在复杂任务中的广泛应用，确保多智能体系统的安全性成为亟需关注的核心议题。本研究聚焦于恶意提示在多智能体系统中的传播机制及其防御策略，揭示了系统安全与协作效率之间的潜在权衡。

随着多智能体系统在复杂任务中的部署增加，系统性安全风险也随之上升。
攻击者可能通过妥协单个智能体，利用其传播恶意指令，腐蚀整个系统，最终导致错误或破坏性结果。

传染性恶意提示可在智能体之间传播，类似于传统数字系统中的蠕虫攻击。
攻击方式：通过向LLM智能体的输入中注入恶意指令，引导其执行有害行为。
后果：恶意指令可能在整个系统中扩散，导致系统范围的智能体被全面控制。

此类攻击模式对数字基础设施构成系统性安全风险，类似于Stuxnet病毒攻击工业控制系统的事件。

LLM模型容易受到“越狱 ”攻击，即通过对抗性提示绕过安全机制。
Agent 智能体攻击类型包括：
- 直接提示注入：攻击者直接向智能体输入恶意指令；
- 间接提示注入：通过第三方或环境间接注入恶意内容。

实验表明，恶意提示可触发“多米诺效应” ，一个智能体被攻陷可能导致整个系统失效。

研究评估了以下几种防御机制，以减轻恶意提示传播的风险：

被动疫苗：智能体对恶意输入仅作简单拒绝。
主动疫苗：智能体不仅拒绝恶意输入，还主动向其他智能体发送警报，阻止传播。

被动指令：提示智能体警惕可疑信息。
主动指令：鼓励智能体采取对抗性行为，阻止恶意传播。

实验场景：模拟一个由7个智能体组成的自主化学研究设施，由AI项目经理Atlas 监督。
攻击目标：通过恶意指令引导智能体执行危险化学反应，导致爆炸。
结果：所有防御策略均能降低恶意指令传播概率，但对协作效率有不同程度的影响。

所有防御策略都能提高系统鲁棒性，但也不同程度地降低智能体协作能力。
主动疫苗在保持协作性方面表现最佳：
- 系统鲁棒性从76.7%提升至90% ；
- 协作接受率维持在87.6% ，接近无防御状态。
基于指令的防御虽然提高鲁棒性，但显著降低协作性：
- 对 gpt-4o-2024-08-06 模型：
  - 被动指令使接受率从91.7%降至26.1% ；
  - 主动指令降至16.7% 。

GPT-4-mini 模型表现最脆弱：
- 无防御时鲁棒性仅为50.0% ；
- 被动疫苗对其防御效果有限。

当前研究将智能体对指令的依从性作为协作效率的代理指标，可能与真实协作效率存在偏差。
强调：在评估防御策略时，应同时考虑系统鲁棒性与协作性能，以避免忽视潜在副作用。

首次实证验证恶意提示在多智能体LLM系统中的传播；
提出并评估了新型防御策略，如“疫苗”方法；
揭示了安全机制与协作效率之间的权衡关系；
提供了关于多智能体系统安全性的实证数据与实验框架。

场景受限：仅在自主化学实验室这一特定环境中进行测试；
攻击类型单一：仅测试了导致化学爆炸的恶意干预；
恶意提示样本有限：仅使用了12个原始恶意提示（尽管传播过程中产生了变体）；
评估指标局限：使用指令依从性作为协作代理指标，可能不完全反映真实协作效率；
攻击与防御方法基础：未引入最新的对抗攻击或防御技术。

本研究表明，恶意提示在多智能体LLM系统中具有高度传染性，可能引发系统性安全事件。通过实证研究，揭示了不同防御策略在提升系统安全性与影响协作效率之间的权衡关系。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/235571.html原文链接：https://javaforall.net

多智能体安全——Multi-Agent Security Tax： Trading Security and Collaboration

关于作者

全栈程序员-站长

相关推荐

优刻得推出OpenClaw云上安全加固方案

360发布“安全龙虾”智能体：装虾时间从6小时缩短至10分钟

一站式Agent智能体教程：新手也能轻松上手的AI开发指南

飞书CEO谢欣：不解决安全问题，Agent越强越危险

零代码配置多Agent，腾讯云正式发布“智能体开发平台”

关注openclaw安全风险，AgentDoG提出智能体安全与防护的诊断式护栏框架