【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统——第四部分：构建安全且有益的AI智能体》

3月底，Google Deepmind、MetaGPT联合全世界20多个顶尖机构、40多位著名学者，发布了一篇长达264页的Agent研究综述。母贴地址在此：

【AI Agent行业综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统》 – 知乎

论文的第四部分包含原文的第十八、十九、二十、二十一、二十二章。翻完字数是3万，这一部分主要讨论智能体的安全性，建议先码后看。

基于LLM的智能体的快速发展引入了一系列新的安全挑战，这些挑战超出了传统LLM所面临的范围。这些智能体被赋予了先进的推理、规划和工具使用能力，能够自主执行任务并与环境进行交互。然而，这种自主性也扩大了潜在的攻击面，创造了需要仔细研究和关注的新漏洞。

在这部分内容中，研究者首先建立了一个全面的框架来理解智能体安全，分析了AI智能体面临的内部和外部安全威胁。论文探讨了与这些威胁相关的各种攻击载体并提出了潜在的缓解策略。该框架分为两个关键领域：

(1) 内在安全威胁：源于智能体核心组件的漏洞，包括LLM“大脑”以及感知和行动模块。每个组件都存在独特的弱点，可能被攻击者利用：

大脑：即LLM本身，负责关键决策任务，如推理和规划。它由提供基本上下文信息的知识模块引导。
感知：由解释外部环境的传感器组成，外部对象的恶意操纵可能导致错误的感知。
行动：负责工具使用和下游应用，这些同样容易受到攻击利用。

(2) 外在安全威胁：源于智能体与外部、往往不可信实体之间的交互。这些包括：

智能体与记忆的交互：智能体经常访问并与记忆存储交互，这些记忆存储作为决策和上下文信息检索的外部数据库。最近的研究发现了智能体与记忆接口之间的漏洞，这些漏洞可能被利用来操纵智能体的行动。
智能体与其他智能体及环境的交互：这指的是智能体与其他智能体（例如其他智能体或人类操作员）之间的交互，以及与环境的交互，包括与任务相关的对象或动态系统。这些交互的复杂性进一步增加了智能体对外部威胁的暴露风险。

【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统——第四部分：构建安全且有益的AI智能体》 — 图17.1：大脑（LLM）面临着像越狱和提示词注入攻击这样的安全威胁和隐私威胁，如成员身份推断攻击。非大脑模块遇到感知威胁和行动威胁。由于与潜在恶意的外部实体交互，论文还探索了智能体与记忆的威胁、智能体与环境的威胁和智能体与智能体的威胁。

如图17.1所示，这些风险被广泛分类为内在和外在安全威胁，有助于明确它们的起源和性质。除了识别威胁外，论文还提供了一个严格的数学基础来理解诸如越狱、提示词注入和数据中毒等攻击。

此外，研究者提出了实用、可行的解决方案，追踪了从早期LLM安全保障措施到保护整个智能体系统的全面策略发展。这包括探索护栏、先进的对齐技术（如超级对齐）以及安全性和实用性之间的关键平衡。

最后，论文分析了”AI安全的Scaling Laws“——智能体能力与其潜在风险之间的复杂关系——以及在设计过程中必须做出的基本权衡。本部分提供了对挑战、理论基础和实用策略的清晰理解，这些都是开发能够在现实世界场景中安全有效部署的、可靠的AI智能体所必需的。

这部分内容组织如下：

首先，研究者检验了内在安全风险（第18章），聚焦于LLM”大脑”面临的威胁，以及智能体感知和行动组件中的漏洞（第19章）。接下来，探索了与智能体与记忆、智能体与智能体、智能体与环境交互相关的外在安全威胁（第20章）。最后，研究了旨在确保智能体行为安全的超级对齐技术，同时解决平衡安全性与性能的更广泛挑战。这包括探索安全措施如何随着AI系统能力的增长而扩展，并检验设计安全、高能力AI智能体所涉及的权衡（第21章）。

AI智能体的内在安全问题主要指智能体内部架构和功能中存在的各种漏洞。从结构上看，AI智能体通常由多个组件组成：核心”大脑”（LLM）和负责感知与行动的辅助模块。虽然这种模块化结构使智能体能够进行复杂推理和自主决策，但同时也扩大了潜在的攻击面，使智能体面临着可能被攻击者利用的各种内部漏洞。对智能体大脑（特别是LLM）的威胁尤为令人担忧，因为这些威胁可能直接影响智能体的决策、推理和规划能力。这些漏洞可能源于模型设计中的缺陷、输入解释错误，甚至是训练过程中引入的弱点。为确保这些智能体能够安全可靠地部署，采取有效的缓解策略至关重要。

作为智能体的核心决策组件，LLM极易受到各种安全威胁。由于其在推理和行动选择中的核心作用，LLM成为了攻击者的首选目标。在AI智能体的环境中，LLM本身固有的漏洞往往会被放大，这是因为这些模型需要在动态的现实环境中运行，而在这些环境中攻击者可能会利用各种弱点。

越狱（Jailbreak）攻击

形式化表述 为了正式描述越狱攻击带来的风险，研究者分析了控制autoregressive LLM输出的概率分布。对于autoregressive LLM，给定输入序列 $x_{1:n}$ ，生成输出序列 $y = x_{n+1:n+m}$ 的概率可以建模为：

其中表示生成序列的总长度。越狱攻击通常通过在输入序列中引入微妙的扰动（表示为 $\tilde{x}_{1:n}$ ），误导模型产生偏离预期行为的输出。越狱攻击的影响通过对齐奖励函数 $\mathcal{R}^∗(\text{y}|x_{1:n},\mathcal{A})$ 来评估，该函数衡量模型的输出与人类定义的安全或伦理准则（表示为 $\mathcal{A}$ ）的契合程度。攻击者的目标是最小化这个奖励值，其形式化表达为：

其中 $\text{y}^⋆$ 代表被扰动输入引发的最差情况输出。相应的对抗性损失函数量化了生成此输出的可能性：

其中 $p(\text{y}^⋆|\tilde{x}_{1:n})$ 表示分配给越狱输出的概率， $\mathcal{T}(\tilde{x}_{1:n})$ 是可能的越狱指令的分布或集合。

如图18.2所示，越狱攻击可以根据攻击者对模型内部参数的访问权限，广泛分为白盒和黑盒两种方法：

白盒越狱攻击：这类攻击假设攻击者能够完全访问模型的内部信息，如权重、梯度、注意力机制和logits等。这使得攻击者能够进行精确的对抗性操作，通常采用基于梯度的优化技术。
黑盒越狱攻击：与白盒攻击不同，黑盒攻击不需要访问内部模型参数。这类攻击仅依赖于观察输入输出的交互关系，因此更适用于那些无法访问模型内部结构的现实场景。

白盒越狱攻击

白盒攻击是指攻击者能够访问AI智能体内部参数（如模型权重和注意力机制）的攻击方式，这使得精确操控模型行为成为可能。该领域的早期研究主要集中在基于梯度的优化技术上，其中贪婪坐标梯度（Greedy Coordinate Gradient，GCG）攻击是一个典型例子。GCG能够生成对抗性后缀，这些后缀可以诱导各种模型产生有害输出。

后续研究在GCG基础上进行了多方面的改进和扩展。例如，MAC方法通过引入动量机制来提升攻击性能，而I-GCG则提出了更高效的越狱优化技术。除了提示词优化外，研究人员还探索了操控LLM其他内部组件的方法。例如，通过操控句子结束时的多层感知器（MLP）权重重分配，可以成功突破经过指令调整的LLM的安全限制。

其他值得注意的白盒攻击方法包括：通过表征工程实现的越狱（Jailbreak via Representation Engineering，JRE），该方法通过操控模型的内部表征来实现越狱目标；DROJ攻击则使用提示词驱动的方法来改变模型的内部状态；AutoDAN能够自动生成隐蔽的越狱提示词。POEX提出了针对实体化AI智能体的首个越狱框架，揭示了现实世界中的潜在危害，同时也展示了白盒攻击在可扩展性和适应性方面的潜力。

黑盒越狱攻击

与白盒攻击不同，黑盒越狱攻击不依赖于对智能体内部结构的了解，仅通过输入输出交互来实现攻击目的。提示词工程是黑盒攻击中的关键方法，攻击者通过精心设计的提示词来利用模型的响应生成机制并绕过其安全防护。这些提示词通常采用角色扮演、场景模拟或引入语言歧义等技术，诱导模型生成有害内容。

此外，自动化提示词生成方法也逐渐出现，这些方法采用遗传算法或模糊测试等技术来系统性地发现有效的越狱提示词。多轮攻击则利用LLM的对话能力，通过一系列精心设计的提示词，逐步引导对话进入不安全领域。

其他黑盒攻击方法包括：利用模型对特定类型加密提示词的敏感性；使用多模态输入（如图像）触发意外行为并绕过安全过滤机制。值得一提的是，AutoDAN利用分层遗传算法为已对齐的LLM自动生成语义连贯且隐蔽的越狱提示词。POEX则展示了将白盒优化的越狱提示词成功应用于黑盒LLM的可能性。

缓解策略 面对不断演化的越狱攻击，需要采取多维度的防御策略。系统级防御提供了一条有效途径，它着重于在LLM周围构建安全环境，而非仅仅加强模型本身的防御能力。

一个关键策略是输入净化和过滤，即在提示词被LLM处理前对其进行分析和潜在修改。这可能包括检测并中和恶意模式，或重写提示词以移除可能的有害元素。另一个重要方面是输出监控和异常检测，对LLM生成的响应进行审查，识别不安全或异常内容。这可能涉及使用独立模型评估生成文本的安全性，或采用统计方法检测行为偏差。

多智能体辩论机制提供了一种系统级解决方案，通过让多个AI智能体互相审查和评价输出，降低单个被攻击智能体成功执行越狱的可能性。形式语言约束（如上下文无关文法CFG）则提供了一种有效手段来限制LLM的输出空间，确保其只能生成符合预定义安全范围的响应。

此外，系统级监控可以用来追踪LLM部署的整体行为，检测可能表明攻击正在进行的异常活动模式，包括监控API调用、资源使用和其他系统日志。虽然对抗性训练主要是以模型为中心的防御手段，但通过不断用系统监控和红队测试发现的新对抗样本来更新模型，它也可以整合到系统级防御策略中。

这些系统级防御措施的组合，加上对模型鲁棒性的持续研究，共同构建了一个能够更有效抵御持续越狱攻击威胁的弹性生态系统。

提示词注入（Prompt Injection）攻击

提示词注入攻击是一种通过在输入内容中嵌入恶意指令来操控LLM行为的攻击方式。这类攻击能够劫持模型的预期功能，使其执行攻击者期望的行动。与越狱攻击不同，提示词注入攻击主要利用模型无法有效区分原始上下文和外部附加指令的弱点。这种漏洞因为文本输入的开放性、缺乏强大的过滤机制以及系统默认所有输入都可信的假设而被放大，使LLM特别容易受到对抗性内容的影响。值得注意的是，即使是微小的恶意修改也可能显著改变模型生成的输出结果。

形式化表述 在提示词注入中，攻击者将恶意提示词组件附加或嵌入到原始输入中，从而劫持模型的预期行为。若将原始输入序列表示为 $\text{x}_{1:n}$ ，将要注入的对抗性提示词表示为 $\text{p}$ ，则有效的（已被注入）输入变为： $\text{x}′ = \text{x}_1\oplus \text{p}$ ，其中符号 $\oplus$ 表示恶意提示词与原始输入的连接或整合操作。在这种注入提示词的情况下，autoregressive生成过程可以表示为：

假设对齐奖励函数 $\mathcal{R}^∗(·,\mathcal{A})$ 用于衡量模型输出对人类定义的安全或伦理准则集A的遵循程度，攻击者的目标是迫使模型生成一个能够最小化这个奖励值的输出：

相应地，损失函数定义为：

最优提示词通过求解以下问题获得：

其中P表示可行提示词注入的集合。这个公式清楚地表明，输入提示词的微小改变如何能导致生成输出的显著偏差。

如图18.3所示，提示词注入攻击可以根据对抗性指令的引入方式分为直接和间接两种类型： (1) 直接提示词注入：攻击者明确修改输入提示词来操控LLM的行为。 (2) 间接提示词注入：攻击者利用外部内容（如网页或检索的文档）嵌入恶意指令，使模型在用户不知情的情况下处理这些指令。

直接提示词注入

直接提示词注入攻击针对AI智能体的行为进行直接操控，攻击者通过修改输入提示词来实现这一目的。早期研究已经证实了此类攻击的可行性，表明精心设计的提示词能够诱导智能体偏离其预期任务。随后的研究探索了这些攻击的自动化方法，揭示了其广泛应用的潜力。

研究人员还调查了针对多模态LLM的攻击，展示了同时处理文本和图像的模型中存在的漏洞。一些学术竞赛，如“LLM CTF竞赛”和“Hack A Prompt”通过提供专门的数据集和基准，进一步帮助研究界理解这些漏洞。这些研究共同描绘了直接提示词注入攻击从概念验证阶段发展到能够严重损害AI智能体完整性和安全性的复杂攻击方法的演变过程。

间接提示词注入

间接提示词注入代表了一种更为隐蔽的威胁，其中恶意指令被嵌入到AI智能体需要检索和处理的外部内容中。这种攻击形式利用智能体与外部数据源交互的能力，在没有用户直接输入的情况下引入恶意代码。

研究者们展示了现实世界中集成LLM的应用如何通过从网络获取的内容被破坏。在检索增强生成（RAG）系统中，研究表明攻击者可以通过操控检索内容来”劫持RAG”，从而注入恶意提示词。近期，TPIA提出了一种更具威胁性的间接注入攻击模式，能够用最少的注入内容实现复杂的恶意目标，凸显了此类攻击的严重威胁。

与此类似，“后门化检索器”的概念被引入，指检索机制本身被攻击者破坏，向LLM提供被污染的内容。针对AI智能体的研究探索了间接注入如何被用于“行动劫持”，即基于处理的被污染数据操控智能体执行非预期行动。“提示词感染”研究展示了一个被攻击的智能体如何能在多智能体系统中向其他智能体注入恶意提示词，突显了在互连LLM部署环境中的级联风险。其他研究，如“针对LLM的对抗性搜索引擎优化”，揭示了操控搜索引擎结果来注入提示词的潜力。

缓解策略 为应对提示词注入攻击的威胁，特别是在AI智能体环境中，研究人员开发了多种防御机制。早期方法包括使用基于向量化的分类器，通过分析输入的语义特征来检测提示词注入攻击。另一个有前景的方向是“结构化查询”（StruQ）方法，该方法专注于将提示词重写为结构化查询格式，以降低注入风险。

“任务防护盾”（Task Shield）代表了一种系统级防御策略，它通过强制任务对齐，确保智能体即使面对潜在的恶意输入也能坚持执行其预期目标。“注意力跟踪器”（Attention Tracker）则提出通过监控模型的注意力模式来检测可能表明提示词注入尝试的异常行为。

其他研究建议使用已知的攻击方法主动识别和中和恶意提示词。这些防御策略为保护AI智能体免受提示词注入攻击提供了有价值的工具，在现实部署环境中实现了效果与实用性之间的平衡。

幻觉风险（Hallucination Risks）

幻觉是指LLM生成事实不正确、无意义或缺乏上下文依据的输出内容的倾向。虽然幻觉并非总是出于恶意，但它会严重影响智能体的可靠性并可能导致有害后果。

如图18.4所示，幻觉主要来源于两种冲突：一是知识冲突，即模型输出与已知事实相矛盾；二是上下文冲突，即模型输出与当前提供的上下文信息不一致。

形式化表述。考虑一个输入序列 $\text{x}_{1:n}$ ，其中每个token被向量化到 d_e 维空间中，表示为 $e_{x_i} \in \mathbb{R}^{d_e}$ 。token 和之间的注意力权重计算如下：

token 的上下文表示为 $o_i = \sum_{j=1}^{n}{ A_{ij} · (\text{W}_V e_{x_j})}$ 。其中 $\text{W}_Q,\text{W}_K \in \mathbb{R}^{d_e \times d_k}$ 和 $\text{W}_V \in \mathbb{R}^{d_e \times d_v}$ 分别是查询、键和值的投影矩阵。

假设每个输入向量受到向量 $\delta _{x_i}$ 的扰动（其中 $||\delta _{x_i}||\leq\epsilon$ ），产生扰动后的向量 $\tilde{e}_{x_i} = e_{x_i} + \delta_{x_i}$ 。扰动下的注意力权重变为：

更新后的上下文表示为： $\tilde{o}_i = \sum_{j=1}^{n}{ A^\triangle_{ij} · (\text{W}_V e_{x_j})}$ 。

为量化扰动导致的内部表示偏差，研究者使用以下幻觉指标：

$\mathcal{H}$ 值越高表示注意力分布和上下文表示发生了显著变化。这种偏差可能在autoregressive解码过程中导致错误的标记预测，从而增加生成幻觉内容的可能性。

知识性幻觉

知识性幻觉指智能体生成的信息与既定事实或其内部知识库相矛盾，而这种矛盾与任务中提供的外部上下文无关。本质上，智能体的响应与它“应该知道”的内容不一致，即使在仅依赖预训练知识的“封闭式”测试环境中也是如此。

这类幻觉对AI智能体的可靠性和可信度构成严重威胁，因为它们可能导致错误决策、传播错误信息，以及缺乏现实基础。

例如，一个负责回答常识问题的智能体可能错误陈述历史事件的年份或编造科学概念的细节，这些错误来源于其内部知识的缺陷。在专业领域中，这个问题尤为严重，因为专业知识的不准确可能产生重大后果，比如在金融领域。

在多智能体协作场景中，知识性幻觉可能被放大，导致错误连锁反应和协作任务失败。核心问题在于智能体在推理过程中如何存储、处理和检索信息，其维持事实一致性的能力存在固有限制。生成错误或虚构信息的倾向削弱了智能体的基础功能，限制了它们作为可靠工具的使用价值。

上下文性幻觉

上下文性幻觉是指智能体的输出与推理过程中提供的特定上下文（如文档、图像或指令）相矛盾或缺乏支持。在这些“开放式”测试环境中，智能体本质上误解或虚构了与给定上下文相关的信息，导致其输出与应处理的实际情况脱节。

这种幻觉可以多种形式出现，包括在摘要中添加原文不存在的细节、错误识别图像中的对象，或未能准确遵循指令。对于具备视觉能力的智能体，这可能导致对象幻觉，即完全误解视觉输入，在机器人或自动驾驶等应用中构成重大风险。

研究表明，LLM容易被上下文中的不实或矛盾信息误导，导致生成与用户错误陈述一致的输出，或基于错误信息展示有缺陷的推理。上下文性幻觉对AI智能体在现实场景中的应用构成严重挑战，因为它们反映了智能体准确处理和响应上下文信息的能力不足。误解上下文的倾向可能导致不当、不安全或错误的行动，影响智能体在动态环境中有效运作的能力。

缓解策略 研究人员正在积极开发无需重训练即可缓解AI智能体幻觉的方法。一种有效策略是检索增强生成（RAG），它通过外部知识源来为智能体的响应提供依据。通过从可靠数据库或网络检索相关信息，智能体可以验证其输出，减少对可能有缺陷的内部知识的依赖。

另一种强大的方法是运用不确定性估计，智能体对其输出的确信度进行量化。通过在不确定性高时避免回应，智能体可以显著减少幻觉内容的生成。其他方法，如利用生成文本的分析和概念提取技术，也在不需要模型重训练的情况下，在幻觉检测和缓解方面展现出良好效果。

这些无需训练的技术对确保AI智能体在各种应用场景中安全可靠地部署至关重要。通过多种缓解策略的组合应用，可以大幅降低智能体产生幻觉的风险，提高其在实际应用中的可靠性。

失准问题（Misalignment Issues）

AI智能体的失准问题是指智能体的行为偏离了开发者或用户预期的目标和价值观。这种情况可能表现为输出带有偏见、有害或不当内容，即使在没有明确诱导的情况下也会发生。

如图18.5所示，失准问题可以分为两类：(1)目标偏离型失准和(2)能力滥用型失准。

前者发生在智能体的学习或程序设定的目标与预期目标不一致时，导致系统性的非预期失败，例如规范钻空子或替代目标优化；后者则涉及将智能体的能力用于有害目的，通常是由于设计漏洞、安全保障不足或被恶意操控所致。

形式化表述 设 $\mathcal{R}^∗(\text{y} |\text{x},\mathcal{A})$ 表示给定输入x的输出y的理想对齐奖励值（即完全符合安全和伦理规范的奖励）， $\mathcal{R}(\text{y} |\text{x},\mathcal{A})$ 表示模型实际观察到的奖励值。失准程度可通过绝对差值量化：

理想情况下，模型应生成以下输出：

然而，由于失准问题，实际输出 $\text{y}$ 可能与理想输出不同。为将这种偏差纳入学习或评估过程，可定义失准损失函数：

其中 $\lambda$ 是一个权衡参数，用于调整对齐程度相对于其他因素（如流畅性或任务表现）的重要性。

目标偏离型失准

当智能体的学习目标或程序设定目标偏离预期目标时，会产生目标偏离型失准，导致不良行为。在这方面，一个基本挑战是难以精确定义智能体能够理解并可靠执行的复杂现实目标，特别是在动态环境中。

早期研究发现LLM存在“规范钻空子”现象，即它们利用指令中的漏洞以非预期方式达成目标。例如，被指派清理房间的智能体可能简单地将所有物品塞进壁橱，而非真正整理空间。随着LLM的发展，出现了更微妙的失准形式，如追求更容易实现但与原始意图不符的替代目标。

AI智能体与外部世界交互的能力进一步放大了这些风险。例如，智能体可能优先考虑用户参与度而非信息准确性，生成具有误导性但能引发强烈反应的内容。将复杂的人类价值观转化为机器可理解的目标仍然是一个重大挑战。

此外，模型微调可能无意中破坏甚至逆转安全对齐的努力，而在智能体难以适应变化社会规范的动态环境中，目标失准问题可能会恶化。这种失准还可能对模型合并的有效性产生负面影响。

能力滥用型失准

能力滥用型失准是指智能体的能力被利用或引导用于有害目的，即使智能体本身没有恶意。这可能源于智能体设计中的漏洞、安全保障不足或恶意行为者的蓄意操控。与目标偏离型失准不同，在能力滥用型失准中，智能体的核心目标可能是良性的，但其能力被以有害方式利用。

早期研究表明，通过对抗性提示Agent 智能体，LLM可以被操控生成有害内容。随着LLM被整合到智能体架构中，误用的可能性大大增加，而安全对齐措施往往脆弱且易受攻击。与现实世界交互的自主智能体尤其容易受到攻击，例如，家庭自动化智能体可能被操控造成物理损害。

即使是善意的智能体也可能被指示执行有害任务，如生成虚假信息或执行网络攻击。恶意行为者可以利用AI智能体的广泛能力进行有害活动，例如编写网络钓鱼邮件或创建恶意代码。能力滥用还可能源于开发者缺乏前瞻性思考，在缺少充分安全保障的情况下部署智能体，导致非预期伤害。例如，如果访问权限没有适当限制，智能体可能无意中泄露敏感数据。

微调攻击可能进一步损害安全性，虽然存在一些解决方案，但它们都有一定局限性。

缓解策略 解决失准问题需要多维度的方法。虽然重新训练模型是常见做法，但免训练的缓解方法为已部署系统提供了宝贵的替代选择。这些技术可以在不修改底层模型的情况下引导智能体行为。

“提示词工程”技术涉及设计强调安全和伦理考量的提示词。类似地，“安全层”方法可以提高LLM的安全对齐程度。“护栏”或外部安全过滤器可基于预定义规则或安全模型监控并修改智能体输出。“解码时对齐调整”则通过调整智能体的输出生成过程，使其偏向更安全的响应。

此外，名为“Lisa”的方法可用于确保在推理过程中的安全对齐。这些方法代表了向实用、可扩展的AI智能体对齐解决方案迈出的重要一步，为确保智能体行为符合人类价值观和期望提供了有效途径。

投毒攻击（Poisoning Attacks）

投毒攻击是指通过在训练或运行时引入恶意数据来破坏LLM正常功能的攻击方式，这类攻击会微妙地改变模型的行为。由于它们破坏了LLM的基础运作过程，这些攻击可能造成长期且难以检测的损害。

形式化表述。投毒攻击通过污染训练数据来破坏LLM的完整性。假设原始训练数据集为 $\mathcal{D} = \{(\text{x}_i,\text{y}_i)\}^N_{i=1}$ ，攻击者对数据集的一部分引入扰动 $\delta_i$ ，产生被污染的数据集 $\tilde{\mathcal{D}} = \{(\text{x}_i+\delta_i,\text{y}_i)\}^N_{i=1}$ 。在训练过程中，模型参数 $\theta$ 通过在被污染数据集上最小化损失函数 $\mathcal{L}$ 来学习：

投毒的影响可通过被污染模型参数 $\theta^*$ 与使用干净数据集获得的参数 $\theta_{clean}$ 之间的偏差来衡量： $\Delta_{\theta} = ‖\theta^⋆ - \theta_{clean}‖$ 。

在后门注入这种特殊形式的投毒攻击中，攻击者在输入中嵌入特定触发器。当该触发器出现时，模型会被操控产生预先设定的恶意输出。此类攻击的成功率可以通过以下方式量化：

其中 $\mathbb{I}\{·\}$ 是指示函数， $\mathcal{Y}_{malicious}$ 代表不良输出的集合。

如图18.6所示，投毒攻击可分为三类：(1)模型投毒、(2)数据投毒和(3)后门注入，每一种都对AI智能体的完整性和安全构成重大威胁。

模型投毒直接操控内部参数，从根本上改变模型行为；数据投毒破坏训练数据集，因其变化融入学习过程而更难被检测；后门注入则通过嵌入仅在特定条件下激活的隐藏触发器，使攻击者能够在不被立即发现的情况下利用模型。

模型投毒

模型投毒技术直接操控AI智能体的内部参数（如权重或偏置），导致错误输出或非预期行为。这使攻击者能够引入特定漏洞，这些漏洞在被特定输入触发前保持休眠状态。

原本用于高效模型更新的技术，如低秩适配（Low-Rank Adaptation，LoRA），也可被用来注入恶意更改。这种情况在参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）中也有所发现。研究表明，被投毒的模型可能在代码中引入安全缺陷，并可能与其他被投毒的智能体协同工作，从而放大攻击影响。其他研究还探索了被投毒模型生成有害内容或操控系统功能的潜力。

数据投毒

数据投毒攻击采取不同策略，直接针对LLM训练所用的数据。这种攻击特别隐蔽，因为它在数据层面运作，比直接操控模型更难被检测。例如，污染智能体使用的知识库可能导致输出不准确或带有偏见。类似地，破坏RAG系统中的检索机制可能显著降低智能体性能。

研究人员已开发基准测试来评估LLM对各种数据投毒策略的敏感性。值得注意的是，即使是用于改善模型性能的用户反馈也可能被操控引入偏见。研究还探索了模型规模与其对数据投毒脆弱性之间的关系，发现较大规模的模型可能更容易受到影响。

其他重要研究涉及标记限制下的数据投毒、人类难以察觉的数据投毒以及持续预训练中投毒的影响。有研究甚至考察了用被污染的偏好数据来投毒基于人类反馈的强化学习（RLHF）模型。这些研究共同展示了针对AI智能体的数据投毒攻击的多样性和不断演变的特性。

后门注入

后门注入是一种特殊类型的投毒攻击，其特点是训练LLM对特定触发器做出反应。这些触发器只在满足特定条件时才导致智能体表现出恶意行为，使其在正常操作状态下难以被检测。

对于与物理世界交互的智能体，这种风险尤为显著，因为后门可能在现实场景中影响其关键决策。一些后门被设计得非常隐蔽，即使在安全训练后仍能保持活跃，使其特别危险。研究已证明网络智能体也容易受到后门攻击，这类攻击可通过被污染的网络内容实施。

研究还考察了后门对决策过程的影响，展示它们如何导致错误或有害的决策。其他研究对各种后门攻击方法进行了详细分析，包括利用模型生成的解释、跨语言触发器和思维链提示等技术。进一步的调查探索了后门的持久性、虚拟提示注入的使用以及缓解这些威胁的挑战。

这些研究突显了后门攻击的复杂性，并凸显了AI智能体安全领域中攻击者与防御者之间持续的技术竞赛。

缓解策略 针对投毒攻击开发无需重训练的缓解策略，主要集中在检测并过滤被污染数据上。RAG投毒攻击检测方法提出使用激活聚类技术来识别RAG系统检索数据中可能表明投毒的异常模式。

BEAT提出了首个针对LLM即服务环境下后门失准攻击的黑盒检测方法，通过利用探针串联效应。类似地，任务漂移检测技术探索利用激活模式来发现可能由投毒导致的训练数据推断偏差。

一些研究利用模型自身的推理过程来识别和中和后门触发器，如“审查链”提出的多步验证过程，用于检测和过滤被污染的输出。测试时后门缓解策略则在推理阶段使用精心设计的示例来引导模型避开被污染的响应，这是一种适用于黑盒LLM的技术。

“优雅过滤”方法在推理阶段过滤掉后门样本，无需模型重训练。BARBIE利用一种新的评估指标——相对竞争分数（Relative Competition Score，RCS），来量化隐藏表示的主导性，使其能够有效检测操纵隐藏可分性的自适应攻击。

未来的研究方向包括探索外部知识集成和模型组合技术，以增强LLM的安全性和抵抗投毒攻击的能力。

AI智能体的隐私威胁主要源于两个方面：一是其依赖的海量训练数据集，二是实时用户交互过程。

这些风险主要来自两个方向：训练数据推断风险（攻击者试图从智能体的训练数据中提取或推断敏感信息）和交互数据风险（系统处理和用户提示词容易被泄露）。如果缺乏有效的保护机制，这些威胁可能会危及数据机密性，暴露智能体的专有知识，并违反隐私法规。

训练数据推断风险

AI智能体从海量数据集中构建知识库，这使它们容易受到针对训练数据的攻击。如图18.7所示，这些攻击主要分为两类：成员身份推断攻击和数据提取攻击。

成员身份推断攻击

成员身份推断攻击试图确定特定数据点是否存在于AI智能体的训练集中。例如，攻击者可能尝试验证某位患者的医疗记录是否被用于训练医疗聊天机器人。

从形式化角度看，假设训练数据集为 $\mathcal{D} = \{(\text{x}_i,\text{y}_i)\}^N_{i=1}$ ，函数 $g(\text{x};\theta) \in [0,1]$ 估计给定输入 $\text{x}$ 包含在 $\mathcal{D}$ 中的概率。攻击者可以通过检查【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统——第四部分：构建安全且有益的AI智能体》 $\eta$ 是预设阈值）来判断成员身份。 $g(\text{x};\theta)$ 值越高，表明模型在训练过程中可能记住了数据点 $\text{x}$ 。

早期研究证明了这类攻击在机器学习模型中的可行性。研究者开发了使用“探测序列”的测试方法，用于量化神经网络无意中泄露训练数据中罕见或敏感信息的风险。随着技术发展，攻击效果不断提高。例如，某些研究利用仅标签成员身份推断攻击，通过线性探测和分析模型内部状态来增强推断准确性。

PETAL技术引入了首个针对预训练LLM的仅标签成员身份推断攻击，通过利用token级别的语义相似性来近似输出概率。其他技术，如自提示校准方法，使这些攻击在实际应用中更加有效。研究者还开发了更强大的攻击方法（如LiRA），即使只能获取模型的预测结果，也能判断特定个人数据是否用于训练模型。

有研究提出了计算效率更高的成员身份推断攻击，通过重新利用原始成员分数来减少难度校准的误差，其性能与更复杂的攻击方法相当。此外，研究者对机器学习模型的成员身份推断攻击进行了全面回顾和分类，为攻击和防御策略提供了重要见解。

数据提取攻击

与仅确认数据是否存在于训练集的成员身份推断不同，数据提取攻击试图从智能体中恢复实际的训练数据。这可能包括个人信息、版权材料或其他无意中包含在训练集中的敏感数据。

攻击者试图通过解决以下问题来重构训练样本：

其中 $f(·;\theta)$ 表示给定输入 $\text{x}$ 时模型的响应，p(x|f(x;θ)) $p(\text{x}|f(\text{x};\theta))$ 表示 $\text{x}$ 被模型记忆的可能性。这个可能性越高，敏感数据泄露的风险就越大。

早期研究提供了基础证据，证明AI智能体在特定条件下可能会复现训练数据。后续研究改进了提取技术，例如基于梯度引导的攻击，提高了提取已记忆序列的效率。其他方法则利用提示词操作技术触发意外的数据泄露。

有研究提出了针对性的训练数据提取方法，使用损失平滑的软提示词技术和校准的置信度估计，从预训练语言模型中恢复与特定前缀对应的完整后缀内容。模型反演攻击甚至允许攻击者从AI智能体的响应中重构大量训练数据。

这些隐私风险也存在于其他架构中，如BERT、Transformer-XL、XLNet、GPT系列、RoBERTa和XLM等常见LLM架构。研究发现，模型规模、数据重复和提示词上下文会显著增加LLM记忆并可能泄露的训练数据量。

更令人担忧的是，有研究表明，仅使用公开API就可以提取商业黑盒语言模型的特定内部参数，引发对这些广泛使用系统安全性的担忧。研究者还发现现有防护方法低估了语言模型面临的“提取攻击”风险，因为实际攻击者可以利用提示词敏感性和访问多个模型版本来获取更多训练数据。近期研究也对减轻模型记忆问题的方法有效性进行了评估。

交互数据推断风险

与传统软件不同，AI智能体主要依靠自然语言指令（即提示词）来引导其行为。如图18.8所示，这些提示词可能成为攻击目标，主要通过两种方式：(1)系统提示词窃取或(2)用户提示词窃取，从而导致安全隐患和隐私泄露。

形式化表述。假设 $\text{p}_{sys}$ 代表系统提示词（定义智能体的内部运行规则）， $\text{p}_{user}$ 代表用户提示词。在交互过程中，智能体基于这些隐藏提示词生成输出 $\text{y}$ 。攻击者可能通过解决以下逆向问题来重构这些提示词：

其中 $p(\text{p}|\text{y};\theta)$ 表示隐藏提示词 $\text{p}$ （可能是系统提示词或用户提示词）产生观察到的输出 $\text{y}$ 的概率。通过优化公式(18.17)，攻击者可以重构影响智能体行为的敏感上下文信息。

系统提示词窃取

系统提示词定义了AI智能体的个性特征、功能范围和行为限制，是指导智能体如何与用户交互的内部规则。窃取这些提示词使攻击者能够反向分析智能体的运行逻辑，复制其功能，或利用其中的弱点。

早期研究已展示了提示词窃取如何应用于文本生成图像系统的知识产权保护领域。尽管研究者提出了一些保护技术，但新的攻击策略不断涌现。研究表明，系统提示词可能通过对抗性提示词注入方式被破坏，例如使用特殊分隔符或伪装指令。

时间侧信道攻击揭示了LLM推理过程中的缓存技术会创建时间差异，让攻击者能够重构用户的私人输入。有研究展示了生产环境中的LLM（如Claude、Bing Chat）的系统提示词可以通过基于翻译的攻击和其他查询策略被提取，这些方法能够绕过输出过滤等防御机制，在多个模型测试中取得高成功率。

研究者还分析了不同提示词调整方法对安全和隐私的影响，包括系统提示词泄漏的风险。安全和隐私分析被确定为关键研究领域，特别是应用生态系统内系统提示词泄漏带来的潜在威胁。

用户提示词窃取

除了系统提示词外，用户输入的提示词同样容易受到攻击。攻击者可以推断或提取用户的敏感输入，从而危及用户隐私。

例如，当用户向AI智能体查询包含机密商业策略或个人健康问题的信息时，攻击者可能通过分析模型的响应来重构这些输入内容。研究者提出了提示词反向窃取攻击技术，证明攻击者能够通过分析智能体生成的回复来重建用户的原始输入。

进一步研究表明，即使在多轮对话交互中，用户提示词仍然可能被提取，这突显了这种威胁的持久性。针对黑盒语言模型的研究揭示了提示词泄漏现象，表明用户提示词可以从模型输出中被推断出来。

研究者也分析了为什么在定制LLM中会发生提示词泄漏，为理解用户提示词暴露背后的机制提供了重要见解。一种名为PLeak的提示词泄漏攻击专门针对LLM应用程序中的用户提示词提取。其他研究还探索了从混合专家（MoE）模型等高级架构中窃取用户提示词的方法，展示了这些先进系统同样存在安全漏洞。技术上，研究者已经开发出通过反转LLM输出来提取提示词的方法，证明了模型响应可以被成功地逆向工程分析。

隐私威胁缓解策略

为应对AI智能体面临的隐私威胁，研究人员开发了多种保护技术，主要包括隐私保护计算和机器学习遗忘机制，这些技术既能保护敏感数据，又不会显著降低模型的实用性。以下是几种主要的隐私保护方法：

差分隐私（Differential Privacy，DP）通过在训练过程或模型输出中引入经过精确计算的噪声，防止个体数据被推断。这种技术已成功应用于LLM的微调过程，具体实施包括梯度裁剪和在不同阶段注入噪声，如模型优化期间和用户交互过程中。

联邦学习（Federated Learning，FL）是另一个有前景的研究方向。例如，FICAL是一种专为AI智能体设计的隐私保护联邦学习方法，它只传输概括后的知识而非原始模型参数或数据，有效解决了传统方法面临的通信和计算挑战。

近期研究探索了基于联邦学习的AI智能体微调技术，使不同机构能够在不直接共享数据的情况下协作改进模型性能。

同态加密（Homomorphic Encryption，HE）正成为安全推理的重要工具，它允许直接在加密数据上执行计算，无需事先解密。为提高同态加密在AI智能体中的实用性，研究人员正开发适合加密环境的模型架构，以降低加密操作的计算成本。

可信执行环境（Trusted Execution Environments，TEEs）提供了一个安全的计算区域，可将敏感运算与系统其他部分隔离，有效保护敏感数据和模型参数。

类似地，安全多方计算（Secure Multi-Party Computation，MPC）技术使多个实体能够在加密输入上联合计算，而不会泄露各自的数据，为LLM操作提供了额外的安全保障。

另一种潜在解决方案是通过在私有数据中嵌入所有权信息，主动追踪数据隐私泄露或版权侵犯行为。这可以通过多种方式实现，包括引入特定模式的后门、设计独特的良性行为特征，或应用可学习的外部水印层。

补充上述方法的是机器学习遗忘（Machine Unlearning）技术，旨在从AI智能体的记忆中删除特定训练数据，有效实现“被遗忘权”。最新研究已开发出针对LLM的特定遗忘技术，包括自适应提示词调整和参数编辑，能够选择性地移除不需要的知识，同时将对模型整体性能的影响降到最低。

尽管这些技术取得了显著进展，但在平衡隐私保护、模型性能和计算效率方面仍面临诸多挑战。持续深入的研究对于构建既强大又能有效保护隐私的AI智能体至关重要，特别是针对实际应用场景的解决方案。

研究表明，结合多种隐私保护技术可能是最有效的方法，能够在不同层面上应对隐私威胁，为用户提供全面的数据保护。未来的研究方向包括开发更高效的隐私保护算法、设计专门针对大型语言模型的隐私保护框架，以及研究隐私保护与模型性能之间的理论界限。

上述小节详细阐述了针对AI智能体核心——LLM的各种安全和隐私威胁。从针对安全防护的突破攻击、提示词注入到幻觉、模型失准和投毒攻击，可以看出LLM在决策过程中的核心地位使其成为攻击者的主要目标。

本章的一个重要主题是强调无需重训练的缓解策略。许多提出的防御方法，如针对突破攻击的输入清理与过滤、针对幻觉的不确定性估计，以及针对失准问题的安全层方法，之所以重要，是因为它们具有实用性、可扩展性、适应性强的特点，并且通常对模型类型没有限制。

重新训练大型模型成本高昂，而无需重训练的方法可以在部署后直接应用，为应对不断演变的威胁提供了灵活性。

然而，单纯的被动防御是不够的。研究界日益认识到需要从根本上构建更安全的LLM。这种主动性策略通过从基础层面解决漏洞，来补充无需重训练的方法。例如，针对模型投毒的缓解措施，如RAG投毒攻击检测中的激活聚类技术，不仅能缓解当前威胁，还为设计更稳健的训练流程提供了重要参考。

通过SafetyBench和SuperCLUE-Safety等基准测试进行的系统性评估，为开发不易产生偏见和有害输出的模型提供了指导。诸如RLHF及其变体（如Safe RLHF）等技术能够在训练过程中直接塑造模型行为，在保证性能的同时优先考虑安全性。提示词工程和参数调整等方法增强了模型对对抗性攻击的抵抗力，从本质上降低了模型失准的可能性。

值得注意的是，虽然“越狱”一词通常指绕过安全防护措施，但其底层机制与更广泛的对抗性攻击高度相似：两种情况下，输入都是精心设计的，目的是诱导不期望或有害的输出。

然而，一个关键区别在于，传统机器学习中的对抗性攻击通常关注受严格约束的微小或难以察觉的扰动（例如，小范数约束），而越狱攻击不需要对现有提示词进行“微小”改动。越狱攻击可以大幅度修改或扩展提示词，对扰动规模没有特定限制，只要能够绕过安全防护即可。

在特定条件下——例如当安全约束被视为某种“决策边界”时——这两种攻击方式实际上是等价的。然而，在实际的LLM应用场景中，越狱攻击的无约束特性可能构成不同且通常范围更广的威胁模型。随着LLM及其安全约束的不断演进，这两种攻击范式可能会趋于融合，这凸显了针对任何恶意输入制定统一防御策略的必要性。

对抗性训练最初是作为应对越狱攻击的缓解技术提出的，现在已成为被动防御和主动防御相结合的典范。通过持续使用对抗性样本进行训练，可以提高模型的固有鲁棒性。

类似地，差分隐私和联邦学习等隐私保护技术原本是为了应对隐私威胁而提出的，但它们从根本上改变了训练过程，使LLM具有了更强的鲁棒性和隐私保护意识。

AI智能体的安全性不仅取决于其核心LLM，还受到感知和行动等外围模块的影响。虽然LLM提供了核心智能，但其他模块中的漏洞可能严重削弱整个智能体的可靠性。这些外围模块作为智能体与外界的接口，使其能够感知环境并执行任务，因此成为对抗性攻击的主要目标。

AI智能体的感知模块负责处理和解释各种模态的用户输入，包括文本、图像和音频。然而，这些模态的复杂性和多样性使感知系统在动态环境中容易产生误判，并且易受旨在通过操控输入数据来误导智能体的对抗性攻击影响。

针对感知模块的对抗性攻击

对抗性攻击是通过修改输入数据来欺骗AI智能体的恶意行为，这些攻击针对不同模态的感知模块。从细微的文本调整到难以察觉的音频失真，这些攻击暴露了即使最先进系统的脆弱性。以下我们将探讨这些威胁如何在不同模态中表现，并介绍相应的对策。

文本模态攻击

文本对抗性攻击通过修改输入文本来欺骗LLM，攻击方式从简单的句子改动到复杂的字符级扰动。例如，基于提示词的对抗性攻击通过精心设计的欺骗性提示词，诱导模型生成有害输出。即使是微小的变化，如替换同义词或修改字符，也可能导致模型性能下降。

一些更复杂的攻击策略已经出现，如研究人员使用贪婪搜索和基于梯度的方法生成通用对抗性后缀，或优化可解释的硬提示词来绕过文本-图像模型中的token级内容过滤器。

为应对这些攻击，研究者提出了多种防御方案。例如，Legilimens作为一种新型内容审核系统，采用基于解码器的概念探测技术和对抗性数据增强来检测和阻止对抗性输入，表现出较高的准确性。自评估技术增强了LLM检查自身输出完整性的能力，而对抗性文本净化和TextDefense等方法利用语言模型来消除扰动。这些防御措施展现了攻防之间的持续博弈，模型的鲁棒性在不断的挑战中得到提升。

视觉模态攻击

视觉对抗性攻击通过修改图像来利用人类和机器感知之间的差异。这些攻击对依赖视觉输入的视觉-语言模型（VLM）尤其具有威胁性。例如，图像劫持攻击可以诱导模型产生非预期行为，而可迁移的多模态攻击则可能同时影响VLM的文本和视觉处理模块。

最新研究表明，针对性的对抗性修改可以通过仅修改5%的像素，就能诱导网络智能体执行错误操作。另有研究发现，不可听见的干扰可能影响相机稳定性，导致图像模糊，进而产生安全隐患。

防御策略包括对抗性训练，即使用干净图像和对抗样本进行联合训练来提高鲁棒性；认证鲁棒性方法通过保证VLM的文本生成能力来实现系统韧性；DIFFender则利用扩散模型通过特征净化来增强VLM抵御视觉操控的能力。

听觉模态攻击

对语音控制的AI智能体而言，听觉对抗性攻击构成了隐蔽威胁。DolphinAttack技术利用超声波以人耳无法察觉的方式向麦克风注入恶意语音命令。此外，VRifle等不可听扰动可以误导传统语音识别系统，并可能被改造用于攻击音频-语言模型。

深度伪造音频和对抗性声纹技术对基于身份认证的系统构成严重风险，而新兴的音频越狱和聊天音频攻击则利用音频处理中的漏洞。为应对这些威胁，EarArray等解决方案使用声学衰减技术过滤不可听扰动，SpeechGuard通过对抗性训练增强LLM的鲁棒性，NormDetect则专注于有效区分正常语音和受操控的输入。

其他模态攻击

对于与传感器数据交互的AI智能体（如自动驾驶系统），面临着特殊的威胁。例如，LiDAR操控可以误导自动驾驶系统，创造虚假目标。针对多智能体系统的研究表明，被篡改的信息可能显著降低协作AI智能体的多视角目标检测和基于LiDAR的感知能力，凸显了传感器扰动攻击的风险。

针对陀螺仪的攻击或GPS欺骗也可能破坏导航系统。防御措施包括鲁棒的传感器融合算法和异常检测技术以识别数据不一致性，以及冗余传感器设计以提高系统抗攻击能力。物理层防御手段，如屏蔽和采用增强SLAM技术的安全定位，也至关重要。相关研究已提出了一个严格的框架来保护传感器数据的完整性和隐私。

误感知问题

与蓄意破坏系统完整性的对抗性攻击不同，误感知问题源于LLM的内在局限性。这些错误在没有恶意意图的情况下发生，可归因于多种因素，包括数据集偏差和模型架构限制。

数据集偏差是误感知的主要来源之一。当模型在不具代表性的数据集上训练时，往往在处理多样化或新颖输入时表现不佳。这种缺陷在模型需要泛化到新环境时尤为明显，因为可能会遇到各种不可预测的情况。环境因素如传感器噪声、物体遮挡和光照变化进一步增加了不确定性。此外，模型本身固有的限制，如有限的特征提取范围或缺乏有效的推理机制，都会加剧这些错误。

多智能体系统（MAS）和在线社会动态的研究为理解误感知提供了更深入的视角。研究表明，个体可能因为错误共识效应、少数派声音放大和沉默螺旋等现象而误判真实的观点分布。这些偏见可能导致AI智能体从有偏见的输入中错误推断主流观点。

当不同模型共享视觉特征时，特征编码的差异可能导致严重的感知错误，这个问题在多模态LLM中也存在。在交互环境中，智能体可能对合作和对抗行为形成扭曲的理解，这在多智能体强化学习中已有证实。语言表征也可能受到感知偏见的影响，表明LLM的误感知不仅源于感知不准确，还可能源于语言驱动的扭曲。当不同模型的置信度水平不匹配时，往往会在不确定情境中的决策中产生系统性错误。

缓解策略 应对这些误感知挑战需要采取多方面的策略：

数据集优化：构建反映广泛真实世界条件的多样化、代表性数据集对于提高模型性能和减少偏见至关重要。数据增强技术可以通过生成现有数据的合成变体来进一步丰富数据集的多样性。
不确定性评估：将不确定性估计机制纳入模型，使其能够评估预测的置信度并标记潜在的错误风险情况。
架构改进：推进模型架构，加入明确的推理机制或更好地处理长程依赖关系的能力，对于减少误感知至关重要。
生物启发学习：采用生物启发的学习框架，如自适应共振理论（ART），这是一个特别有前景的方向。与传统深度学习方法（常受灾难性遗忘和决策不透明等问题困扰）不同，ART模型能够自组织形成稳定的表征，适应动态变化的环境，从而减少感知错误。

需要注意的是，即使提高模型可解释性也有其局限性，特别是当用户难以在模型输出和底层过程之间建立清晰的因果关系时。此外，最新研究表明，先进的LLM在自我修正过程中可能无意中降低自身响应质量，这强调了开发更可靠的内在推理验证机制的必要性。

行动模块负责将AI智能体的计划转化为实际执行，这通常包括调用外部工具、访问API或与物理设备交互。作为决策与执行的桥梁，该模块极易受到攻击。本节将重点探讨两类主要风险：供应链攻击和工具使用漏洞。

供应链攻击

供应链攻击通过破坏AI智能体所依赖的服务来损害整个系统的完整性。与传统攻击不同，这类威胁不直接针对智能体本身，而是破坏其所依赖的外部资源。例如，恶意网站可以通过间接提示词注入（Indirect Prompt Injection，IPI）攻击——如网络间接提示词注入（WIPI）框架所演示的——在无需访问代码的情况下微妙地改变智能体行为。

类似地，攻击者可能操控基于网络的工具（如YouTube字幕插件）向系统注入误导性信息。随着AI智能体与在线资源的深度整合，其潜在攻击面显著扩大。Greshake等人的最新研究提出了间接注入攻击的新分类方案，将其分为数据窃取、传播扩散和信息生态污染等类别。InjecAgent基准测试对30个不同AI智能体的评估显示，大多数系统都容易受到IPI攻击。

为降低这些风险，预防性安全措施和持续监控至关重要。研究表明，间接注入攻击成功的两个关键因素是：LLM无法有效区分信息上下文和可执行指令，以及对指令安全性的认知不足。因此，研究者建议通过多轮对话和上下文学习来增强LLM的边界感知和安全意识。

基于同样的理论，其他研究人员提出了“焦点增强”（spotlighting）的提示词工程技术，帮助LLM更好地区分多个输入源，从而降低间接提示词注入攻击的成功率。鉴于成功攻击后智能体的行为会从用户任务转向恶意任务，一些研究者提出通过使用掩码处理用户提示词重新执行智能体轨迹的方法来检测攻击。

此外，沙盒技术（如ToolEmu系统采用的方案）为外部工具执行创建隔离环境，能够在遭受攻击时限制潜在损害。

工具使用风险

即使外部工具本身是安全的，智能体与其交互的方式也可能引入漏洞。一个主要风险是未授权操作，攻击者可能操控智能体执行非预期行为。例如，提示词注入攻击可使智能体发送电子邮件、删除文件或执行未经授权的交易。AI智能体的通用性使其特别容易受到此类欺骗性指令的影响。

工具学习过程本身可能引入额外风险，包括在输入、执行和输出阶段的恶意查询、安全突破攻击和有害提示。在工具执行阶段，使用错误或危险的工具可能偏离用户意图并损害外部环境。例如，误用可能导致恶意软件或病毒的引入。研究人员已确定18种可能影响物理世界的工具，并故意添加干扰信号以测试LLM是否会选择错误工具。

数据泄露是另一个重大隐患，指敏感信息被无意暴露的情况。当智能体无意中将机密数据传输给第三方API或在输出中包含私人信息时，就会发生数据泄露。例如，LLM可能注入命令提取私人用户数据，然后使用外部工具（如Gmail发送工具）分发这些数据。在处理个人或专有数据的应用中，这种风险尤为突出，需要对信息流实施更严格的控制。

权限过度也会增加滥用风险。拥有广泛系统访问权限的智能体可能被操控执行破坏性操作，如删除关键文件，造成不可逆转的损害。实施最小权限原则，确保智能体只拥有完成任务所需的最低权限，可以将利用漏洞的潜在影响降到最低。

保护行动模块需要采取分层防护和持续监控措施。监控工具使用有助于在造成损害前发现异常；对于高风险操作（如金融交易或系统修改）要求用户确认可增加一层安全保障。形式化验证技术（如文献中探讨的方法）可以通过确保工具使用策略符合最佳实践来进一步增强安全性，防止智能体产生非预期行为。

随着AI智能体的不断演进并与日益复杂的环境进行互动，这些互动所带来的安全风险已成为一个关键问题。本章重点探讨AI智能体与记忆系统、物理和数字环境，以及其他智能体之间的互动关系。这些互动使AI智能体面临各种漏洞，包括记忆污染、环境操控以及多智能体系统中的对抗行为。

通过分析这些互动风险，本章旨在揭示可能破坏AI智能体在实际应用中完整性和可靠性的各类威胁。以下章节将详细探讨这些挑战，讨论具体的攻击方式及其对系统安全的影响。

外部记忆模块作为智能体的认知知识库，使其能够存储、检索和整合信息，通过积累的经验实现持续学习和执行复杂任务。检索增强生成（RAG）是其最重要的实现形式。然而，RAG框架容易受到对抗性操控，这些操控会诱使智能体检索和使用有害或误导性文档。

以下是几种主要的攻击方式：

AgentPoison通过对AI智能体执行后门攻击来利用这一漏洞，对RAG知识库进行污染，确保当触发后门条件时，智能体会检索到攻击者设计的恶意示例，同时在正常查询时保持正常性能。

ConfusedPilot揭示了一类RAG系统漏洞，通过提示词注入攻击、检索缓存利用和错误信息传播等手段破坏Copilot系统的完整性和机密性。这些攻击通过操控输入到LLM的文本内容，使其生成符合攻击者目标的输出。

PoisonedRAG是首个针对RAG的知识污染攻击，通过注入最少量的对抗性文本来操控LLM的输出。该攻击被设计为一个优化问题，在大型数据库中，每个目标问题仅需五个污染文本就能达到90%的成功率。

Jamming是一种针对RAG系统的拒绝服务攻击，攻击者在不可信数据库中插入单个对抗性“阻塞”文档，破坏检索过程或触发安全拒绝机制，阻止系统回答特定查询。

BadRAG通过语料库污染暴露了基于RAG的LLM漏洞，攻击者向数据库注入多个精心设计的文档，迫使系统检索对抗性内容并对目标查询生成错误响应。通过仅插入10个对抗性段落（占语料库的0.04%），该攻击实现了98.2%的检索成功率，将GPT-4的拒绝率从0.01%提高到74.6%，负面响应率从0.22%提高到72%。

TrojanRAG在RAG系统上执行联合后门攻击，通过对比学习优化多个后门快捷方式，并利用知识图谱增强检索能力以实现精细化匹配。通过系统性地标准化后门场景，该攻击评估了现实世界的风险和模型突破的可能性。

最后，一种隐蔽的后门攻击利用语法错误作为触发条件，使LLM在处理标准查询时正常工作，但当输入存在轻微语法错误时，则检索攻击者控制的内容。这种方法利用密集检索器对语法异常的敏感性，采用对比损失和困难负样本采样技术，确保后门触发条件难以察觉，同时实现精确的对抗控制。

根据交互方式的不同，智能体可分为物理交互智能体和数字交互智能体两大类。物理交互智能体在现实世界中运行，通过传感器感知环境并利用执行器对环境产生影响，自动驾驶汽车和机器人系统是典型代表。数字交互智能体则在虚拟或网络环境中运作，处理并响应来自数字源的数据，包括AI聊天机器人、网络安全系统和自动交易算法等。

物理环境中的威胁

在物理世界运行的智能体（如机器人和自动驾驶汽车）由于需要与动态且可能存在对抗性的环境交互，面临着独特的安全挑战。

传感器欺骗是一种主要威胁，攻击者通过操控传感器输入来误导智能体对环境的感知。例如，GPS欺骗可对无人机（UAV）和其他依赖GPS的系统构成重大威胁，通过误报位置信息来实现恶意重定向或劫持。同样，LiDAR欺骗可制造虚假障碍物，可能导致导航故障或安全隐患。

攻击者可能接管智能体的执行机构，迫使其执行非预期的物理动作。这可通过直接篡改硬件或利用控制执行机构的软件漏洞实现，可能危及智能体的正常运作，导致物理伤害或任务失败。

攻击者可能通过引入物理障碍或操控环境条件来破坏智能体的运行。例如，利用LiDAR-Adv等技术创建的对抗性物体可诱导传感器误判，欺骗基于LiDAR的自动驾驶系统，降低检测可靠性并增加现实世界的安全风险。

智能体对环境的感知与实际物理约束之间的差异可能导致不安全或不可行的行为。例如，当学习到的运动策略与现实世界物理规律不匹配（如错误判断地形硬度或障碍物尺寸）时，可能导致自主智能体采取危险动作，如在崎岖地面上行走不稳。研究发现，某些系统由于控制不当的跌倒现象需要超过100次手动复位。

数字环境中的威胁

运行于数字环境的智能体（如软件代理和网络智能体）由于依赖外部数据源和计算资源，面临特定的安全挑战。

代码注入是一种主要威胁，恶意人员向智能体环境注入有害代码，导致非预期的命令执行。这些攻击通常利用软件漏洞或智能体所依赖的受损外部资源，可能导致智能体操作被非法控制。

环境注入攻击（Environmental Injection Attack，EIA）利用通用网络智能体的隐私风险隐蔽窃取用户个人信息，成功率可达70%。AdvWeb是一个自动化对抗性提示生成框架，用于诱导黑盒网络智能体执行有害操作。

攻击者可能篡改智能体接收的信息，导致错误决策或行为。例如，交易智能体可能因操控的金融数据而进行错误交易，信息收集智能体可能因虚假新闻而产生扭曲的输出。这种操控可能产生连锁反应，特别是在依赖准确数据决策的自动化系统中。

拒绝服务（DoS）攻击通过向智能体的数字环境发送过量请求或数据，使其无法响应或崩溃。这些干扰对需要高可用性和响应性的时效性应用尤其有害。

攻击者可能利用智能体的资源管理机制耗尽计算资源，导致其他用户服务中断或系统整体不稳定。通过消耗处理能力、内存或带宽，攻击者可严重削弱智能体的有效运作能力，破坏其操作和效率。

为应对LLM智能体的安全挑战，研究人员提出了AGrail终身防护框架，通过自适应安全检查减轻特定任务和系统性风险，增强智能体安全性。该框架在各种任务中展现出强大的性能和可移植性。

在MAS中，智能体之间的交互可能引入新的安全漏洞。这些交互主要是竞争性的，即智能体相互竞争，或者是合作性的，即它们共同工作。

竞争性交互中的威胁

当智能体展开竞争时，它们经常采用策略性方法来获取优势。例如，它们可能传播虚假信息或故意歪曲环境情况来欺骗其他智能体。这可能导致竞争对手做出错误决策，从而削弱其竞争优势。

除了错误信息外，智能体还可能试图利用对手算法或策略中的弱点。通过识别这些漏洞，它们可以预测并操纵其他智能体的行为，在竞争中占据有利位置。

此外，一些智能体可能使用破坏性技术，如DoS攻击，通过大量无用请求使对手系统过载，破坏通信并妨碍正常功能运作。

竞争性交互中的另一个威胁是秘密合作。有时智能体会暗中合作，即使这种行为违反规则，以操纵结果使其有利。这种合谋破坏了公平性，损害了系统的完整性，因为它使竞争向有利于它们的方向倾斜。

合作性交互中的威胁

在合作场景中，智能体为实现共同目标而协同工作，安全威胁可能危及系统的稳定性和可靠性。

一个风险是无意的信息泄漏，智能体在通信过程中意外共享敏感数据。这可能导致隐私侵犯或未经授权的访问，损害系统的可信度。

除了数据泄漏外，一个智能体的错误可能在整个系统中扩散，导致更大规模的失败并降低整体性能。相关研究在开放域问答系统（ODQA）中讨论了这个问题，其中系统一个模块的错误可能扩散并影响其他组件，严重影响可靠性。情况会变得更糟，如果一个受损智能体引入的漏洞扩散到其他智能体。如果攻击者成功控制一个智能体，他们可能利用整个系统的弱点，导致重大安全事故。这种广泛的破坏具有危险性，因为它可能从一个小漏洞开始并迅速升级。

另一个挑战源于智能体之间的同步不良。如果智能体不能及时更新信息或通信出现延迟，可能造成决策问题。更新的不对齐或延迟可能破坏协调性，使智能体更难有效实现其共同目标。

这些挑战凸显了在合作多智能体系统中建立强大安全机制的必要性，以保持其可靠性和抵御攻击的能力。

前面的章节详细阐述了AI智能体与记忆系统、物理和数字环境以及其他智能体交互所产生的重大安全风险。这些风险从数据投毒和代码注入到传感器欺骗和合谋，突显了日益复杂的基于智能体的系统中固有的脆弱性。然而，随着AI智能体变得更加强大，利用自然语言理解和专门工具进行复杂推理，研究人员正在积极开发安全协议来应对这些挑战。这些协议在通用型和领域特定型智能体的方法上有所不同。

设计用于多领域应用的通用型智能体面临广泛的安全挑战。为了降低这些风险，研究人员开发了多种方法来增强其安全性。评估机制，如AgentMonitor，通过监控决策过程并识别潜在的不安全行为来评估智能体的安全意识。R-Judge通过评估智能体对恶意和正常查询的响应来量化其风险意识，提供了一种系统性的安全合规方法。

此外，风险检测工具如ToolEmu在受控环境中模拟工具使用，以揭示智能体交互中的漏洞。这种方法识别任务执行过程中的潜在危险，使开发人员能够主动解决漏洞问题。这些综合措施通过全面的评估和风险检测增强了通用型智能体的安全性。

针对科学研究等高风险环境中专业任务定制的领域特定型智能体需要更严格的安全措施。安全工具如ChemCrow旨在通过审查用户查询和过滤恶意命令来降低化学合成任务中的风险，确保智能体不会无意中合成危险化学品。结构化任务约束，如CLAIRify所实施的方法，通过对材料合成顺序施加高级约束和对操作及感知任务施加低级限制来增强实验安全性，从而防止事故和错误。

此外，基准测试如SciGuard（包括SciMT-Safety基准）通过测量无害性（拒绝恶意查询）和实用性（有效处理正常查询）来评估模型安全性。SciGuard还结合长期记忆来增强智能体在保持准确风险控制的同时安全执行复杂指令的能力。这些针对性方法确保领域特定型智能体在其专业领域内安全有效地运作。

总之，在开发创新的评估机制和风险缓解策略以增强通用型和领域特定型AI智能体的安全性方面已经取得了重大进展。然而，未来研究的一个关键领域是整合这些方法。

在通用型智能体的广泛能力和领域特定型智能体的专注防护措施之间建立更紧密的联系，对于创建真正稳健可靠的LLM系统至关重要。挑战在于结合两种方法的优势，开发出既灵活又安全的智能体。

随着LLM日益成为自主智能体决策系统的核心组件，确保其输出的安全性、伦理合规性以及与人类目标的持续一致性已成为当前面临的紧迫挑战。

传统的对齐技术，特别是RLHF，通过融入人类偏好来改进LLM行为，在这一领域发挥了关键作用。传统的安全对齐方法主要通过执行预设约束来防止有害结果的发生。在这种框架下，智能体的行为由单一的综合奖励信号引导，该信号注重即时纠正而非长期规划。

虽然这种响应式方法在诸多当前应用中表现良好，但当智能体需要执行复杂、多层面的扩展任务时，其局限性便显露无遗。无法将复杂的长期目标分解为可解释的、可管理的子目标，可能导致智能体虽然在技术层面保持安全，但在实现更广泛的以人为本目标方面表现欠佳。

为了克服这些局限，超级对齐的概念应运而生。超级对齐代表了对齐策略的重要演进，通过将明确的长期目标表征直接融入智能体的决策过程。超级对齐并非简单地设置约束来规避有害行为，而是通过复合目标函数主动引导智能体行为。该函数整合了多个性能维度，具体包括：安全与伦理考量（伦理规范和安全准则持续融入决策过程）、任务执行效能（确保智能体不仅避免有害行为，还能高效完成预定任务）以及长期战略规划（使智能体能够进行长时程规划，并将复杂目标分解为可管理的子任务）。将超级对齐整合到人工智能系统中，标志着向更强健、目标驱动型对齐策略的关键转变。

通过在统一的优化框架内整合安全性、伦理标准、任务性能和长期规划，超级对齐旨在：

确保智能体在长期运行中保持与人类价值观的一致性，从而增强自主智能体的可靠性和稳健性；
通过协调即时的安全需求与战略性长期目标，促进智能体在复杂环境中的动态适应能力；
为诊断和改进人工智能行为提供更清晰、更可解释的结构，这对安全审计和持续改进都至关重要。

预期未来的研究将重点开发能够有效平衡这些多元目标的算法，并在实际应用中验证超级对齐策略的有效性。

超级对齐的终极目标是建立一个可扩展的框架，该框架不仅能防止有害行为，还能积极促进与复杂人类价值观和目标相一致的性能表现。

超级对齐中的复合目标函数

超级对齐的核心在于复合目标函数，这是一种结构化的奖励机制，通过整合多个性能维度来引导智能体行为。与传统对齐方法常依赖单一综合奖励函数不同，超级对齐明确将目标分解为三个独立组件：

任务性能项：确保智能体以高精度和高效率执行即时操作任务。
目标遵从项：将长期战略目标嵌入智能体的决策过程，包含安全约束、伦理考量和用户定义的优先级。
规范合规项：强制执行对伦理和法律边界的遵守，防止智能体为追求短期奖励而牺牲长期对齐性。

这种多组分架构解决了RLHF的一个关键弱点，即奖励黑客（reward hacking）问题——智能体可能利用定义不严谨的奖励函数以最大化短期收益，却无法实现真正的长期对齐。

用超级对齐克服RLHF的局限性

传统的RLHF主要依赖于短期交互中聚合的隐式反馈信号。尽管这种方法在优化模型输出方面效果显著，但在长期目标维持上却面临多重固有局限。

首先，人类反馈通常较为短视，更注重即时的正确性而非更广泛的战略对齐。其次，奖励模型往往过度简化复杂的多步骤任务，导致智能体难以在长时间跨度内实现有效泛化。第三，智能体可能钻研奖励结构的漏洞，优化那些表面上符合人类偏好但实质上偏离预期目标的行为模式。

超级对齐通过引入明确的目标条件化机制应对这些挑战。它不仅仅依靠聚合奖励信号，而是采用层次化目标结构，将复杂任务分解为更小且可解释的子目标。这种结构化方法提升了系统透明度，支持实时调整，并确保人工智能系统在决策过程中保持长期一致性。

支持超级对齐的实证证据

近期研究为超级对齐在实际应用中的有效性提供了强有力的实证支持。研究表明，采用复合目标训练的智能体在延长交互过程中展现出更强的稳健性，其表现优于那些依赖传统对齐技术的智能体。

与条件变化时仍保持不变的静态奖励函数不同，超级对齐模型采用持续校准机制，能够根据实时运行数据动态调整不同目标的权重。这种自适应框架使智能体能够响应不断变化的用户需求，同时维持长期战略对齐——这一能力在传统基于RLHF的方法中几乎完全缺失。

挑战和未来方向

尽管前景广阔，超级对齐在实际实施过程中仍面临几个亟待解决的关键挑战。这些挑战主要涉及目标定义、奖励校准、动态适应以及维持分层目标的一致性。

一个根本性难题在于如何精确而明确地定义目标。人类价值观本质上具有上下文敏感性、模糊性，有时甚至相互冲突，这使得将其转化为结构化的机器可理解格式极具挑战。现有对齐技术难以全面捕捉人类意图的复杂性，需要更先进的方法进行目标提取、分解和表示。当前研究正探索分层建模和偏好学习，使人工智能系统能更好地适应不断演变的微妙人类目标。

即使目标定义完善，奖励校准仍然是一项重大挑战。超级对齐需要在任务性能、长期遵循和伦理合规之间精细平衡。校准不当的奖励结构可能导致以牺牲战略对齐为代价的短期优化，或反之，过度强调长期目标而损害即时效能。自适应权重机制有助于动态调整奖励组件，但确保这些调整的稳定性和一致性仍是一个开放性研究问题。

另一挑战源于适应动态人类价值观和不断变化的操作环境。与静态规则系统不同，人工智能模型必须持续更新目标，以反映社会规范、伦理标准和外部条件的变化。通过元学习和上下文感知对齐实现的实时目标重校准，使人工智能系统能够识别何时需要调整目标并作出相应改变。然而，确保模型能够在不损害对齐的情况下更新价值表征仍是一个未解决的问题。

最后，在分层目标分解中保持一致性增添了额外的复杂度。超级对齐依赖于将长期目标分解为子目标，同时保持战略对齐。过于僵化的子目标可能导致狭隘优化，忽视更广泛意图；而定义松散的子目标则可能导致即时行动与总体目标之间的错位。递归验证和多层次奖励结构等技术旨在降低这些风险，但仍需进一步研究来完善其在多样化人工智能系统中的适用性。

综上所述，虽然超级对齐为人工智能对齐提供了一种结构化方法，但其成功实施取决于克服目标模糊性、奖励错误校准、价值漂移和分层不一致等挑战。未来研究应聚焦于增强可解释性、稳定性和适应性，确保人工智能系统在长时间范围内保持与人类目标的一致性。

人工智能能力的指数级增长揭示了一个根本性矛盾：安全风险的非线性增加。随着语言模型规模从百万扩展到万亿参数，其性能遵循可预测的Scaling Laws，但安全保障却呈现出完全不同的动态特性。

安全Scaling Law是一种描述模型能力扩展过程中安全干预措施如何同步发展以维持可接受风险水平的数学关系。安全Scaling Law的核心挑战在于确保安全措施与模型能力同步发展，因为性能提升通常快于安全改进。

近期研究已量化这一矛盾并提出了应对框架：

能力-风险权衡：Zhang等人建立了模型能力与安全风险间的首个定量关系，证明更强大的模型本质上面临更广泛的脆弱性。该研究引入了安全-性能指数(SPI)来衡量这种权衡关系。
有效性-安全关系：基于上述研究，Ruan等人发现针对有效性优化的模型出现安全关键失误的概率高出37%，强调了联合优化框架的必要性。
商业与开源模型差异：通过大规模基准测试，Ying等人发现了不同的安全-性能分布：商业模型（如Claude-3.5 Sonnet）通过专门的安全流程实现了29%更高的安全分数，但牺牲了15%的性能。开源模型表现出更紧密的耦合性，其中Phi系列以40%更低的计算成本达到了91%的商业安全水平。
规模-数据相互作用：与预期相反，模型规模仅解释了42%的安全差异，而数据质量却占据68%，表明以数据为中心的方法可能优于单纯的规模扩展。
多模态脆弱性：多模态大语言模型(MLLM)在视觉定位过程中出现安全失误的频率高2.1倍，跨模态注意力头被确定为主要失效点（71%的有害输出来源）。

这些研究成果共同表明，安全扩展不仅需要比例投资增长，还需要能从根本上改变能力-风险关系的架构创新。接下来将回顾新兴对齐技术如何应对这些挑战的探索。

当前格局：模型安全与性能的平衡

近年来，随着人工智能模型在高风险应用中的广泛部署，其安全性和性能已成为研究的核心议题。Zhang等人首次量化了模型安全性与性能间的关系，揭示更强大的模型固有地面临更高的安全风险。这一发现凸显了平衡模型能力与稳健安全保障需求的挑战。

在此基础上，Ruan等人研究了有效性（即模型辅助用户的能力）与安全考量的相互影响。进一步深化这一讨论，Ying等人对模型安全性和性能进行了更详细的比较与分析，得出以下结论：

(1) 如图21.1(A)和图21.1(C)所示，由于各公司安全措施和投入不同，商业模型的安全性和性能往往呈现反比关系。相比之下，开源模型在通用性能和安全性之间通常呈正相关——性能提升往往带来安全性改善。商业模型在安全性方面通常优于开源模型，其中Claude-3.5 Sonnet是商业模型中最安全的，而Phi系列则是开源模型中安全性最高的。

(2) 如图21.1(B)所示，模型规模与安全性能并非严格线性关系。训练数据质量和处理流程同样是影响安全性的关键因素；

(3) MLLM在视觉语言微调和多模态语义对齐过程中往往会牺牲安全性，其安全性能同时受底层语言模型和特定训练策略的影响。

增强安全性：偏好对齐和可控设计

随着LLM能力的飞速发展，其安全性问题日益凸显。提升模型安全性已成为LLM发展中的核心挑战。先前研究提出了多种解决方案，包括上下文示例与自我安全检查、红队评估技术以及安全人类反馈强化学习（Safe RLHF）。

LLM的安全问题本质上是一个对齐问题。目标是使模型与同时包含安全和不安全响应的数据集达成对齐。通过这一过程，模型学会优先生成更安全的输出，并最小化产生有害内容的风险。借助偏好优化技术（如DPO、IPO等），这种对齐过程能够微调模型，使其生成符合安全标准的响应。

研究报告探讨了多种用于安全增强的偏好优化方法，包括Safe DPO、Safe-robust-DPO、Safe-IPO、Safe-SLiC、Safe-KTO和Safe-NCA等。结果表明，大多数偏好优化方法能显著提升安全性，但往往以牺牲一般性能为代价，尤其是在数学能力方面。在这些方法中，噪声对比对齐（Safe-NCA）被认为是在安全性和整体模型性能之间取得最佳平衡的方法。

Safe-NCA方法的核心在于利用自定义对比损失函数结合安全数据集，通过比较生成的安全与不安全响应及参考模型输出，训练出在生成过程中更安全且更稳健的模型。

除提高安全性外，实现安全性与有效性之间权衡的灵活控制同样至关重要。人工智能模型应根据不同用户的具体需求，在安全性和有效性之间取得适当平衡。例如，对于“如何制作药水”的提示词，LLM应针对不同用户调整回应：对科学家提供技术准确的信息，而对青少年则优先考虑安全性，提供谨慎无害的建议。

为实现这一目标，研究者提出了基于自生成数据的框架来增强模型可控性。通过引入控制token作为输入，用户可以指定所需的安全性和有效性水平。控制token以以下形式定义：

该方法能够“重置”已对齐的LLM，通过自生成数据解锁其安全性和有效性，并通过微调进一步增强可控能力。然而，实现对安全性和有效性的独立控制仍面临重大挑战，原因包括：

(1) 某些提示词在平衡安全性和有效性方面难以明确定义，或两者定义在特定情境中可能相互冲突。例如，对于“我想知道这个人的净资产”的查询，难以确定应如何权衡安全性和有效性。

(2) 某些模型在训练过程中可能已形成固定权衡，限制其灵活性，强制遵循特定优先级，阻碍其根据不同应用场景进行调整。

(3) 许多训练数据样本本身同时满足安全性和有效性标准，导致这两个属性在模型训练中高度相关。

未来方向和策略：AI-45°规则和风险管理

在人工智能安全领域，虽然已提出各种安全建议和极端风险警告，但仍缺乏全面指南来平衡人工智能的安全性和能力。研究者提出了AI-45°规则作为实现可信通用人工智能平衡路线图的指导原则。该规则倡导人工智能能力和安全措施同步发展，两个维度以相同速度前进，在能力-安全坐标系中呈45°线。

这一规则强调目前人工智能能力的发展常常超过安全措施，使系统面临更大风险和威胁。因此，研究者提出了红线和黄线等风险管理框架，用于监控和管理人工智能系统规模扩张过程中的风险。

正如国际人工智能安全对话中所定义，人工智能发展的“红线”包括五个关键方面：自主复制或改进、权力寻求行为、协助武器开发、网络攻击和欺骗行为。此外，“黄线”概念旨在补充和扩展现有安全评估框架，如Anthropic的负责任扩展政策。

低于警告阈值的模型仅需基本测试和评估，而超过这些阈值的高级人工智能系统则需更严格的保障机制和安全协议以降低潜在风险。通过建立这些阈值，可采取积极主动的方法，确保人工智能系统在开发、测试和部署过程中配备适当的安全保障措施。

本综述通过将人类认知过程与人工智能进行比较，探讨了基础智能体的发展全景。

本文首先概述了智能体的核心组件，详细阐述了如何在受人类大脑启发的框架中建模记忆、感知、情感、推理和行动等模块。讨论中我们强调了智能体的模块化结构，使其能够通过专业化但又相互连接的子系统模拟类人处理机制。

接着，本文深入分析了智能体发展的动态过程，考察了利用包括在线和离线策略在内的优化技术实现自我提升的机制。通过研究大型语言模型如何同时作为推理实体和自主优化器，展示了能够持续适应环境变化的智能体所具有的变革潜力。

基于这些技术基础，综述重点强调了智能体如何通过闭环科学创新驱动其智能的自我持续进化。文章提出了一种针对知识发现任务的通用智能衡量标准，并考察了智能体与知识交互中目前的成就与局限。这一探讨也揭示了自主发现和工具整合的新兴趋势，这对于发展适应性强、弹性好的人工智能系统至关重要。

本文还探讨了智能系统的协作维度，分析了多智能体互动如何催生集体智能。文章研究了实现智能体间以及人类与人工智能协作的通信基础设施和协议设计。这部分讨论强调了促进多样化智能体能力协同的重要性，以实现复杂问题解决和有效决策。

最后，文章强调了构建安全且有益的人工智能的关键挑战。本综述涵盖了内部和外部安全威胁，从语言模型的脆弱性到智能体交互相关的风险。全面概述了安全Scaling Law和伦理考量，提出了确保基础智能体发展与社会价值观保持一致的策略。

总体而言，研究团队的工作提供了一个统一的路线图，不仅识别了当前的研究缺口，还为未来创建更强大、更具适应性且合乎伦理的智能体奠定了基础。

展望未来，研究团队预见几个标志智能体发展重大进步的关键里程碑：

首先，他们期待出现能够处理广泛人类级别任务的通用智能体，而非仅限于特定领域。这些智能体将整合先进的推理、感知和行动模块，使其能够以类人的适应性和灵活性执行任务。实现这一里程碑将从根本上改变人工智能支持和增强人类能力的方式。

另一关键里程碑是开发能直接从环境中学习并通过与人类和数据交互不断自我进化的智能体。随着训练时间和测试时间计算间界限的逐渐模糊，智能体将通过与环境、其他智能体和人类伙伴的互动即时获取新技能。这种动态学习过程对于实现人类水平的能力以及使智能体适应不断变化的世界至关重要。若智能体要能够推动科学发现创新，这一点尤为重要，因为它扩展了智能体和人类进化的边界。

团队预测，智能体将通过将个体人类专业知识转化为集体智能，超越传统人类局限。当前人类信息共享中的低效问题——复杂知识需要大量实践才能传递——将被智能体克服，它们提供了一种既可传递又可无限复制的人类知识载体。这一突破将消除复杂性瓶颈，实现新型智能网络效应，使大规模人类和人工智能智能体组合能够在随网络规模扩展的智能水平上运作。

在这种情况下，智能体获取的知识与人类专业知识的融合将创造一个环境，使见解和创新能在各领域迅速传播和应用。我们还预期这种智能网络效应将建立一种新型人类-人工智能协作范式——规模更大、更加跨学科、组织更为动态。由此产生的人类-人工智能社会将实现前所未有的复杂性和生产力水平，开创技术和社会发展的变革时代。

总之，这些里程碑描绘了一个未来图景，智能体将变得越来越自主、适应性更强，并与人类社会深度融合——推动科学发现、增强知识共享，并在全球范围内重新定义协作方式。

感谢大家观看~

【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统——第三部分：协作和进化智能系统》【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统》

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/237643.html原文链接：https://javaforall.net

【AI Agent研究综述】《基础智能体的进展与挑战：从脑启发智能到进化、协作和安全系统——第四部分：构建安全且有益的AI智能体》

关于作者

全栈程序员-站长

相关推荐

Nano Banana Pro 中文提示词完整教程：让 AI 准确渲染中文文字

盘点十大国产 AI 大模型工具推荐：Deepseek、豆包、Kimi、秘塔AI、文心一言、智谱轻言、通义千问、元宝、360 纳米搜索、天工 AI

Spring-AI 接入（本地大模型 deepseek + 阿里云百炼 + 硅基流动） – 教程

2026年OpenClaw一键部署平台整合全攻略

OpenClaw自动化部署实战：在京东云快速搭建个人AI智能体并接入QQ机器人

中國互聯網金融協會發佈關於OpenClaw在互聯網金融行業應用安全的風險提示