KARMA: 利用多智能体进行知识图谱扩展

KARMA: 利用多智能体进行知识图谱扩展

img

Year: 2025

Address: https://arxiv.org/abs/2502.06472

知识图谱(Knowledge Graphs,KGs)对于构建和推理跨不同领域的复杂信息至关重要。然而科学文献的爆炸式增长(每年超700万篇)对领域知识图谱的维护提出了前所未有的挑战。

在具有复杂、专业术语的特定领域,例如医疗、金融和自治系统等,维护领域知识图谱会更加困难。传统知识图谱构建方法包括人工标注管理,虽然可靠,但是在大规模数据上却难以维系。基于传统自然语言处理(Natural Language Processing,NLP)的自动化构建方法常常难以处理科技文献中特定领域的术语和依赖于上下文的关系。此外,将知识提取和集成到现有的知识库中需要鲁棒的机制来实现模式对齐、一致性和冲突解决。在高风险的应用程序中,这些系统中的不准确性的成本可能非常高。

大语言模型(Large Language Models,LLMs)的最新进展在语境理解和推理方面取得了显著进步。在这些进步的基础上,研究界越来越多地探索多智能体系统,其中几个专门的智能体协同工作以解决复杂的任务。这些系统利用单智能体的优势,每个智能体都针对特定的子任务进行了优化,并支持跨代理验证和输出的迭代改进。这种多智能体框架在从决策到结构化数据提取等领域显示出前景,通过冗余和协作提供鲁棒性。

img

本文提出了KARMA方法,一种新的多智能体框架,它通过一个多智能体协作系统使用LLM。每个智能体专注于KG扩展任务流水线中的不同任务。本文的框架提供了三个关键创新:

  1. 多智能体架构,使用9个专业化智能体分工协作(如实体抽取、模式对齐、冲突消解等)。采用交叉验证机制,例如,关系抽取智能体(REA)与模式对齐智能体(SAA)协作验证实体合法性。通过 LLM 辩论机制解决逻辑矛盾(如药物疗效冲突)。提高了提取知识的可靠性。例如,关系提取代理根据模式一致性输出验证候选实体,而冲突解决代理通过基于LLM的辩论机制解决矛盾。
  2. 领域自适应提示策略,允许系统在处理特定上下文的同时保持准确性,能够适应不同领域的术语和逻辑(如代谢组学中的酶促反应与基因调控网络)。
  3. 模块化设计,确保了可扩展性,并支持新实体或关系出现时的动态更新。

通过对来自三个不同领域的数据集进行概念验证实验,实验表明KARMA可以有效地从非结构化文本中提取高质量的知识,以精度和可扩展性极大地丰富现有的知识图谱。

传统方法主要分为三类:基于规则与模板的方法基于监督学习的神经模型弱监督与远程监督方法。第一类方法(如WordNet的语义规则、Hearst Patterns模板)依赖人工设计规则,在封闭领域(如医学术语标准化)中精度高、可解释性强,但其召回率低、领域迁移成本高,难以覆盖复杂语义关系(如基因调控中的间接因果)。第二类方法以BioBERT、SciBERT等预训练模型为代表,通过微调实现命名实体识别和关系抽取,虽能利用大规模语料学习领域特征,但严重依赖标注数据(生物医学领域每类关系需3k-5k样本),且仅能识别预定义关系类型,无法适应开放域中的新兴模式(如COVID-19突变蛋白与宿主细胞的关系)。第三类方法(如基于Wikidata对齐的远程监督)通过知识库对齐或共现统计生成弱监督信号,减少了人工标注需求,但标注噪声敏感(如药物副作用误标为治疗作用),且模式固化,难以发现未预定义的关系。

基于LLM的方法可进一步细分为单步生成式知识抽取检索增强生成(RAG)迭代式精炼方法。单步生成(如直接提示GPT-4生成三元组)支持开放模式学习,但存在严重幻觉问题(如虚构蛋白质相互作用)和模式不一致性(如“基因X促进/抑制疾病Y”的矛盾),且长文本处理效率低。RAG方法(如结合BM25检索器)通过检索相关文档增强生成过程,减少幻觉,但受限于检索质量(如漏检最新预印本证据)和领域适应性不足(生物医学需专用术语库MeSH)。迭代式精炼方法(如Chain-of-Thought多轮推理)通过反馈循环提升逻辑一致性,但因多次调用LLM导致计算成本高,且缺乏与知识图谱现有模式的结构化验证。

多智能体系统(Multi-Agent Systems, MAS)通过分工协作机制解决复杂任务,近年来在NLP领域崭露头角。然而,将其应用于KG扩展面临独特挑战:领域知识深度需求:生物医学等领域涉及高度专业化的术语和逻辑(如基因调控网络中的条件性因果),通用智能体难以理解;结构化验证缺失:知识图谱要求实体关系的全局一致性(如避免环路、冗余边),而现有系统缺乏针对图结构的冲突检测机制;动态扩展需求:科学发现快速迭代(如新病毒变种的发现),系统需支持灵活添加新模块或调整关系模式。

现有系统分为通用框架领域专用系统两类。通用框架(如AutoGen、MetaGPT)通过预定义角色(程序员、测试员)分解任务并交叉验证(如代码逻辑冲突检测),但缺乏生物医学领域适配性(无法处理嵌套实体缩写)和知识图谱兼容性(未与Wikidata类型约束对齐)。领域专用系统(如ChemCrow、BioAgent)通过嵌入领域规则(如ChemCrow使用RDKit验证化学反应)提升任务完成率,但依赖硬编码逻辑导致灵活性不足(难以适应CRISPR新变种)且扩展性差(新增模块需重构通信协议)。

本文所提出的KARMA采用了领域优化的多智能体架构

  1. 专业化分工:设置9个核心智能体,包括实体抽取(NEA识别嵌套实体)、关系抽取(REA标注置信度)、模式对齐(SAA验证Wikida类型)、冲突消解(CRA启动LLM辩论)和领域适配(DAA动态调整提示词),并通过协作流程(如NEA识别“STAT3”与“乳腺癌”,REA提取“促进转移”关系,SAA验证实体类型,CRA裁决冲突结论)实现“生成-验证-修正”闭环。
  2. 领域自适应机制:动态提示策略根据子领域特征调整模板(如基因组学强调“基因-表型-敲除实验”逻辑链,药物毒理学关联“化学结构-代谢酶-副作用”),并注入压缩知识库(如ChEMBL化合物库)辅助决策。
  3. 结构化验证流水线:分语法层(过滤非标准缩写)、逻辑层(检测因果矛盾)和图谱层(禁止环路)三级冲突检测,采用证据加权(临床三期试验优先)和溯源回溯(关联原文人工审核)策略消解冲突。
  4. 模块化扩展:支持插件式架构(新智能体通过API接入)和动态模式更新(如发现“病毒-宿主蛋白互作”关系时自动扩展模式库)。

设表示现有的知识图谱,为实体集合,为关系集合,由有向边表示。每个关系都由一个三元组表示,记为,其中头尾实体满足关系,而表示关系种类。假设有一系列的非结构文本,本文的目标是从任意一篇文本中自动抽取新的三元组,三元组满足关系,并将其添加到现有知识图谱中,得到增强知识图谱。满足:

其中,是从中得到的有效三元组。为了保持一致性和准确度,每一个候选三元组在添加前都会经过验证。

img

智能体名称核心功能
Central Controller Agent (CCA)任务调度与资源分配,通过LLM评分函数动态优化任务优先级,平衡探索与利用策略。
Ingestion Agents (IA)文档获取与格式标准化,处理OCR错误/结构异构问题。
Reader Agents (RA)文本分段与相关性过滤,基于领域知识阈值δ剔除低价值段落。
Summarizer Agents (SA)领域特异性摘要生成,保留关键实体关系,降低下游处理噪声。
Entity Extraction Agents (EEA)实体识别与标准化,通过BERT嵌入空间对齐实现本体映射。
Relationship Agents (REA)多标签关系推断,支持”抑制/引发”等复杂共现关系的概率判别。
Schema Alignment Agents (SAA)模式一致性校验,对未匹配实体/关系进行类型归类或标记为新类型。
Conflict Resolution Agents (CRA)矛盾检测与消解,通过LLM辩论机制解决知识冲突。
Evaluator Agents (EA)多维质量评估,综合置信度/清晰度/相关性得分决定知识融合。

中央控制智能体(Central Controller Agent,CCA)是 KARMA 框架的核心调度模块,采用双层优化机制实现动态任务调度与资源协调。其任务优先级决策建立在语言模型的语义理解与强化学习探索策略的融合上,通过基础效用函数 量化任务 在当前系统状态 下的潜在价值。为平衡已知高回报任务与新任务探索的博弈,CCA 引入多臂老虎机策略,在效用值中叠加探索项:

其中控制探索强度,t 为全局任务计数,记录特定任务的历史执行次数。

最终优先级指标:

综合了语义价值、截止时间紧急度和资源成本 的多维考量,形成动态调整的优先级队列 Q。

在资源分配层面,CCA 将任务派发建模为混合整数规划问题,目标函数:

要求最小化带优先权重的总资源消耗,约束条件确保智能体 的资源负载 不超过其容量 ,该模型支持异构计算单元(CPU/GPU/TPU)的差异化资源配置,并通过松弛-修正算法实现快速求解。

系统设计上,CCA 能够进行时变探索项自适应发现高价值任务类型,利用加权架构实现多目标权衡;资源模型的模块化设计兼容横向扩展,支持千级智能体的异步任务处理;内置容错机制通过 函数自动提升停滞任务优先级,配合超时重试策略保障任务可靠性。这种融合语义推理与运筹优化的混合架构,使 CCA 在动态环境中保持调度效率与鲁棒性的平衡。

提取智能体(Ingestion Agents,IA)从原始文献中高效提取并规范化知识的核心任务。IA模块通过专门设计的LLM提示机制自动解析PDF或HTML格式的原始文献内容,并针对光学字符识别(OCR)错误、表格结构异常等复杂场景进行智能修正。该模块通过语义分析与格式标准化处理,将异构的原始文本统一转换为结构化文本表示,同时提取关键元数据(包括标题、作者、期刊名称、出版日期及DOI等唯一标识符)。为了确保下游Agent的语义连贯性,IA进一步对非ASCII字符(如希腊字母、特殊符号)进行编码转换,将其映射为ASCII字符或最小化LaTeX标记。最终,IA输出包含标准化文本内容与元数据的JSON结构化数据,其中文本内容以单一字符串或保留原始层级结构的数组形式存储,以便后续Reader Agents基于领域相关性评分进行内容筛选与片段划分。这一过程通过自动化纠错与语义增强,显著提升了非结构化文本向知识图谱构建输入的适配性。

阅读智能体(Reader Agents,RA)将规范化后的文本解析成连贯的片段(如摘要、方法、结果等),并过滤掉不相关的内容。设为归一化后的文档,Reader Agents 会将分割为。每个片段会被赋予一个相关性得分,其计算方式为

,根据特定领域的指令,来评估该片段相对于当前知识图谱的生物医学意义。如果(其中δ是经过领域校准的阈值),RA就会丢弃该片段,而保留下来的片段则会被传递给总结智能体Summarizer Agent。

总结智能体(Summarizer Agents,SA)将阅读智能体得到的文本片段进行总结,以减少计算开销。定义:其中,用于提示大型语言模型保留关键实体、关系和特定于领域的术语。这种总结确保实体提取智能体和关系提取智能体接收高信号和低噪声的文本输入。

实体提取智能体(Entity Extraction Agent,EEA)采用基于LLM的命名实体识别(NER)技术,结合特定领域的提示和字典/本体过滤,识别文本中的相关实体,并将其规范化为知识图谱中的标准形式。通过在联合嵌入空间中最小化距离函数,将原始实体映射为规范化实体,新实体则被标记并添加到候选顶点集 。

关系提取智能体(Relationship Extraction Agent,REA)在实体规范化的基础上,利用基于 LLM 的分类器,对实体对之间的关系进行预测。根据设定的概率阈值,选择可能的关系并形成三元组,同时允许对一段文本中的多个关系进行多标签预测。

模式对齐智能体(Schema Alignment Agent,SAA)负责将新提取的实体和关系与知识图谱的现有模式进行匹配。对于不匹配的实体和关系,通过 LLM 进行特定领域的分类,将其映射到已知的类型,若无法找到合适匹配,则标记为候选添加项,以便后续审查。

冲突解决智能体(Conflict Resolution Agent,CRA)检测新提取的三元组与知识图谱中现有关系之间的逻辑矛盾。利用基于 LLM 的辩论提示,对冲突进行分类和解决,根据系统的置信度,决定是否丢弃冲突的三元组或提交给专家审查。

评价智能体(Evaluator Agent,EA)汇总多个验证信号,计算每个三元组的全局置信度、清晰度和相关性得分。通过加权平均或逻辑函数,对这些得分进行综合评估,根据设定的阈值,决定是否将三元组最终整合到知识图谱中,确保整合的知识具有较高的质量。

本文从PubMed挑选科学出版物,涵盖基因组学、蛋白质组学、代谢组学三个主要领域。基因组学语料库含 720 篇聚焦基因相关研究的论文;蛋白质组学语料库有 360 篇关于蛋白质研究的论文;代谢组学语料库包含 120 篇探讨代谢相关研究的论文。所有文章均为 PDF 格式,由 KARMA 中的提取智能体进行处理。

本文选用 GLM-4、GPT-4o、DeepSeek-v3 Agent 智能体 这三款通用 LLM 作为 KARMA 多智能体知识图谱丰富管道的基础模型,通过其 API 进行评估。实验中每个 KARMA 智能体共享同一基础模型,且尽量减少提示策略的修改,以确保不同模型和领域之间的可比性,进而分析不同基础模型对最终构建知识图谱的影响。

  • 核心指标:通过平均置信度、平均清晰度、平均相关性评估新增三元组质量。平均置信度反映所有新三元组置信度得分均值;平均清晰度衡量每个关系的明确直接程度;平均相关性体现关系在领域内的重要意义。
  • 图统计指标:用覆盖增益和连通性增益量化增强后知识图谱的结构属性。覆盖增益指知识图谱中新增的实体数量;连通性增益是现有实体节点度的净增加量。
  • 质量指标:通过冲突比率、基于 LLM 的正确率、问答一致性评估知识图谱可靠性和可用性。冲突比率表示因矛盾被冲突解决代理移除的新提取边的比例;基于 LLM 的正确率是被判断为可能正确的新三元组占所有新三元组的比例;问答一致性是通过知识图谱遍历得到的答案被认为合理的比例。

img

KARMA 通过多智能体架构显著扩展了特定领域的知识图谱。与基于 GLM-4 的单智能体方法相比,KARMA 性能更优;在不同领域表现有所差异,在基因组学领域识别的实体最多;LLM 骨干模型的选择对知识图谱质量影响大,DeepSeek-v3 在多数指标上表现出色;自动评估知识和解决冲突能提高提取知识图谱的质量,提升基于 LLM 的准确率。

  • 基因组学:该领域模型差异明显,DeepSeek-v3 实现了 38,230 的覆盖增益,同时保持 0.831 的竞争力正确率,表明 MoE 架构在大规模提取中能平衡召回率和精确率。
  • 蛋白质组学:DeepSeek-v3 在核心指标和结构增益方面领先,GLM-4 的问答一致性最高。DeepSeek-v3 比 GPT-4o 的覆盖增益高 19.1%,对蛋白质相互作用的细微差异更敏感。
  • 代谢组学:尽管语料库最小,但 GLM-4 清晰度最高,GPT-4o 正确率最高。DeepSeek-v3 的连通性增益比 GPT-4o 高 127%,在从有限数据推断代谢途径方面能力独特。

不同骨干模型各有优势。DeepSeek-v3 覆盖增益突出,在基因组学和代谢组学领域远超 GPT-4o,且保持一定正确率;GPT-4o 精确率优先,在部分领域正确率高,但连通性增益较低;GLM-4 虽参数较少,但在特定领域表现出色,如在代谢组学的清晰度和蛋白质组学的问答一致性方面最佳,且冲突率具有竞争力。

img

不同领域在token使用和处理时间上存在权衡。基因组学的完成token分布较高,解释了该领域较高的覆盖增益;蛋白质组学的处理时间分布较广,与知识质量指标的良好表现相关,说明较长处理时间有助于更深入的关系分析和验证。

img

通过去除或替换特定智能体评估其对性能的影响。去除汇总代理会产生更多实体和三元组,但降低了准确性和连贯性;禁用冲突解决代理显著降低正确性;省略评估代理对可用性影响最大。这表明 KARMA 的多智能体设计对平衡知识图谱丰富过程中的准确性、一致性和可用性至关重要。

本文提出的 KARMA 框架借助多智能体应对从科学文献中扩充知识图谱的难题,通过将任务细分到专门智能体实现知识的精准整合,实验验证了其相比单智能体方法的优势 。本框架也存在局限性,评估依赖 LLM 指标且缺乏专家验证,在不同领域性能有差异,如代谢组学领域建模稀疏关系面临挑战。从伦理角度看,LLM 的偏见可能导致知识图谱关联错误,数据隐私也需关注,人工监督必不可少。未来可整合混合神经符号方法、优化智能体协作协议来改进框架,在确保符合伦理标准的同时推动知识的发展。

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【】

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/237685.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 上午11:18
下一篇 2026年3月16日 上午11:19


相关推荐

关注全栈程序员社区公众号