简介
Memento提出基于记忆的学习框架,让LLM Agent在线适应无需更新模型权重。采用基于案例推理的记忆增强MDP,通过规划器-执行器架构实现,包含案例记忆、子任务记忆和工具记忆。结合非参数记忆检索和参数记忆学习Q函数进行案例排序。实验表明在多个数据集上表现优异,为Agent构建提供了实用指导,如使用精选案例记忆、保持规划简洁以及分离规划与执行。
论文(Memento: Fine-tuning LLM Agents without Fine-tuning LLMs)提出了一个基于记忆的学习框架,让深度研究agent能够在线适应而无需更新模型权重。该agent被建模为带有基于案例推理的记忆增强MDP,在MCP工具上以规划器-执行器循环的方式实现。

方法:决策由对情景案例库的学习案例检索策略指导。非参数记忆检索Top-K相似案例;参数记忆学习Q函数(软Q学习或深度研究设置中的单步CE训练)来对案例进行排序以便重用和修订。

架构:规划器(LLM CBR)+ 执行器(LLM MCP客户端),具有三种记忆:案例记忆、子任务记忆、工具记忆。涉及规划、工具执行、案例的写入/读取以及重放缓冲区。工具涵盖搜索、爬取、多模态文档解析、代码执行和数学工具。
结果:
•GAIA: 验证集上87.88% Pass@3,测试集上79.40%,与开源agent框架相比具有竞争力或更优
•DeepResearcher: 在七个开放域QA数据集上平均66.6 F1分和80.4 PM分
•SimpleQA: 95.0%准确率,超越了最新的网络agent基线
•HLE: 24.4 PM分,接近GPT-5并领先于几个强基线


agent构建者的实用要点:
•使用紧凑、精选的案例记忆配合自适应检索,而非增长提示
•保持规划简洁明了。在GAIA上,快速规划器在多步工具使用方面优于慢思考规划器,避免了冗长或捷径计划
A上,快速规划器在多步工具使用方面优于慢思考规划器,避免了冗长或捷径计划
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
全过程AI大模型学习路线


市面上的大模型书籍确实太多了,这些是我精选出来的
Agent 智能体



这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起”前沿课程+智能实训+精准就业“的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/239413.html原文链接:https://javaforall.net
