2026年,关于AI技术,我将持续关注的大概有下面这些:
更智能、更高效、更经济的大模型(类Transformer架构优化、MoE类大模型、超稀疏类大模型、注意力优化等)、大模型的预训练、后训练和微调、推理大模型、原生多/全模态理解大模型、图像生成大模型、视频生成大模型、世界模型、代码大模型、AI Agent(智能体系统)、上下文工程、推理引擎、理解和生成大一统的模型、强化学习、在线学习和持续学习(大模型训练和学习新范式)。
我最关注的大模型有这些家的:
OpenAI的GPT系列、Anthropic的Claude、谷歌的Gemini、xAI的Grok、阿里Qwen、DeepSeek、字节豆包系列、智谱GLM、月之暗面Kimi、MiniMax、百度文心、蚂蚁百灵、讯飞星火、美团龙猫、腾讯混元,以及商汤、阶跃星辰、面壁智能等。
关于AI产品、AI工具和AI应用,我会持续关注的大概有这些:
字节豆包/阿里千问/文心一言等C端综合类AI助手、办公智能体(扣子、Kimi、天工、Minimax Agent、WPS AI等)、知识库工具如ima、图像视频创作工具(Nano Banana、Lovart、字节seed图像和视频生成模型、通义万相等)、AI coding类应用(AI IDE如Google Antigravity 、Qoder、Trae、CodeBuddy,Cli端的Claude Code、Open Code类、Codex)、智能搜索类AI工具(秘塔AI搜索、夸克等)、深度研究类工具(Kimi深度研究、千问深度研究)、垂直领域的AI产品(如蚂蚁阿福这类健康助手,视频创作助手剪映等),AI coding模型如Claude Opus,个人智能体助手如OpenClaw等。
本文以阿里云大模型高级工程师ACP考试认证学习资料为主要参考,汇总并总结了大模型、智能体领域的基础必备知识、大模型和Agent应用开发核心知识等。
无论你未来是想从事大智能体和大模型应用领域的应用研发,还是从事AI大模型/Agent产品经理、大模型/Agent测评还是大模型/Agent技术讲师,都可以作为参考资料来学习。
本文主要讲一下AI Agent(智能体)和大模型微调的基础知识,尽量通俗易懂,能让大家理解它们的工作原理。
大语言模型(LLM)就像一个被隔离在房间里的大脑——它能思考,但没有感官接收实时信息,没有手脚执行具体任务,也缺乏持续学习的能力。
为了突破这些局限,你需要在大模型基础上构建一套完整系统,让它像业务专家一样感知环境、思考规划、执行任务并从经验中学习。
这个系统就是 Agent(智能体)。
它由以下核心模块构成:
这四个模块构成了“思考-行动-观察(ReAct范式)”的闭环。
通过这个循环,Agent 能够自主规划、执行任务、并根据现实反馈来调整行为,从而完成复杂任务。
你的第一个工具函数
有同事正在开发一篇“大模型基本原理”的在线课程,他希望机器人可以帮他搜集互联网上最新的教学素材。
你会发现,机器人只能从公司知识库中检索信息,或者用大模型的世界知识回答问题。
硬编码方案:最简单的实现
要让机器人能获取互联网信息,最直接的思路是:为机器人编写一个联网搜索工具函数,它每次都会搜索用户的问题,并把搜索结果和问题一并发送给大模型。
假设你已经写好了一个名为 web_search 的函数,它可以通过搜索引擎查找资料。
现在,当用户提出请求时,你希望模型能够利用这个函数。
最简单的实现方式是,在收到请求后,程序“硬编码”执行这个函数,然后将执行结果与原始请求一并发送给大模型,让它生成一段总结性的回复。

局限性分析:为什么需要更灵活的方案
这种方式虽然简单有效,但它也有局限性:只适用于“有且仅有一个工具,且每次对话都必须调用它”的场景。
随着同事们的需求增长,你的机器人可能还要添加 (在学术网站 Arxiv 搜索论文)、(获取指定网页的全文内容)等更多工具。
这时,你会遇到一个更棘手的问题:如何让机器人按需调用工具呢?
意图识别:让 Agent 决定用什么工具(基于LLM的意图识别)
一个更优的思路是,你可以在提示词中列出所有工具,让大模型帮你决定调用哪个工具,使用什么入参。
这就是意图识别的一种简单实现。

确保可靠:结构化输出
现在你解决了“该调用哪个工具”的问题,下一步就是用代码解析和执行大模型的决策结果。
然而,你会发现大模型返回的结果夹杂着自然语言,且没有固定的格式:
这是因为大模型倾向于生成多样化的文本,而你需要的是一种易于解析的、确定的数据格式。
要解决这个问题,你需要反过来,要求模型必须按照你预设的、严格的结构化格式进行输出。
JSON 就是这样一种理想的格式。一份定义清晰的 JSON 输出是无歧义且易于解析的:
{
“tool_name”:“search_arxiv_paper”,
“parameters”:{
“query”:“Attention Is All You Need”
}
}
它清晰地定义了“做什么”(tool_name)和“用什么做”(parameters)。这种键值对结构,任何编程语言都能轻松解析。
构建”引导-校验-重试”闭环
接下来的任务,就是如何确保模型能够稳定、严格地按照你定义的 JSON 结构进行输出。要实现这一目标,你需要建立一套清晰的流程。
- 定义结构:首先,你需要精确地定义你期望的输出结构。你可以使用 JSON Schema(一种用于描述 JSON 数据结构的语言),或是在 Python 代码中通过 Pydantic 等库来定义数据模型。这个 Schema 明确了最终产出物必须包含哪些字段、每个字段的类型,是整个流程的基石。
- 构建提示词:在你的提示词中,除了要下达任务指令,你还应该附上完整的 Schema 定义,并提供一到两个完全符合该 Schema 的输出范例。通过这种”指令 + 范例”的方式,模型能更透彻地理解你的要求。
- 校验与重试:程序在收到模型的输出后,须使用相同的 Schema 进行严格验证。如果验证失败,程序应捕获验证的错误信息,并将其连同模型上一次的错误输出,作为修正线索,再次发给模型,要求它重新生成。

通过建立这样一个“引导-校验-重试”的闭环,你可以提升解析的成功率,让你的工具调用代码变得更加健壮可靠。
许多模型服务商提供的“JSON 模式”并非单纯依靠“优化训练”,而是采用了一种更月之暗面 Kimi 教程精准的技术:受控解码。
在模型生成每一个词元 (Token) 时,它会先计算出所有候选词元的概率分布。此时,系统会根据你提供的 Schema 编译出的语法规则,从这些候选词元中屏蔽掉所有不可能组成合法 JSON 的选项。
这就好比一个语法检查器,但它不是在事后检查,而是在你每次选择下一个字符时,就把所有会导致语法错误的选项从键盘上”隐藏”起来。
这项技术将”输出格式”从一个需要模型去”学习”的模糊任务,变成了一个由语法规则驱动的确定性过程,从根本上保证了输出的可靠性。
主流方案:函数调用
Function Calling 的工作原理

你刚刚手动实现的“意图识别 -> 结构化输出 -> 验证与重试”是一套健壮的工具调用流程,它的完整实现较为复杂。
为了简化开发过程,许多大模型服务商(阿里云、OpenAI、Anthropic、Google等)已在 API 中内置了这一能力,这就是函数调用 (Function Calling) 或 工具调用 (Tool Calling)。
以 OpenAI SDK 的函数调用为例:
- 工具定义 (Tool Definition): 你需要在 API 的 参数中定义可用的工具,使用 JSON Schema 描述每个工具的 、 以及 (函数所需的输入参数结构)。
- 调用决策 (Call Decision): 模型根据用户输入和工具定义,自动决策是否需要调用工具。如果需要,模型会在响应中返回 字段,包含要调用的函数名和符合 Schema 的参数 JSON。
- 执行与返回 (Execute & Return): 你需要:
- 解析 中的函数名和参数
- 在你的代码中实际执行对应的函数
- 将函数执行结果包装成一条 的 message
- 再次调用 API,将工具执行结果发送给模型
- 模型基于工具返回的结果,生成最终的用户回复。

ReAct 模式:思考-行动-观察
你会发现,工具调用的结果是通过又一次调用传递给大模型的,大模型会观察工具调用的结果,然后思考任务是否完成,从而回复你最终答案或继续行动(调用工具)。
这和你之前学过的”多轮对话”很相似。
我们把这种思考——行动——观察的循环模式称为 ReAct,按照此模式工作的 Agent 称为 ReAct Agent。
手动实现 ReAct Agent 的逻辑比较复杂。为了简化开发流程,我们将使用 AgentScope 这一生产级 Agent 框架——它已经帮你封装好了 ReAct Agent 和工具调用的完整逻辑。
AgentScope 是一套为开发者设计的、生产级别的 Agent 框架。它通过规范化的方式定义智能体的通信、记忆和工具调用,让你能专注于业务逻辑而非底层实现。AgentScope 的核心优势包括:
- 开箱即用的 ReAct Agent
:内置了完整的”思考-行动-观察”循环逻辑
- 灵活的工具管理
:通过 类统一管理工具函数,支持自动解析工具的 JSON Schema
- 多模型支持
:兼容 OpenAI、DashScope(千问)、Anthropic 等主流 LLM API
- 状态管理
:自动处理对话历史、工具调用记录等状态
- 异步支持
:所有核心功能都支持异步调用,提升性能
让我们来看一下 AgentScope 是怎么实现刚才的工具调用的:

与之前手动实现的 OpenAI Function Calling 相比,AgentScope 的优势在于:
- 工具定义更简洁
:只需要写带文档字符串的普通 Python 函数,框架会自动解析生成 JSON Schema
- 无需手动解析
: 内部自动处理 的解析、函数执行、结果包装等繁琐步骤
- 自动管理对话历史
:框架会自动记录用户消息、工具调用、工具结果等,无需手动维护
- 支持多轮工具调用
:如果一次工具调用不够,Agent 会自动继续思考并调用更多工具,直到完成任务
看到 AgentScope 的简洁实现,你可能会疑惑:既然有现成框架,为什么还要学习前面那套繁琐的手动实现?
这是因为:
- 理解底层原理:框架内部就是在执行”调用模型 → 解析 tool_calls → 执行函数 → 再次调用模型”这套流程。了解机制才能调试问题。
- 自定义需求:生产环境常需实现权限验证、缓存、重试、日志监控等特殊逻辑,理解底层才能扩展框架。
- 兼容性保障:部分模型或平台不支持标准 Function Calling 格式时,手动实现可作为降级方案。
规模化管理:MCP 协议 (Model Context Protocol)
工具复用的挑战
Function Calling 模式解决了单个应用如何调用工具的问题,但当工具需要在多个 Agent 应用中复用时,也引入了规模化维护的难题。
设想你的团队有多个 Agent,它们都需要调用互联网搜索、公司内部文档搜索等工具。如果工具的某个 API 参数发生变化,你需要修改所有依赖它的 Agent,这会产生高昂的维护成本。
问题的根源在于,工具的定义被硬编码在了每个“消费方”(Agent 应用)的代码中。
MCP 的解耦思想
为解决此问题,Anthropic 公司提出了模型上下文协议 (Model Context Protocol, MCP)。其核心思想是将定义工具的职责从“消费方”转移到“提供方”。
- 没有 MCP
:每个 AI 应用都需要自行封装所有工具的定义。工具升级时,所有应用都需修改。
- 使用 MCP
:工具服务方(如搜索服务)自行“广播”其能力定义。AI 应用只需通过 MCP 协议连接到服务方,就能自动获取最新的工具定义,无需硬编码。


实践:连接远程 MCP 服务
AgentScope 提供了对 MCP 协议的直接支持。下面是一个简单示例:
开始前 运行此代码前,请先前往阿里云百炼官网开通联网搜索 MCP 服务,并了解其计费详情。
在这个例子中,Agent 代码无需定义 工具,通过 MCP 协议在运行时动态地从 服务发现工具及其用法,从而实现了完全解耦。
MCP 通过解耦工具的定义与使用,致力于解决工具“如何被发现和管理”的规模化问题。
关联思考:USB 协议
你可以将 MCP 类比为现实世界中的 USB 协议。在 USB 出现之前,每种外设(鼠标、键盘、打印机)都有自己独特的接口,计算机需要为每一种接口都做适配。而 USB 协议统一了这一切,任何符合该协议的设备都可以即插即用。
- Function Calling
就像是计算机主板上的一个内部总线,它定义了 CPU 如何与某个特定组件通信。
- MCP
则像是外部的 USB 接口,它定义了一个开放标准,让无数第三方设备能够轻松地接入这个生态系统。
至此,你已掌握从单工具函数、可靠意图识别到规模化工具管理的完整链路。
你的 Agent 现在可以稳定高效地与外部世界交互。
由于篇幅有限,Agent部分暂时简介到这里。
下面开始讲讲大模型的微调。
————————-这是分隔线————————–
当面对特定领域的深度需求时,比如小学数学题的精准解析,靠提示工程和 RAG 往往力不从心。
针对题目中涉及的运算优先级规则、应用题单位换算逻辑等细节,模型需要掌握结构化的知识体系。
此时,微调方法展现出独特优势——通过向模型提供小学数学教育专家精心设计的解题范例,模型能够学习专家的教学方法,掌握数学思维范式,并有效提升解题能力。
在实际的模型训练过程中,还面临一个挑战:标注数据的获取成本高昂,尤其是对于特定任务(如医学图像分析或小众语言处理)。
你可以尝试对模型进行“预训练”和“微调”分步训练,其中:
预训练:在一个大规模通用数据集上训练模型,使其能够学习到广泛的基础知识或特征表示。
这些知识通常是通用的,不针对任何具体任务。预训练不针对特定任务,而是为各种下游任务提供一个强大的初始模型。
典型的预训练模型:Qwen2.5-Max、DeepSeek-V3、GPT-4等。
微调:在预训练模型的基础上,使用特定任务的小规模数据集对模型进行进一步训练。其目的是让模型适应具体的下游任务(如医疗、法务等专业领域需求)。
预训练一般通过自监督/无监督方式学习 ,学习的数据来自互联网上的海量文本(如维基百科、书籍、网页),让模型自己从数据中找规律或“猜答案。”
这种学习方式因为其数据无需人工标注,省去了大量人力成本,天然适用于海量数据的学习。
而微调通过有监督学习 ,需要针对特定任务的小规模标注数据(如情感分类的标注评论、医疗文本的标注数据),并用标注数据直接教模型完成任务。
这种学习方式由于人工标注成本高,难以扩展为海量数据,因此更适合有明确场景目标的模型训练,所需要的样本数量通常只有几千或几万条。
全参微调(Full Fine Tuning) 是在预训练模型的基础上进行全量参数微调的模型优化方法,也就是在上边的模型结构中,只要有参数,就会被调整。
该方法避免消耗重新开始训练模型所有参数所需的大量计算资源,又能避免部分参数未被微调导致模型性能下降。但是,大模型训练成本高昂,需要庞大的计算资源和大量的数据,即使是全参数微调,往往也需要较高的训练成本。
高效微调技术(PEFT) 通过调整少量参数,显著降低大模型微调的计算成本,同时保持性能接近全参训练。
典型方法包括Adapter Tuning、Prompt Tuning 和 LoRA。其中,LoRA 因仅需训练适配的小参数矩阵(即低秩矩阵,仅需原模型0.1%-1%的参数),成为资源受限场景下的首选方案。以下重点解析 LoRA 如何以极低参数量实现高效微调。








)
模型训练完成后,有两种方式可以使用训练后的模型:
- 在调用时动态加载微调模型。
微调后获得的低秩参数矩阵只占20MB的存储空间,这个大小非常便于做增量发布和传播,这也是工程上常用的方法。需要注意的是,用哪个基础模型微调,在加载时就需要指定使用哪个基础模型。
在前一小节中,已经通过指定尝试了这种方法。
- 将基础模型与微调得到的低秩参数融合,获得一个完整的、更新了参数的模型,再调用融合了的模型。
这里介绍第二种方法:融合“微调参数矩阵”与“基础模型参数矩阵”,将微调后的模型参数存储成一个完整的参数矩阵。
通过方法,传入微调模型的路径(建议传入),便可得到融合后的模型。
- Freeze:该方法是最早的PEFT方法。它在微调时冻结模型的大部分参数,仅训练模型中的小部分参数(比如最后几层神经网络),来快速适应特定任务的需求。特点 :
- 参数效率高(仅训练少量参数)。
- 适用于任务与预训练目标接近的场景(如文本分类)。
- 对复杂任务可能效果不足。

- Adapter Tuning:在原有的模型架构上,在某些位置之间插入Adapter层,微调时模型原有参数不会被训练,只训练这些Adapter层,而原先的参数不会参与训练。特点 :
- 模块化设计,兼容性强。
- 参数量略高于 LoRA,但效果稳定。
- 需修改模型结构,推理时需额外计算。

- Prompt Tuning:通过优化输入的可学习向量(Prompt)间接控制模型行为,冻结模型参数。特点 :
- 无需修改模型结构,仅调整输入。
- 对生成任务(如翻译、对话)友好。
- 效果依赖提示设计,复杂任务可能不足。
微调数据集构建策略
一般来说,在比较复杂的场景中,微调至少需要1000+条优质的训练集数据。
构建数据集时,请确认以下几点:
- 数据质量:确保数据集准确、内容相关,剔除模糊或错误样本。
- 多样性覆盖:包含任务全场景、多语境及专业术语,避免分布单一。
- 类别平衡:如果任务涉及多种类别场景,确保各类别样本均衡,防止模型偏向于某一类。
- 持续迭代:微调是一个迭代过程,根据模型在验证集上的表现反馈,不断优化和扩大数据集。
而如果你在进行模型微调时缺乏数据,建议你使用知识库检索来增强模型能力(如业务文档、FAQ)。
在很多复杂的业务场景中,可以综合采用模型调优和知识库检索相结合的技术方案。
你也可以采用以下策略扩充数据集:
人工标注:由专家扩展典型场景数据。
模型生成:用大模型模拟业务场景数据。
外部采集:通过爬虫、公开数据集、用户反馈等渠道获取。
模型评测常用指标
不同类型的任务评测指标有显著差异,如下是一些典型任务的评测指标:
分类任务:
准确率(Accuracy):正确预测的比例。
精确度(Precision)、召回率(Recall)与F1分数(F1 Score):用于衡量二分类或多分类问题中正类别的识别效果。
文本生成任务:
BLEU (Bilingual Evaluation Understudy) :主要用于机器翻译等自然语言处理任务中,通过比较候选翻译与一个或多个参考翻译之间的n-gram重叠来计算得分。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) :常用于自动摘要评价,它基于n-gram召回率、精确率以及F-measure。
Perplexity (困惑度):用来衡量概率分布模型预测样本的不确定程度;越低越好。
图像识别/目标检测:
Intersection over Union (IoU):两个边界框相交部分面积与并集面积之比。
mAP (mean Average Precision):平均精度均值,广泛应用于物体检测任务中。
领取方式在文末
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

- 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
- 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/278574.html原文链接:https://javaforall.net
