零基础学 Agent:从 AI 到 Agent,每个概念逐一拆解 第1期

零基础学 Agent:从 AI 到 Agent,每个概念逐一拆解 第1期

图片

大家好,我是AI淇橦学。
2025 年是 AI 爆发年,2026 年是 AI Agent 爆发年。

这句话在各种地方刷屏。然后 Open Claw 又火了,身边同事开始问我:“到底什么是 Agent?”

说实话,最开始我也一脸懵。

网上的解释要么太技术,满屏 API、架构图、代码示例;要么太笼统,说了半天还是不知道这东西到底能干嘛。

我不想跟风,我就想自己也搞懂。

所以这段时间就断更了

于是花了一段时间,查了好多资料,找了几十篇论文和技术文章,试了十几个工具,终于把这些概念串起来了。更重要的是——我发现,像我这种非技术人员,完全可以不写代码,用 Claude Code、Trae、Codex 这些编程工具,通过自然语言做出自己的 Agent。

这个系列,就是我陪你一起,从零开始,做出你第一个 Agent 的完整记录。


我知道,成年人最痛苦的就是学习。

干货满满?好,但看着看着就困了。概念太抽象?好,但看完还是不知道怎么动手。

所以这个系列,我会用同一个工作中会用到的例子贯穿全程——“办公 agent”。

每个概念都落到这个具体场景上,技术细节可能不完善,大家不要太介意,主要就是:

  • 它是什么
  • 和别的东西有什么区别
  • 什么场景分别用哪个

学完你不仅能说清楚概念,更重要的是——你会知道,自己的哪个场景可以用 Agent 解决


如果你最近才开始关注 AI,大概率被一堆名词搞晕了。它们有时候好像说的是一回事,有时候又完全不同。

我先用一张表帮你建立全局认知:

图片

别急,下面我把每个概念逐一拆清楚。


图片

AI 就是让机器”表现得像在思考”的技术。但这个说法太泛了。

我们现在日常说的”AI”,大多数时候指的是深度学习这个分支——通过喂给机器大量数据,让它自己学习规律,而不是靠人工写死规则。

最简单的区分方式是:

  • 传统软件:如果 A 就做 B,程序员把所有规则写死
  • AI:给它足够多的例子,它自己学会规律,碰到没见过的情况也能应对

比如,传统软件处理邮件,需要程序员写清楚”如果标题包含’发票’,就移到’财务’文件夹”。但 AI 不需要你告诉它规则,你给它 1000 封已分类的邮件,它自己学会”哦,原来这类邮件应该放这里”。


图片

LLM = Large Language Model,大语言模型。它是 AI 的一个具体类型,专门处理语言——文字的理解和生成。

Claude、GPT-4、Gemini,这些都是 LLM。

它们的训练方式大概是:

  1. 读了海量文字:互联网上的文章、书籍、代码、对话
  2. 学会了语言规律:语法、逻辑、知识、推理方式
  3. 工作原理是”预测下一个词”:你给它一段话,它预测接下来最合适的内容

最后一点很重要。

LLM 本质上是在做”概率预测”,不是在”真正思考”。这不是在贬低它——这种预测能力已经强到能通过医学考试、写代码、做分析——但你理解了这个,对后面理解 Agent 会很有帮助。


图片

Chatbot(聊天机器人)是 LLM 最常见的应用形式:把 LLM 包装成一个对话界面,你问它答。

ChatGPT、Claude.ai 豆包等的基础用法,都是 Chatbot。

它的工作模式是:


就是问答。每次对话相对独立,它不会主动采取行动,不会操作你的文件,不会在对话框之外做任何事情。

用合同场景来说:你把合同模板粘进去,说”帮我填写张三的合同,地址北京朝阳区,金额五万”,它会给你一段文字,告诉你每个字段应该填什么。

但它不会打开你的 Word 文件,不会真的把内容填进去,不会保存文件。

它只能”说”,不能”做”。


图片

Workflow(工作流)是另一种思路:不依靠 AI 来决策,而是把多个步骤按照固定顺序串联起来,自动执行。

想象一条流水线:A 做完了触发 B,B 做完了触发 C,每一步都是预先设定好的。coze、n8n、Make等都是做这件事的工具。

Workflow 的优点是稳定、可预测——只要输入格式固定,结果也是固定的。

但它的局限很明显:步骤是写死的,遇到没有预料到的情况就会卡住。

比如同样是处理合同,如果每份合同的格式都完全一样,Workflow 完全够用。但如果合同格式有差异、字段位置不固定、需要根据内容来判断怎么填,Workflow 就不知道该怎么办了。

它缺少  “遇到新情况,自己想出应对方法”  的能力。


图片

这是这篇文章最核心的部分。

Agent(智能体)= AI 大脑  + 自主规划能力+ 工具

把这三个部分拆开来理解:

组成部分 是什么 在办公 Agent 里的体现 AI 大脑(LLM) 负责理解指令、做判断、规划步骤的核心 理解你说的”帮我填张三的合同”是什么意思,判断每个字段应该填什么 工具 真能执行操作的能力,是 Agent 和 Chatbot 最本质的区别 读取文件的工具、写入字段的工具、保存文件的工具——有了这些,它才能真的”动手做” 自主规划 拿到目标之后,自己拆解步骤,自己决定下一步 收到”批量处理这 10 份合同”,自己规划”先列清单→逐个读取→逐个填写→逐个保存→出报告”

用同一个合同场景做对比,感受一下区别:

你说同一句话:“帮我把张三的合同填好” 实际发生了什么 ChatGPT(Chatbot)的回应 给你一段文字,说”甲方姓名应填张三,联系地址应填北京市朝阳区……” 然后等你自己去填 办公 Agent 的回应 ① 调用读取工具,打开合同模板,识别出 5 个空白字段 ② 依次调用写入工具,把张三、北京朝阳区、¥50,000 填入对应位置 ③ 调用保存工具,另存为”合同_张三_.docx” ④ 告诉你”完成,已保存到桌面”

一个是”告诉你答案”,一个是”帮你把事情做完”。

这个区别就是 Chatbot 和 Agent 最核心的不一样。


图片

很多人以为 Agent 是”更聪明的 AI”,其实不是。

它和 Chatbot 用的往往是同一个 AI 大脑,区别就在于  “有没有调用工具”

这里有一个非常重要的底层认知:

⚠️ 关键认知
AI(LLM)本身不能直接操作任何东西。它只能输出文字。“工具调用”的本质是:AI 输出一段特殊格式的指令说”我要调用 XX 工具”,外部程序读到这段指令,去真正执行操作,再把结果返回给 AI。AI 从头到尾只是在处理文字,真正动手的是程序。

所以准确来说,Agent 的工作方式是这样的:


理解了这个,你就能理解为什么”工具描述”非常重要——AI 靠的是工具描述来决定调用哪个工具、传什么参数。描述越清晰,Agent 出错的概率越低。


图片

Agent 强大,但不是所有场景都需要 Agent。用错了反而麻烦。

场景类型 适合用什么 原因 写一封邮件草稿 Chatbot 就够 只需要文字生成,不需要操作文件,不需要多步骤 每天自动把固定格式的邮件里的数据存入表格 Workflow 步骤完全固定,不需要 AI 判断 处理格式不统一的合同,根据内容智能填写 Agent 需要 AI 理解内容 + 工具操作文件 + 应对格式差异 从几十份历史文档里找和今天问题最相关的 Agent(RAG) 需要语义理解 + 知识库检索,关键词搜索不够用 把一个长文档翻译成英文 Chatbot 或直接调用 API 纯文字处理,不需要操作文件系统

一个判断原则:

  • 如果任务只需要”生成文字”,Chatbot 就够
  • 如果任务需要”操作文件/系统/外部数据”,需要 Workflow
  • 如果操作步骤不固定、需要根据实际情况判断,才需要 Agent

前面都是理论。这个系列的方式是:用”做一个桌面端办公 Agent”作为贯穿案例,把每个概念都落到具体实操上。

这个 Agent 的目标是:

  • 有一个知识库,存放你的历史 Word、Excel、PDF 文档
  • 支持导入新文件,Agent 自动读取内容
  • 你用自然语言告诉它要做什么,它完成填写、整理、保存等任务
  • 全程不需要打开文件,不需要手动复制粘贴

最重要的是,这套课程不需要你写代码。

我们用 Claude Code、Trae、Codex 这类编程工具,通过自然语言来驱动代码生成。真正需要训练的能力是:描述清楚需求、拆解任务步骤、验收执行结果,而不是”怎么写 Python”。

课程一共 8 期,每期聚焦一个核心能力:

图片

期数 主题 你能学会什么 第1期(本期) 从 AI 到 Agent 的概念拆解 搞清楚 Agent 是什么,和 ChatGPT 有什么区别 第2期 明确你的 Agent 要解决什么问题 从模糊想法到可执行的需求定义 第3期 Agent 的8大核心模块 了解一个 Agent 由什么组成,缺了哪个会出问题 第4期 工具调用入门 让你的 Agent 能真正”动手”操作文件 第5期 记忆系统搭建 让你的 Agent 能”记住”历史文档和知识 第6期 规划能力训练 让你的 Agent 能自己拆解任务、多步骤执行 第7期 评估与调试 当 Agent 出错时,怎么定位问题和优化 第8期 完整合跑 把前面的模块组装起来,做出一个能真正运行的 Agent

8 期结束时,你会有一个真正可以运行的 Agent 最小mvp原型,它能帮你处理一些真实的工作任务。


我知道,成年人学习最怕的就是”看懂了,但不知道怎么动手”。

所以每期结束,我都会给把本期的讲义发送给你,后台回复“Agent”


第 2 期,我会教你一个方法:如何把”我想用 Agent 做个东西”这种模糊想法,变成清晰可执行的需求。

我会用我自己做 Agent 时的真实案例,带你走一遍从”有个想法”到”知道第一步该干什么”的完整过程。

n8n 工作流 教程如果你也想做出自己的第一个 Agent,关注我,我们下期见。

关注公众号「AI淇橦学」,和 AI 一起成长。

有问题或建议?后台留言即可。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/282907.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月14日 下午7:51
下一篇 2026年3月14日 下午7:51


相关推荐

关注全栈程序员社区公众号