零基础学 Agent：从 AI 到 Agent，每个概念逐一拆解第1期

大家好，我是AI淇橦学。
2025 年是 AI 爆发年，2026 年是 AI Agent 爆发年。

这句话在各种地方刷屏。然后 Open Claw 又火了，身边同事开始问我：“到底什么是 Agent？”

说实话，最开始我也一脸懵。

网上的解释要么太技术，满屏 API、架构图、代码示例；要么太笼统，说了半天还是不知道这东西到底能干嘛。

我不想跟风，我就想自己也搞懂。

所以这段时间就断更了

于是花了一段时间，查了好多资料，找了几十篇论文和技术文章，试了十几个工具，终于把这些概念串起来了。更重要的是——我发现，像我这种非技术人员，完全可以不写代码，用 Claude Code、Trae、Codex 这些编程工具，通过自然语言做出自己的 Agent。

这个系列，就是我陪你一起，从零开始，做出你第一个 Agent 的完整记录。

我知道，成年人最痛苦的就是学习。

干货满满？好，但看着看着就困了。概念太抽象？好，但看完还是不知道怎么动手。

所以这个系列，我会用同一个工作中会用到的例子贯穿全程——“办公 agent”。

每个概念都落到这个具体场景上，技术细节可能不完善，大家不要太介意，主要就是：

它是什么
和别的东西有什么区别
什么场景分别用哪个

学完你不仅能说清楚概念，更重要的是——你会知道，自己的哪个场景可以用 Agent 解决。

如果你最近才开始关注 AI，大概率被一堆名词搞晕了。它们有时候好像说的是一回事，有时候又完全不同。

我先用一张表帮你建立全局认知：

别急，下面我把每个概念逐一拆清楚。

AI 就是让机器”表现得像在思考”的技术。但这个说法太泛了。

我们现在日常说的”AI”，大多数时候指的是深度学习这个分支——通过喂给机器大量数据，让它自己学习规律，而不是靠人工写死规则。

最简单的区分方式是：

传统软件：如果 A 就做 B，程序员把所有规则写死
AI：给它足够多的例子，它自己学会规律，碰到没见过的情况也能应对

比如，传统软件处理邮件，需要程序员写清楚”如果标题包含’发票’，就移到’财务’文件夹”。但 AI 不需要你告诉它规则，你给它 1000 封已分类的邮件，它自己学会”哦，原来这类邮件应该放这里”。

LLM = Large Language Model，大语言模型。它是 AI 的一个具体类型，专门处理语言——文字的理解和生成。

Claude、GPT-4、Gemini，这些都是 LLM。

它们的训练方式大概是：

读了海量文字：互联网上的文章、书籍、代码、对话
学会了语言规律：语法、逻辑、知识、推理方式
工作原理是”预测下一个词”：你给它一段话，它预测接下来最合适的内容

最后一点很重要。

LLM 本质上是在做”概率预测”，不是在”真正思考”。这不是在贬低它——这种预测能力已经强到能通过医学考试、写代码、做分析——但你理解了这个，对后面理解 Agent 会很有帮助。

Chatbot（聊天机器人）是 LLM 最常见的应用形式：把 LLM 包装成一个对话界面，你问它答。

ChatGPT、Claude.ai 豆包等的基础用法，都是 Chatbot。

它的工作模式是：

就是问答。每次对话相对独立，它不会主动采取行动，不会操作你的文件，不会在对话框之外做任何事情。

用合同场景来说：你把合同模板粘进去，说”帮我填写张三的合同，地址北京朝阳区，金额五万”，它会给你一段文字，告诉你每个字段应该填什么。

但它不会打开你的 Word 文件，不会真的把内容填进去，不会保存文件。

它只能”说”，不能”做”。

Workflow（工作流）是另一种思路：不依靠 AI 来决策，而是把多个步骤按照固定顺序串联起来，自动执行。

想象一条流水线：A 做完了触发 B，B 做完了触发 C，每一步都是预先设定好的。coze、n8n、Make等都是做这件事的工具。

Workflow 的优点是稳定、可预测——只要输入格式固定，结果也是固定的。

但它的局限很明显：步骤是写死的，遇到没有预料到的情况就会卡住。

比如同样是处理合同，如果每份合同的格式都完全一样，Workflow 完全够用。但如果合同格式有差异、字段位置不固定、需要根据内容来判断怎么填，Workflow 就不知道该怎么办了。

它缺少 “遇到新情况，自己想出应对方法” 的能力。

这是这篇文章最核心的部分。

Agent（智能体）= AI 大脑 + 自主规划能力+ 工具

把这三个部分拆开来理解：

组成部分是什么在办公 Agent 里的体现 AI 大脑（LLM） 负责理解指令、做判断、规划步骤的核心理解你说的”帮我填张三的合同”是什么意思，判断每个字段应该填什么工具真能执行操作的能力，是 Agent 和 Chatbot 最本质的区别读取文件的工具、写入字段的工具、保存文件的工具——有了这些，它才能真的”动手做” 自主规划 拿到目标之后，自己拆解步骤，自己决定下一步收到”批量处理这 10 份合同”，自己规划”先列清单→逐个读取→逐个填写→逐个保存→出报告”

用同一个合同场景做对比，感受一下区别：

你说同一句话：“帮我把张三的合同填好” 实际发生了什么 ChatGPT（Chatbot）的回应 给你一段文字，说”甲方姓名应填张三，联系地址应填北京市朝阳区……” 然后等你自己去填 办公 Agent 的回应 ① 调用读取工具，打开合同模板，识别出 5 个空白字段 ② 依次调用写入工具，把张三、北京朝阳区、¥50,000 填入对应位置 ③ 调用保存工具，另存为”合同_张三_.docx” ④ 告诉你”完成，已保存到桌面”

一个是”告诉你答案”，一个是”帮你把事情做完”。

这个区别就是 Chatbot 和 Agent 最核心的不一样。

很多人以为 Agent 是”更聪明的 AI”，其实不是。

它和 Chatbot 用的往往是同一个 AI 大脑，区别就在于 “有没有调用工具” 。

这里有一个非常重要的底层认知：

⚠️ 关键认知
AI（LLM）本身不能直接操作任何东西。它只能输出文字。“工具调用”的本质是：AI 输出一段特殊格式的指令说”我要调用 XX 工具”，外部程序读到这段指令，去真正执行操作，再把结果返回给 AI。AI 从头到尾只是在处理文字，真正动手的是程序。

所以准确来说，Agent 的工作方式是这样的：

理解了这个，你就能理解为什么”工具描述”非常重要——AI 靠的是工具描述来决定调用哪个工具、传什么参数。描述越清晰，Agent 出错的概率越低。

Agent 强大，但不是所有场景都需要 Agent。用错了反而麻烦。

场景类型适合用什么原因写一封邮件草稿 Chatbot 就够只需要文字生成，不需要操作文件，不需要多步骤每天自动把固定格式的邮件里的数据存入表格 Workflow 步骤完全固定，不需要 AI 判断处理格式不统一的合同，根据内容智能填写 Agent 需要 AI 理解内容 + 工具操作文件 + 应对格式差异从几十份历史文档里找和今天问题最相关的 Agent（RAG）需要语义理解 + 知识库检索，关键词搜索不够用把一个长文档翻译成英文 Chatbot 或直接调用 API 纯文字处理，不需要操作文件系统

一个判断原则：

如果任务只需要”生成文字”，Chatbot 就够
如果任务需要”操作文件/系统/外部数据”，需要 Workflow
如果操作步骤不固定、需要根据实际情况判断，才需要 Agent

前面都是理论。这个系列的方式是：用”做一个桌面端办公 Agent”作为贯穿案例，把每个概念都落到具体实操上。

这个 Agent 的目标是：

有一个知识库，存放你的历史 Word、Excel、PDF 文档
支持导入新文件，Agent 自动读取内容
你用自然语言告诉它要做什么，它完成填写、整理、保存等任务
全程不需要打开文件，不需要手动复制粘贴

最重要的是，这套课程不需要你写代码。

我们用 Claude Code、Trae、Codex 这类编程工具，通过自然语言来驱动代码生成。真正需要训练的能力是：描述清楚需求、拆解任务步骤、验收执行结果，而不是”怎么写 Python”。

课程一共 8 期，每期聚焦一个核心能力：

期数主题你能学会什么第1期（本期）从 AI 到 Agent 的概念拆解搞清楚 Agent 是什么，和 ChatGPT 有什么区别第2期明确你的 Agent 要解决什么问题从模糊想法到可执行的需求定义第3期 Agent 的8大核心模块了解一个 Agent 由什么组成，缺了哪个会出问题第4期工具调用入门让你的 Agent 能真正”动手”操作文件第5期记忆系统搭建让你的 Agent 能”记住”历史文档和知识第6期规划能力训练让你的 Agent 能自己拆解任务、多步骤执行第7期评估与调试当 Agent 出错时，怎么定位问题和优化第8期完整合跑把前面的模块组装起来，做出一个能真正运行的 Agent

8 期结束时，你会有一个真正可以运行的 Agent 最小mvp原型，它能帮你处理一些真实的工作任务。

我知道，成年人学习最怕的就是”看懂了，但不知道怎么动手”。

所以每期结束，我都会给把本期的讲义发送给你，后台回复“Agent”

第 2 期，我会教你一个方法：如何把”我想用 Agent 做个东西”这种模糊想法，变成清晰可执行的需求。

我会用我自己做 Agent 时的真实案例，带你走一遍从”有个想法”到”知道第一步该干什么”的完整过程。

n8n 工作流教程如果你也想做出自己的第一个 Agent，关注我，我们下期见。

关注公众号「AI淇橦学」，和 AI 一起成长。

有问题或建议？后台留言即可。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/282907.html原文链接：https://javaforall.net

零基础学 Agent：从 AI 到 Agent，每个概念逐一拆解第1期

关于作者

Ai探索者网站注册用户

零基础学 Agent：从 AI 到 Agent，每个概念逐一拆解 第1期

关于作者

Ai探索者网站注册用户

相关推荐

如何使用 n8n 和 Scrapeless 构建智能 B2B 潜在客户生成工作流程

n8n入门笔记：用AI工作流自动化一切，成为未来工程师

字节开源了个类 Manus 通用型 AI Agent 产品 TARS

怎么申请Manus邀请码，附Manus邀请码申请技巧

manus背后的秘密！一种摆脱“模型吞噬应用”魔咒的应用范式在孕育

heygem本地部署完整教程

零基础学 Agent：从 AI 到 Agent，每个概念逐一拆解第1期