
大家好,我是AI淇橦学。
2025 年是 AI 爆发年,2026 年是 AI Agent 爆发年。
这句话在各种地方刷屏。然后 Open Claw 又火了,身边同事开始问我:“到底什么是 Agent?”
说实话,最开始我也一脸懵。
网上的解释要么太技术,满屏 API、架构图、代码示例;要么太笼统,说了半天还是不知道这东西到底能干嘛。
我不想跟风,我就想自己也搞懂。
所以这段时间就断更了
于是花了一段时间,查了好多资料,找了几十篇论文和技术文章,试了十几个工具,终于把这些概念串起来了。更重要的是——我发现,像我这种非技术人员,完全可以不写代码,用 Claude Code、Trae、Codex 这些编程工具,通过自然语言做出自己的 Agent。
这个系列,就是我陪你一起,从零开始,做出你第一个 Agent 的完整记录。
我知道,成年人最痛苦的就是学习。
干货满满?好,但看着看着就困了。概念太抽象?好,但看完还是不知道怎么动手。
所以这个系列,我会用同一个工作中会用到的例子贯穿全程——“办公 agent”。
每个概念都落到这个具体场景上,技术细节可能不完善,大家不要太介意,主要就是:
- 它是什么
- 和别的东西有什么区别
- 什么场景分别用哪个
学完你不仅能说清楚概念,更重要的是——你会知道,自己的哪个场景可以用 Agent 解决。
如果你最近才开始关注 AI,大概率被一堆名词搞晕了。它们有时候好像说的是一回事,有时候又完全不同。
我先用一张表帮你建立全局认知:

别急,下面我把每个概念逐一拆清楚。

AI 就是让机器”表现得像在思考”的技术。但这个说法太泛了。
我们现在日常说的”AI”,大多数时候指的是深度学习这个分支——通过喂给机器大量数据,让它自己学习规律,而不是靠人工写死规则。
最简单的区分方式是:
- 传统软件:如果 A 就做 B,程序员把所有规则写死
- AI:给它足够多的例子,它自己学会规律,碰到没见过的情况也能应对
比如,传统软件处理邮件,需要程序员写清楚”如果标题包含’发票’,就移到’财务’文件夹”。但 AI 不需要你告诉它规则,你给它 1000 封已分类的邮件,它自己学会”哦,原来这类邮件应该放这里”。

LLM = Large Language Model,大语言模型。它是 AI 的一个具体类型,专门处理语言——文字的理解和生成。
Claude、GPT-4、Gemini,这些都是 LLM。
它们的训练方式大概是:
- 读了海量文字:互联网上的文章、书籍、代码、对话
- 学会了语言规律:语法、逻辑、知识、推理方式
- 工作原理是”预测下一个词”:你给它一段话,它预测接下来最合适的内容
最后一点很重要。
LLM 本质上是在做”概率预测”,不是在”真正思考”。这不是在贬低它——这种预测能力已经强到能通过医学考试、写代码、做分析——但你理解了这个,对后面理解 Agent 会很有帮助。

Chatbot(聊天机器人)是 LLM 最常见的应用形式:把 LLM 包装成一个对话界面,你问它答。
ChatGPT、Claude.ai 豆包等的基础用法,都是 Chatbot。
它的工作模式是:
就是问答。每次对话相对独立,它不会主动采取行动,不会操作你的文件,不会在对话框之外做任何事情。
用合同场景来说:你把合同模板粘进去,说”帮我填写张三的合同,地址北京朝阳区,金额五万”,它会给你一段文字,告诉你每个字段应该填什么。
但它不会打开你的 Word 文件,不会真的把内容填进去,不会保存文件。
它只能”说”,不能”做”。

Workflow(工作流)是另一种思路:不依靠 AI 来决策,而是把多个步骤按照固定顺序串联起来,自动执行。
想象一条流水线:A 做完了触发 B,B 做完了触发 C,每一步都是预先设定好的。coze、n8n、Make等都是做这件事的工具。
Workflow 的优点是稳定、可预测——只要输入格式固定,结果也是固定的。
但它的局限很明显:步骤是写死的,遇到没有预料到的情况就会卡住。
比如同样是处理合同,如果每份合同的格式都完全一样,Workflow 完全够用。但如果合同格式有差异、字段位置不固定、需要根据内容来判断怎么填,Workflow 就不知道该怎么办了。
它缺少 “遇到新情况,自己想出应对方法” 的能力。

这是这篇文章最核心的部分。
Agent(智能体)= AI 大脑 + 自主规划能力+ 工具
把这三个部分拆开来理解:
用同一个合同场景做对比,感受一下区别:
一个是”告诉你答案”,一个是”帮你把事情做完”。
这个区别就是 Chatbot 和 Agent 最核心的不一样。

很多人以为 Agent 是”更聪明的 AI”,其实不是。
它和 Chatbot 用的往往是同一个 AI 大脑,区别就在于 “有没有调用工具” 。
这里有一个非常重要的底层认知:
⚠️ 关键认知
AI(LLM)本身不能直接操作任何东西。它只能输出文字。“工具调用”的本质是:AI 输出一段特殊格式的指令说”我要调用 XX 工具”,外部程序读到这段指令,去真正执行操作,再把结果返回给 AI。AI 从头到尾只是在处理文字,真正动手的是程序。
所以准确来说,Agent 的工作方式是这样的:
理解了这个,你就能理解为什么”工具描述”非常重要——AI 靠的是工具描述来决定调用哪个工具、传什么参数。描述越清晰,Agent 出错的概率越低。

Agent 强大,但不是所有场景都需要 Agent。用错了反而麻烦。
一个判断原则:
- 如果任务只需要”生成文字”,Chatbot 就够
- 如果任务需要”操作文件/系统/外部数据”,需要 Workflow
- 如果操作步骤不固定、需要根据实际情况判断,才需要 Agent
前面都是理论。这个系列的方式是:用”做一个桌面端办公 Agent”作为贯穿案例,把每个概念都落到具体实操上。
这个 Agent 的目标是:
- 有一个知识库,存放你的历史 Word、Excel、PDF 文档
- 支持导入新文件,Agent 自动读取内容
- 你用自然语言告诉它要做什么,它完成填写、整理、保存等任务
- 全程不需要打开文件,不需要手动复制粘贴
最重要的是,这套课程不需要你写代码。
我们用 Claude Code、Trae、Codex 这类编程工具,通过自然语言来驱动代码生成。真正需要训练的能力是:描述清楚需求、拆解任务步骤、验收执行结果,而不是”怎么写 Python”。
课程一共 8 期,每期聚焦一个核心能力:

8 期结束时,你会有一个真正可以运行的 Agent 最小mvp原型,它能帮你处理一些真实的工作任务。
我知道,成年人学习最怕的就是”看懂了,但不知道怎么动手”。
所以每期结束,我都会给把本期的讲义发送给你,后台回复“Agent”
第 2 期,我会教你一个方法:如何把”我想用 Agent 做个东西”这种模糊想法,变成清晰可执行的需求。
我会用我自己做 Agent 时的真实案例,带你走一遍从”有个想法”到”知道第一步该干什么”的完整过程。
n8n 工作流 教程如果你也想做出自己的第一个 Agent,关注我,我们下期见。
关注公众号「AI淇橦学」,和 AI 一起成长。
有问题或建议?后台留言即可。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/282907.html原文链接:https://javaforall.net
