本文通过使用 OpenAI 最新推出的 Agent Builder 从零开始构建一个视频问答 AI 智能体,深度学习 Agent Builder 用法、探讨它适用于哪些用户,以及它与 n8n、dify、coze 等可视化 AI 工作流构建工具的区别,最后深入分析可视化工作流构建器这类工具的未来趋势。
【AI大模型教程】
OpenAI 在 2025 年 DevDay 发布了 AgentKit[1],这是一套用于构建和部署 AI 智能体的综合工具集,包含:Agent Builder(一个用于构建智能体的可视化拖放画布),ChatKit(一个用于在产品中嵌入聊天组件的工具包)、Connector registry:(一个用于管理工具如何在 ChatGPT 中连接的中心注册表)。
OpenAI Agent Builder 共有 11 个节点,可以分为四个部分,以下是它们的主要功能:
核心节点
- Agent:允许用户通过指令、工具和智能体操作 (agent actions) 来调用模型,即需要 LLM 处理时使用。
- End:异常时立即结束流程,或正常时返回工作流输出结果。
- Note 添加一个备注,有助于在流程中添加指令或进行文档记录。
工具节点
- File Search:OpenAI 向量存储的别名,查询向量存储以获取相关信息。
- Guardrails:一切与安全相关,添加个人身份信息 (PII)、越狱 (jailbreak)、幻觉 (hallucination) 检查,并对输入输出运行审核。对生产环境至关重要。
- MCP:与 n8n 不同,Agent Builder 使用 MCP 而不是 Webhooks(网页回调)/ APIs 来与外部或公司内部的工具和服务进行交互,用于需要多个服务结果的复杂工作流。
逻辑节点
- If / Else: 用于条件分支。用于创建条件以分流工作流。
- While:循环直到条件为真。用于总迭代次数未知的情况,比如轮询 API 以获取调用状态为已完成。
- User Approval:在流程中加入人工审核。暂停执行,等待用户批准或拒绝一个步骤,非常适用于金融、法律等高风险任务的审核。
数据节点
- Transform:支持 JSON 输出。生产环境对输出类型有限制,或预处理输入以供智能体读取时很有用。
- State:可以在整个工作流中使用的全局变量 (Global Variable)。
更多详细说明参考 OpenAI Agent Builder 官方文档[2]
整个流程按节点进行拆分为:用户查询 -> 输入验证 -> 执行 RAG 查询 -> 返回结果
首先访问 Agent Builder[3],可以看到 3 个选项卡和一个界面:
- Workflows → Published Workflows(已发布工作流)。默认可能会提供一个 My Flow(我的流程)。
- Drafts → All unfinished / not published flows(所有未完成/未发布的工作流)都可以在这里找到。
- Templates → Predefined templates(预定义模板),开箱即用,适合初学者。
这里选择一个空白工作流。
第一步:使用 Start 节点设置入口
点击 按钮,将打开一个空白画布,类似于 n8n,但带有一个 Start 节点。

空白画布
Start 节点是任何工作流的入口点,它提供两个变量:
- 输入变量 (Input Variables)
- 定义工作流的输入。
- 使用 来表示用户提供的文本。
- 状态变量 (State variables)
- 在输入过程中传递的额外输入参数。
- 在整个工作流中持久存在,并可通过状态节点 (State Nodes) 进行访问。
- 可以像普通变量一样定义,存储为单一数据类型。
定义 输入变量 后添加输入验证节点。
第二步:使用 Guardrail 节点进行输入验证
接下来,添加 Guardrail 节点,设置此节点可以确保只有经过筛选的查询输入才能传递给模型,将 Guardrail 节点连接到 Start 节点时,如果点击 Guardrail 节点,会发现许多选项:

Guardrail 节点详情
它们各自的作用如下:
了解完,开始设置。
- Moderation: 点击 ⚙️ → Most Critical → Save → Toggle On(开启)
- Jailbreak: Toggle On(保留默认设置)
- Hallucinations: 点击 ⚙️ → Add Vector Store Id(在下个节点中生成)→ Save → Toggle On(在后面步骤中使用)

Jailbreak 设置内部
通过以上操作,成功设置了 Guardrail 节点的通过分支和失败分支。

Guardrail 节点设置
第三步:使用 Agent 节点、Rube MCP 和向量存储添加“大脑”
点击侧边栏中的 Agent 节点,并将其连接到 Guardrail 节点的通过分支,然后在 Agent 节点内部,进行如下字段配置:
- Name: 智能体的名称,这里使用 YT Q/A Agent
- Instructions: 关于智能体应如何运作的指令,可以按照 OpenAI 提示指南自己撰写,也可以使用 ✏️ 图标生成。
- Include Chat History: 是否包含过去的对话历史。
- Model(模型): 要使用的模型。
- Reasoning: 不能关闭,只能设置为最小。
- Output Format: 输出格式支持 text、JSON 和部件 (widgets)。
- Verbosity: 设置为低(low)表示输出答案更简洁。
- Summary: 是否在聊天中显示推理过程的摘要。
- Write Conversation History: 表示将数据保存到对话历史。

Agent 节点设置
接着添加 RAG 向量存储,点击 tools(工具)
- 从列表中选择 File Search。
- Add all files(添加所有文件)。
- Save(保存)。
- 复制生成的向量 ID 并将其粘贴到 Hallucinations 的 vector_id 字段中并保存。

RAG 向量存储
第四步:将 MCP 服务器添加到 Agent 节点
Agent Builder 支持 MCP 服务接入,所以自带一套内置的 MCP 服务器,由 OpenAI 维护,包括 Gmail、Drive 和 Outlook 等。

内置 MCP 服务器
也有第三方官方提供商提供的 MCP 服务器

第三方 MCP 服务器
这里选择添加自定义 MCP 服务器,点击

添加自定义 MCP 服务器
自定义 MCP 服务器支持不同的身份验证方法:No Auth(无身份验证)、Access token/API Key(访问令牌/API 密钥)和 Custom headers(自定义标头),这里我推荐使用 Rube MCP。
Rube MCP:对于许多智能体工作流,需要 Slack、Gmail、Google Sheets 等多个 MCP 服务器,但添加如此多的服务器(每个都包含 10 多个工具)会极大地占用大语言模型的上下文窗口,通过 Rube MCP[4] 就很容易解决这个问题,它是一个通用 MCP 服务器,可以动态连接到 500 多个应用,包括 HubSpot、Jira 和 YouTube 等,能够根据上下文将请求路由到合适的服务器,并仅加载相关的工具。
要将 Rube MCP 添加到 Agent 节点,操作流程如下:
- 点击
- 在 URL 中,输入:
- 在 Name 中输入
- 身份验证选择方式 → 从以下位置获取:
- 前往 Rube app[5]
- 选择
- 导航到
- 生成令牌(Generate Token)
- 复制并将令牌粘贴到 框中

rube_mcp API Key 获取
点击保存,即可看到 Rube MCP 配置成功:

Rube MCP 配置成功
第五步:使用 End 节点输出结果
n8n 工作流 教程
End 节点
从侧边栏选择 End 节点连接至 Guardrail 节点的失败分支,End 节点接收 并返回一个 JSON。 这里只需要用大白话描述自己的预期输出就行(比如:输出失败和失败的原因),点击 即可,因为 Agent Builder 内置的 JSON Schema 生成器会生自动生成对应的 schema。

自动生成的schema
第六步:预览发布
要进行测试,请前往顶部的 Preview(预览),一个聊天窗口将打开。输入您的查询,并查看响应以及中间的查询和推理步骤。

预览测试
最后点击 Publish(发布)按钮发布应用。
如果想获取代码,只需点击 (代码)→ Agent’s SDK → Python / TypeScript 并复制。
复制代码
下面是用 Agent Builder 结合 MCP 工具(同样适用于 n8n、dify、coze 等)可以构建的工作流用例。
OpenAI Agent Builder 相比 n8n、dify、coze 等工具在设计体验上更为出色,它对节点配置的抽象更合理,核心节点仅分为四类共 11 个,并在配置过程中融入 AI 辅助,同时支持开发者将可视化构建结果直接导出为代码进行二次开发(基于 openai 包即可)。
不过,OpenAI Agent Builder 本质上与类似工具仍是「工作流构建器」,而非真正意义上的 Agent——工作流逻辑固定、可预测但自主性低;Agent 由 LLM 自主决策工具调用,自主性强但可预测性差。可视化工作流构建器面临两大困境:其一,目标用户虽为非技术群体,但实际使用门槛仍不低;其二,随着任务复杂度上升,界面易变得杂乱难维护。
面对不同复杂度的问题,高复杂度任务更适合代码化工作流,而低复杂度任务则由无代码 Agent(Prompt + 工具)更高效解决。随着 LLM 进步,无代码 Agent 的适用范围不断扩大,无代码工作流构建器正遭遇来自高、低复杂度场景的双重挤压,未来的机会在于:一是让用户能更轻松地搭建稳定可靠的无代码 Agent,二是优化代码生成模型,使其更擅长自动编写 LLM 驱动的工作流或 Agent 代码。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/248420.html原文链接:https://javaforall.net
