一键自动化做图!教你用Coze搭建Lovart级别的智能体

一键自动化做图!教你用Coze搭建Lovart级别的智能体

大家好,我是叁石。

继上篇文章之后,大家对 Lovart 的有了一定的了解,也对什么是有了些体会。所以,我突然有了个想法,能不能通过 coze 来模拟 的智能体逻辑,我们自己给自己搭建个智能体来给自己工作,听起来还蛮有意思的,所以我花了 1 周的时间,在工作之余摸索了 coze 的搭建逻辑,发现还真的可以。

以下是我的效果录屏,大家可以看下,基本实现了三大功能:

  1. 图片局部重绘
  2. 简单任务不触发智能体,复杂任务会触发
  3. 针对详细的设计需求,比如 IP 设计,会直接跳转到对应的智能体

这是链接:品牌全案设计智能体,大家可以自己试一试。

coze品牌全案智能体截图

这种效果是怎么实现的,我今天会通过 5 点进行分享,分别是:

  1. 什么是 coze()
  2. 怎么理解智能体
  3. 怎么搭建单 Agent
  4. 怎么搭建多 Agent,并设定人物角色和回复逻辑
  5. 多 Agent 如何打通

coze产品截图

简单说,coze 是一个一站式的 AI 智能体搭建平台,不管我们有没有编程能力,都可以在扣子上快速搭建基于大模型的各种各样的 AI 应用,并分享出来给大家使用。

也就是说,以前我们设计师有什么想法,想开发个应用,但是不会写代码,就很尴尬,现在有了 coze,我们自己就化身成为了“多边形战士”,通过自然语言交互,就可以通过 coze 实现自己的想法,还是挺有意思的。我这里简单给大家看下 coze 上的应用都能做什么。

coze上的部分智能体

其实如果大家之前用过 ChatGPT,就会比较熟悉 GPT 应用,它是基于 GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)模型开发的各类工具、软件或服务,这些应用都借助了 GPT 强大的自然语言理解能力和生成能力。

ChatGPT截图

GPT 应用指的是基于 GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)模型开发的各类工具、软件或服务,这些应用借助 GPT 强大的自然语言理解与生成能力,能够主动生成类人文本,如对话、文章、代码等,帮助大家快速搭建生产力工具,比如下面这个文案撰稿人 GPT,能帮助我们提供创新性的广告文案,再也不需要我们苦思冥想想标题、标语等。

ChatGPT截图

上一篇文章中,我将智能体解释为“管家”或者是钢铁侠中的“贾维斯”,为什么这么说,因为它能看懂你的指令、自己找信息、做决策,甚至根据你的习惯主动做事,不用你步步指挥。帮你把琐碎的事理顺,还能猜透你的小心思~。

举个生动的例子:

比如,你告诉它:“明天早上 10 点出差去上海,记得提醒我,并且嘱咐我带上笔记本,如果下雨,记得带伞。”智能体会做如下思考:

  1. 它先 “理解” 你的需求(出差提醒 + 物品关联);
  2. 自己主动去 “查” 天气预报,提前告诉我天气信息(如果明早下雨);
  3. 到了时间,提醒你出差,如果下雨,还会额外跟你说:“今天下雨哦,记得带伞”

更厉害的是,它还能 “举一反三”。比如你经常每天早上起来打炉石传说,它可能会主动问:“今天有一套新的猎扣子 Coze 教程人卡组,胜率在 56%,要不要尝试下”。

主打的就是两个字“贴心”,让你的生活通过各个智能体变得更加“有温度”。

这里给大家分享一个有趣的案例,在一篇论文中,研究者用 25 个智能体(Agent),搭建了一个“虚拟小镇”。这 25 个智能体就是 25 个小人,在虚拟环境中能做到:

  1. 当前的行动
  2. 当前的地点
  3. 当前的对话内容

并能实现和其他角色互动对话、反思和总结。

这是 demo 链接:AI 智能体-西部世界虚拟小镇

虚拟小镇截图

下面我简单录制下游戏操作:

虚拟小镇人物截图

所以,用一句大白话说,智能体就像一个能自己 “看情况做事” 的小助手,能根据周围情况拿主意、动手干活,还能从经验里学聪明。和豆包、DeepSeek 这类大语言模型(LLM)的核心区别在于:

  1. 豆包、DeepSeek 是 “语言专家”:他们主要擅长理解和生成文字(比如聊天、回答问题、写东西),但自己不会主动 “做实事”(比如不会直接订机票、控制设备),得靠人一步步指挥。
  2. 智能体是 “行动派助手”:它可以把大语言模型当 “大脑”,再配上 “手脚”(比如调用工具、操作软件、和环境互动),能自己拿主意、一步步完成实际任务(比如 “你让它订明天的票,它会自己查航班、填信息、确认订单”)。

所以,大语言模型像 “会说话的大脑”,而智能体是 “会说话又会动手干活的完整助手”。也许未来的某一天,我们手机里的所有 APP 都会变成一个个智能体,订机票再也不用一步步手动点击,只需要跟他对话交流,就好像跟一个个有专业技能的管家聊天一样,就能达到我们的目的。我觉得这应该是 AI 最完美的形态。

聊了这么多,现在我们开始用 coze 一步步实现自己的目标,我们先从单个智能体的搭建开始。

单 Agent 的搭建还是比较简单的,这里我建议大家先用“AI 创建”来生成一个自己想要的 Agent,

创建智能体截图

然后,最关键的是要理解什么是“人设和回复逻辑”,这是 Agent 的核心。因为每个 Agent 都有自己最擅长的一面,比如擅长生成壁纸,擅长生成小红书爆款文案,所以我们在给自己想要的 Agent 设定人设的时候,就需要往这块去靠拢。比如下面这个是标志设计的 Agent,那么它的角色就是:

然后它的技能大家可以看下截图,大概就是理解用户需求、目标受众、多风格输出、沟通反馈等。这一块不是乱写,我们自己要首先知道标志设计的整个场景和流程,才能告诉 Agent 怎么做。所以,Agent 出来的效果好不好,很大程度上取决于我们自己的专业水平高不高。就好像师傅带徒弟,师傅厉害的,徒弟也不会太差。

单Agent coze 截图

最后是限制,限制的意思就是告诉 Agent 不要干啥,或者是必须干啥,防止 Agent 天马行空地乱给答案。

中间部分最重要的是模型选择和插件选择,不同的模型能力不太一样,这里我没有过多尝试,大家可以自己试一下,主要是插件,因为标志设计的本质是文生图,所以我们得让 Agent 有出图的能力,所以 AI 给我选了“创客贴智能设计”的插件。

单Agent coze 截图

大家可以根据自己的需要选择适应的插件,比如天气、知乎热榜等。

coze插件截图

因此,单智能体的本质就是:一个什么样的人(角色)+拥有什么样的技能(技能)+手头有什么样的工具(插件)。

比如:砍柴 Agent=老爷爷+会砍柴+有斧头

书籍推荐 Agent=学者+博览群书+图书馆

天气预报 Agent=气象员+气象知识+气象观察工具

搭建好之后,我们可以发布到社区,或者直接跑一下逻辑,看下面的视频,这里我用了豆包的生图模型,最后出来的茉莉花 logo 还可以,大家可以在技能里面规定每次输出 3 个方案,这样可以多对比下。

理解了单 Agent 的搭建思路,我们再来了解下多 Agent 的搭法。首先我们要知道,单 Agent 和多 Agent 有什么区别,coze 的官方文档中是这么写的,如下图,试用下来,确实如此。

文档说明

看到多 Agent 的界面,会发现中间变成了工作流画布,左侧还是“人设与回复逻辑”。但是这里的角色配置就和单 Agent 不太一样了。

coze截图

因为我们是要多 Agent 灵活调用,所以在多 Agent 的配置中,我们多了一个“前台”的角色,这个角色的任务就是观察用户的需求,然后将任务分配到各个单 Agent 中去。如果把单 Agent 理解为“管家”,那么这个多 Agent 的前台就是“总管”,他的任务可以解释为:

将用户的复杂需求拆解为子任务,分配给背后的多个专业智能体。

例如:用户说 “出差安排”,前台可能拆分出 “订机票”“订酒店”“安排会议” 三个子任务,分别交给 “票务 Agent”“酒店 Agent”“日程 Agent” 处理。

因此,在多 Agent 的人设和回复逻辑中,我按照了网上大神找到的 Lovart 的智能体设定逻辑做了部分修改,如下:

这段提示词中最重要的有 2 段,一段是“任务复杂度指南”,一段是“转接说明”。

  1. “任务复杂度指南”会告诉前台,如果任务不复杂,就自己解决,不然这个前台就变成了“传话筒”,没有任何意义。
  2. “转接说明”是告诉前台,碰到什么问题,你该找哪个人来解决。

到这里,多 Agent 已经搭建完成了一半,下面我们需要在画布区域对多个单 Agent 进行连接打通,首先是前台 Agent 的设定,如下图。我们要告诉前台你的工作职责是:将用户输入发送给对应的智能体。

前台Agnet场景设定

然后是各个单 Agent,同样要定义“适用场景”,最后再通过底部的添加节点按钮,添加“全局跳转条件”,连接到各个单 Agent,这样多 Agent 就搭建完成了。

单Agent联结

我们来简单测试下

当我输入:茉莉花茶叶品牌设计

它会先让我选择风格,我选择了第 2 种风格,然后会基于该风格,分别交给对应的包装、标志、VI 智能图出效果图。不过每次 VI 都会设计 2 次,虽然问题不大,但是不知道问题在哪,大家可以帮我一起看下。

品牌全案设计

我还可以继续上下文,如:给品牌包装换个背景,主体包装不变。

它会询问我想换成什么风格的背景,非常细心。

品牌包装局部替换

我们看下前后换的效果还是可以的。

图片效果对比

这个时候,我话锋一转,说帮我设计个西瓜的标志设计,这个智能体判断跟上下文没有关系,就会单独调用“logo designer”智能体,并询问我设计需求。这么看来,我们搭建的多智能体还是比较灵活的。

标志设计

大家也可以通过文章开始的链接自己尝试下,但是有概率会出现跟设定逻辑不一样的情况,所以有时间我还会持续微调这个智能体,争取做到完美。

搭建智能体是一件非常有意思的事情,智能体搭建的好不好,其实很大程度上取决于我们自己的专业能力和业务能力,为什么这么说,刚好昨天我去上海参加了 WAIC 世界人工智能大会,有一位国外的 AI 摄师在分享的时候说,写好提示词是一件非常不容易的事情,因为在摄影领域,有很多专业知识,比如焦距、光圈、白平衡等,如果摄影师没有这方面的专业知识,是很难通过 AIGC 获得好的摄影作品。因为他压根就不知道怎么写提示词,只会写人物动作、背景、地点、表情这些显而易见的提示词是远远不够的。

所以做设计也是一样,AI 再好,也需要设计师的“内功”,内功修为不高,武器再好,也无法成为绝世高手,但从这一点来看,AI 就无法取代设计师的。

OK,今天的分享到这里就结束了,谢谢大家。

喜欢我的可以关注下哦,支持输出 AIGC 普惠知识,让设计师 AI 不迷路。

文章来源于互联网:一键自动化做图!教你用Coze搭建Lovart级别的智能体

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/267803.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午5:43
下一篇 2026年3月12日 下午5:43


相关推荐

关注全栈程序员社区公众号