Google 的 Nano Banana 是谷歌最新推出的图像生成与编辑模型,其正式名称为 Gemini 2.5 Flash Image 。该模型是谷歌在多模态AI领域的重要进展,专注于图像生成和编辑,具备强大的图像生成、编辑和多轮交互能力 。Nano Banana 被认为是目前最优秀的AI图像工具之一,其性能强大,效果出色,尤其在图像生成、编辑、动画制作等方面表现突出。

最近这个Nano Banana非常火爆,考虑到这个模型国内很多小伙伴不能直接访问,今天我也来凑个热闹,使用dify做了个插件,然后在dify平台上实现了这个Nano Banana。我们看一下生成的效果。

上面这个图是我韩国的学生证做的手办。
我的学生证

哈哈是不是很帅。
在上一张美女手办

是不是很漂亮,那么这个工作流是什么样子的呢?

通过上面的工作流我们可以制作基于Nano Banana任何风格的图片(电商场景、广告创意、摄影技巧、社媒内容、动漫创作、建筑景观、3D效果、实用变现、其他功能)。那么话不多说,下面带大家一步一步制作。
在工作流制作之前我们这里需要提前下载插件。目前这个插件我已经开源上传到github上,dify插件市场我也会提交上传,不过这个需要等待审核。时间关系我们就通过插件下载本地上传方式来安装这个插件。
打开我们本地或者私有化部署的dify平台,插件管理

在下拉选项中选择本地插件


选择这个刚才打包好的dify插件包上传到dify平台

点击安装后 插件在dify平台上实现安装了,我们稍等片刻。

安装成功后,我们需要对这插件进行授权,我们这里使用OpenRouter API,大家可以在OpenRouter 注册一个账号生成APIkey 授权到这个插件,完成授权成功。

关于如何使用AI来辅助开发dify插件,本次就不做介绍了,感兴趣的小伙伴可以看我之前的文章《dify案例分享-零基础上手 Dify TTS 插件!从开发到部署免费文本转语音,测试 + 打包教程全有》
这个工作流开始节点有4个输入字段(提示词、图片、类型、是否提示词扩写)
其中提示词是文本字段类型是必填项。

istype 是一个下拉选择,主要目的是判断是否需要提示词扩写(有的小伙伴自己有更好的提示词,这样就不需要扩写了)

picture 是一个基于用户上传的图片,我们这里选择单文件(图片类型),该字段设置非必填项。(不需要图生图这块可以不传值)

type是一个下拉选择,主要是方便大家选择不同风格的提示词扩写

以上我就完成了开始节点配置

这个地方主要是通过用户选择判断是否实现提示词扩写来做判断使用。核心的判断字段就是istype

这里我们主要的目的是用户选择了提示词扩写的话,我们通过大语言模型对用户简单的提示进行改写。(并不是所有用户都会编写提示词)。这里我们使用硅基流动提供Nano Banana 教程的deepseek-v3模型。如果没有硅基的小伙伴可以去这个地址https://cloud.siliconflow.cn/i/e0f6GCrN 新户可以送14元。

系统提示词这里我们收集了网上主流的提示词通过大模型改写生成符合Gemini-2.5-Flash-Image-Preview 模型风格提示词。
系统提示词如下
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/252052.html原文链接:https://javaforall.net
