作者|子川
来源|AI先锋官
图片模型又迎来一位重磅好手!
今年3月份,OpenAI的GPT-4o的图片生成功能一经上线,瞬间风靡全球。
只需一句提示词,就可轻松实现在线编辑图片,指哪改哪。
森林实验室推出FLUX.1 Kontext模型,将角色一致性,局部编辑的能力又拔高了一大截。
而就在最近,一款名为Nano-Banana的神秘图像编辑AI模型悄然现身lmarena平台。
迅速在X上刷屏了,不少网友体验过后,直呼和flux kontext不相上下。
更有爆料称:这是谷歌正在测试的新模型。
话不多说,我们来看看效果如何
有网友上传了一张动漫风格的生物图片,要求将其置于暴风雪中的山区。
提示词:”Place the creature roaming across a mountainous region in the middle of a blizzard”
结果如下:
Nano-Banana Flux Kontext MAX
从生成效果来看,两款模型都精准地保留了原图中生物的所有细节特征。
相较之下,Nano-Banana在背景融合方面表现得更为自然,光影和氛围的统一性更好。
另一位网友则尝试将苹果公司CEO蒂姆·库克的照片与一张网传的iPhone 17进行融合。
输入图片:
结果如下:
效果是不是不错?
小编为了进一步了解Nano-Banana和 Flux Kontext MAX到底谁更强一点,对它们俩进行了对比测试。
先来看文字修改能力,上传一张带有字母“Petrichor”的图片,要求将文字替换为“This is my House”,同时保持图片其他元素不变。
Nano Banana 教程
提示词:Change ‘Petrichor’ in the image to ‘This my house’, and keep everything else the same.
结果如下:
Nano-Banana Flux Kontext MAX
Nano-Banana和 Flux Kontext MAX都很完美的遵循了提示词的指令。
不过也有细微的不同,Flux Kontext MAX模型将雨滴给消除了。
除了修改文字外,再来看看它们消除文字的能力。
一开始我跑了很多案例,Nano-Banana和 Flux Kontext MAX表现都很好。
直到我换上了这张具有3D文字效果的海报,Nano-Banana就有点招架不住了。
提示词:Remove all the text, keep the rest unchanged.
结果如下:
Nano-Banana Flux Kontext MAX
FLUX Kontext MAX干净利落地移除了所有文字,而Nano-Banana在处理后,图片上却留下了两块大小不一的红色色块
再来看看它的角色一致的能力,上传一张身穿绿色小姐姐的图片,要求模型生成一张她正从俯视角度拿着手机自拍的图片。
提示词:The girl is sitting on the grass, taking a selfie with her phone from a bird’s-eye view.
结果如下:
Nano-Banana Flux Kontext MAX
效果一目了然,Nano-Banana更胜一筹,并且还解决了 Flux Kontext MAX清晰度不够的问题。
不过Nano-Banana有一个致命的缺陷,它的手指和脚趾的数量对不上,变成了四根手指头和六根脚趾了。。。
再来看看它们复杂指令的遵循能力。
要求将原图中的绿色裙子改为白色,人物拿着一把透明雨伞,并保持低头站立的姿势。
提示词:The green dress is changed to a white dress, holding a transparent umbrella, standing with the head bowed down, at eye level.
Nano-Banana Flux Kontext MAX
Nano-Banana将所有的文字指令都呈现出来了,FLUX Kontext MAX则忽略了“站立”这一动作
不过Nano-Banana的手指头和脚趾头的数量又不对了,手指问题似乎是这个模型的通病。
再来一个难度更大的,上传一张人物细节满满的侧脸图(有水印),让脸转向前面。
提示词:The girl’s head turned around, facing forward.
结果如下:
Nano-Banana Flux Kontext MAX
Flux Kontext MAX只生成了半边耳机,而且正视图和侧视图像换了个人一样,并且把我水特意准备的水印给消除掉了。
Nano-Banana生成的效果就十分不错,和原图的神韵高度一致,但也有瑕疵,就是脸上的红晕没了。
总的来说,Nano-Banana模型在背景融合、复杂指令遵循以及高难度图像重绘等方面的能力确实不错,甚至在部分场景比FLUX Kontext MAX表现的更好,但存在手部细节方面的短板。
目前这款模型上架到LMSYS Arena平台,这款模型出现的概率还是挺高的,大家感兴趣可以去玩一下。
传送门:
https://lmarena.ai/?chat-modality=image
发布者:Ai探索者,转载请注明出处:https://javaforall.net/248939.html原文链接:https://javaforall.net
