wuhu专题


文/阿呜
你的朋友圈最近被各种精美的手办图片刷屏了吧?


直接实现真人款手办自由


你可能也好奇《黑神话:钟馗》刚发布,怎么这么多手办都做出来了!





为什么不是《黑神话:悟空》DLC?而是《黑神话:钟馗》?


甚至把《黑神话:悟空》里的人气角色做的也是相当还原。



还有网友玩出了《哪吒2》的手办款
是不是都是你的心动手办



吒儿的转角度都能模拟出来





真人和CG游戏都做的这么棒,平面卡通风格怎么样呢?wuhu君将我们的wuhu三侠的平面效果图测试了一下。




那么来到揭晓谜底时刻!
这可不是真手办
而是谷歌最新AI图像模型Nano Banana的杰作

就在最近,这个代号为”Nano Banana”的神秘模型露出真面目——正是谷歌推出的Gemini 2.5 Flash Image模型。
它在图像编辑领域榜单上以1362分的成绩位列第一,领先第二名171分,迅速成为社交媒体新宠。

01
什么是Nano Banana?
Nano Banana是谷歌Gemini系列的最新一代图像生成与编辑模型,正式名称为Gemini 2.5 Flash Image。它以出色的角色一致性、自然语言理解和空间理解能力,在社交平台上掀起创作热潮。
这个模型之所以代号为“香蕉”,源于团队内部的保密需要。在LM Arena测试期间,谷歌为了保密给模型起了这个古怪的名字。





令人惊讶的是,该模型竟能理解“make it nano”这样模糊的指令,并生成用户期待的迷你Q版形象。
02
为什么Nano Banana能出圈?
首先是角色一致性突破,与传统AI图像生成工具不同,Nano Banana在保持角色一致性方面表现惊人。无论是换背景、改姿势、换服装,人物的五官、肤色、表情、光影甚至嘴角弧度都不会“漂移”。
这意味着创作者在进行连载故事或多场景创作时,主角不会再“变脸”,解决了AI绘画领域的最大痛点。
再者是多图融合与光影逼真,Nano Banana可同时输入多张参考图,把人物、物体、风格、纹理拼成一张新图,光影自然不突兀。





不像简单的滤镜贴图,它能重新计算光源、阴影、反射,让场景符合物理规律,产生逼真的效果。
建立在Gemini基础上,Nano Banana拥有丰富的世界知识,能读懂地图、常识和文化元素。例如,它能理解中国各省份的文化特点,并在地图上正确标注。
03
Nano Banana能做什么?
前面介绍生成3D手办效果图是Nano Banana最出圈的玩法。只需上传角色图片,使用合适的提示词,就能生成逼真的手办效果图。


提示词示例:“将此角色转换为1/7比例实体模型,放在电脑桌上,底座为圆形透明亚克力材质,电脑屏幕上显示ZBrush建模过程”。
英文提示词:Use the nano-banana model to create a 1/7 scale commercialized figure of the character in the illustration, in a reaalistic style and environment. Place the figure on a computer desk, using a circular transparent acrylic base without any text. On the computer screen, display the ZBrush modeling process of the figure. Next to the computer screen, place a BANDAI-style toy packaging box printed with the original artwork.




将喜爱的动漫角色转化为真实世界的Cosplay照片,还可以拿着同款手办。



还可以将喜欢的动画角色变成真人版出现在漫展上。





提示词:Generate a photo of a girl cosplaying this illustration, with the background set at Comiket
在布置新家时,可以快速查看不同设计图纸纸以及家具的摆放效果。用户只需在原始图像上勾画出图纸应该放置的位置轮廓,然后放入图纸样本,即可进行效果检查。


人物动作修改和颜色转换也是相当炸裂的功能,可以将两个动漫人物的动作融合,或者限定姿势的修改,让不同人物生成特定动作。


输入两个你想要表演的角色,附带你想要两个角色打斗的简笔画,它能根据这么粗糙的草图生成你想要的打斗效果。

还能用不同颜色线条区分角色,快速生成角色效果图。



也能准确使用指定调色板为线条图着色,不使用调色板之外的任何颜色。

动画角色设计好动作路径图可以根据想要的动作设计生成动画。


Nano Banana 教程

其中电商场景是Nano Banana的强项。可以不断更换模特,试戴各种饰品,效果相当逼真。


根据草稿动作图让你的模特变换你想要的动作。

Nano Banana已经在多个真实平台迅速集成并验证生产力提升,包括Adobe、Poe、WPP、Freepik、Leonardo.ai、Figma等。
主要优势应用场景包括:
设计类工作生成和编辑,面向品牌内容、电商营销等领域的图片编辑,如海报的生成与处理、做商品图、多元素拼贴等;
创意设计与社媒内容,面向社交内容等领域的图片编辑,如四格漫画生成、真人手办、产品内部结构拆图、制作游戏UI等;
图像修复与内容改写,依赖模型图片一致性的能力,对图片打光、图片局部“PS”处理等;
与外部工具结合,将生成的图片进一步应用于AI视频生成、AI 3D生成,激发更大应用潜力。
04
如何使用Nano Banana?
目前有三种主要使用方式:
一是Nano Banana官网:https://www.nanobanana-studio.ai/,试用完后需要付费,有包月和包年模式,还分基础版和升级版。
二是通过Google AI Studio或者Gemini官网,确保选择Gemini 2.5 Flash Image Preview模型,然后在输入框中输入提示词并上传图片即可,目前注册后可以免费使用。
三是通过国内平台Lovart,不用魔法,不用花钱,国内邮箱注册就能直接用。9月3号之前,都能免费畅玩Nano Banana,不消耗任何积分。
05
谁是Nano Banana的创造者?
这款革命性产品背后,是谷歌DeepMind一支多元化的核心团队。



从左到右依次为:Kaushik Shivakumar,Robert Riachi,Nicole Brichtova,Mostafa Dehghani,和 Logan Kilpatrick
Logan Kilpatrick是Google DeepMind高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作。他曾是OpenAI的开发者关系负责人,被誉为“LoganGPT”。
Kaushik Shivakumar是研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用。他是文本渲染能力的主要推动者。
Robert Riachi是研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献。
Nicole Brichtova视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展。
Mostafa Dehghani是研究科学家,主要从事机器学习特别是深度学习方面的工作,研究兴趣包括自监督学习、生成模型和大模型训练。
团队研究员Koshik长期“痴迷”于一个看似边缘的问题:让AI准确地在图像中渲染文字。起初,团队里很多人不理解他的执着,甚至觉得他“有点疯狂”。但Koshik看到了其他人没看到的东西:“当模型学会处理文字这种结构时,它实际上也在学习如何处理图像中的其他结构”。
文字是一种高度结构化的视觉信息,它要求模型在像素层面进行极其精准的控制。一个字母的笔画稍有偏差,人眼立刻就能识别出错误。文字渲染因此成为了一个完美的“代理指标”——一个能够反映模型整体性能的关键指标。更重要的是,这个指标是客观的、可量化的。
而Nano Banana引入了“交错生成”(Interleaved Generation)机制,这是其最革命性的能力之一。面对复杂、多点修改的任务,它会将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现“像素级别的完美编辑”。这意味着用户不再需要绞尽脑汁地设计一个完美的“终极提示”,而是可以像与真人设计师沟通一样,逐步累积、分层构建一个复杂的场景。
06
未来展望
从“好看”到“智能”与“事实性”
当被问及模型的未来方向时,Nano Banana团队的答案惊人地一致:超越视觉质量,追求更高维度的“智能”与“事实性”。
对于开发者应该如何使用Gemini模型,Nicole给出了清晰的方向:
“如果你想要的是一种更复杂的工作流程,比如你不仅要生成图像,还想在同一个工作流程中对图像进行多轮编辑,或者进行一些创意发散的探索,那Gemini就是更合适的选择。”
“Gemini更像是一个多模态的创意伙伴,它可以输出图像,也可以输出文本。你在给它下指令时不需要那么精确,因为它有对‘世界’的理解能力,会更有创造性地去完成你的指令。”
Nano Banana团队从X平台收集用户反馈,构建基准测试数据集,不断优化模型表现。从文本渲染这一看似边缘的指标起步,到实现多模态理解与生成的协同发展,谷歌Nano Banana团队展示了一条技术创新与用户需求紧密结合的开发路径。
谷歌团队透露,他们正在探索基于团队成员审美风格训练自动评价器的方法。这意味着未来的AI可能不仅能够生成图像,还能够培养出独特的“审美观”,甚至可能形成不同的“风格流派”。
结语
Nano Banana的名字源自一次内部保密需要的随机选择,却意外成为了全网热议的焦点。这或许暗示着AI发展的一个本质规律:最有影响力的突破,往往来自于那些最初看起来“有点疯狂”的执着。
当AI开始理解文本渲染的精妙之处,当它能够在保持角色一致性的同时进行创造性发挥,当它学会在“美观”与“准确”之间找到平衡——我们正在见证的不仅是技术的进步,更是人机协作新纪元的开启。
未来的AI图像生成,将不再是简单的“输入提示词-输出图片”,而是一场真正的对话:人类提供创意方向,AI补充专业知识与执行能力,双方共同创造出任何一方单独难以实现的作品。
人类与AI的创意协作方式正在发生根本性改变。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/249807.html原文链接:https://javaforall.net
