这是苍何的第 471 篇原创!
大家好,我是苍何。
看到智谱联合华为开源了新一代图像生成模型 GLM-Image 的消息,我还挺兴奋的。
这意味着,AI 生图的价格可能会被打下来,我的感触是很深的,因为最近一直在给我的产品薯图寻找性价比高的生图 API。
智谱 AI GLM 教程
试了很多的中转站,目前🍌pro 的价格大概在 0.3-1.2 元之间,总是在稳定和价格之间反复衡量。
看了 GLM-Image 的 API,价格只要 0.1 元一张图,我整个人都精神了。
于是我花时间内测了一下 GLM-Image,也顺带来看看这个首个在国产芯片上完成全程训练的SOTA多模态模型有几斤几两。
先说下整体感受:
1、中文指令理解能力好,文字生成准确率高,特别是多区域文字生成上。
2、在绘制包含复杂逻辑的原理图、科普插画上表现好。
3、具备一定的设计和审美能力,
但是在长 prompt 的输入下,就会被限制,也希望后面官方可以优化下,就拿薯图来说,提示词非常的长,就非常需要支持。
这篇文章主要给大家带来一手的实测,以及对 GLM-Image 的 API 调用教程。并且我把基于GLM-Image API 的生图平台也开源了,大家可以去 GitHub 上使用,见文末。
如果文章对你有帮助,欢迎点赞收藏,并转发给需要的朋友。
在开始实测前,还是有必要来了解下 GLM-Image。
模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。
GLM-Image采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的联合,
这也是首个开源的工业表现级离散自回归图像生成模型。
GLM-Image 引入了「自回归+扩散解码器」混合架构,创新地融合了9B大小的自回归模型与7B大小的DiT扩散解码器。
同时,GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。
下面给大家带来一波我用 API 做的实测 GLM-Image,内含提示词。
该图片疑似AI生成
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/266391.html原文链接:https://javaforall.net
