首个国产芯片训练的多模态 SOTA 模型,已免费开源!

首个国产芯片训练的多模态 SOTA 模型,已免费开源!


这是苍何的第 471 篇原创!

大家好,我是苍何。

看到智谱联合华为开源了新一代图像生成模型 GLM-Image 的消息,我还挺兴奋的。

图片

这意味着,AI 生图的价格可能会被打下来,我的感触是很深的,因为最近一直在给我的产品薯图寻找性价比高的生图 API。

图片

智谱 AI GLM 教程

试了很多的中转站,目前🍌pro 的价格大概在 0.3-1.2 元之间,总是在稳定和价格之间反复衡量。

图片

看了 GLM-Image 的 API,价格只要 0.1 元一张图,我整个人都精神了。

于是我花时间内测了一下 GLM-Image,也顺带来看看这个首个在国产芯片上完成全程训练的SOTA多模态模型有几斤几两。

图片

先说下整体感受:

1、中文指令理解能力好,文字生成准确率高,特别是多区域文字生成上。
2、在绘制包含复杂逻辑的原理图、科普插画上表现好。
3、具备一定的设计和审美能力,

但是在长 prompt 的输入下,就会被限制,也希望后面官方可以优化下,就拿薯图来说,提示词非常的长,就非常需要支持。

这篇文章主要给大家带来一手的实测,以及对 GLM-Image 的 API 调用教程。并且我把基于GLM-Image API 的生图平台也开源了,大家可以去 GitHub 上使用,见文末。

图片

如果文章对你有帮助,欢迎点赞收藏,并转发给需要的朋友。

在开始实测前,还是有必要来了解下 GLM-Image。

模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。

图片

GLM-Image采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的联合,

这也是首个开源的工业表现级离散自回归图像生成模型

GLM-Image 引入了「自回归+扩散解码器」混合架构,创新地融合了9B大小的自回归模型与7B大小的DiT扩散解码器。

图片

同时,GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。

图片

下面给大家带来一波我用 API 做的实测 GLM-Image,内含提示词。



 该图片疑似AI生成

图片

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/266391.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午7:00
下一篇 2026年3月12日 下午7:00


相关推荐

关注全栈程序员社区公众号