首个国产芯片训练的多模态 SOTA 模型，已免费开源！

全栈程序员-站长 • 2026年3月12日下午7:00 • 智谱 • 阅读 4

这是苍何的第 471 篇原创！

大家好，我是苍何。

看到智谱联合华为开源了新一代图像生成模型 GLM-Image 的消息，我还挺兴奋的。

这意味着，AI 生图的价格可能会被打下来，我的感触是很深的，因为最近一直在给我的产品薯图寻找性价比高的生图 API。

智谱 AI GLM 教程

试了很多的中转站，目前🍌pro 的价格大概在 0.3-1.2 元之间，总是在稳定和价格之间反复衡量。

看了 GLM-Image 的 API，价格只要 0.1 元一张图，我整个人都精神了。

于是我花时间内测了一下 GLM-Image，也顺带来看看这个首个在国产芯片上完成全程训练的SOTA多模态模型有几斤几两。

先说下整体感受：

1、中文指令理解能力好，文字生成准确率高，特别是多区域文字生成上。
2、在绘制包含复杂逻辑的原理图、科普插画上表现好。
3、具备一定的设计和审美能力，

但是在长 prompt 的输入下，就会被限制，也希望后面官方可以优化下，就拿薯图来说，提示词非常的长，就非常需要支持。

这篇文章主要给大家带来一手的实测，以及对 GLM-Image 的 API 调用教程。并且我把基于GLM-Image API 的生图平台也开源了，大家可以去 GitHub 上使用，见文末。

如果文章对你有帮助，欢迎点赞收藏，并转发给需要的朋友。

在开始实测前，还是有必要来了解下 GLM-Image。

模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。

GLM-Image采用自主创新的「自回归+扩散解码器」混合架构，实现了图像生成与语言模型的联合，

这也是首个开源的工业表现级离散自回归图像生成模型。

GLM-Image 引入了「自回归+扩散解码器」混合架构，创新地融合了9B大小的自回归模型与7B大小的DiT扩散解码器。

同时，GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。

下面给大家带来一波我用 API 做的实测 GLM-Image，内含提示词。

该图片疑似AI生成

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/266391.html原文链接：https://javaforall.net