不是,智谱你也要做源神?附一手实测GLM-4.6V

不是,智谱你也要做源神?附一手实测GLM-4.6V

家人们,
GLM-4.6V 终于来了,发布即开源。 
ber,现在国内模型是不开源就没法发布了?! 
图片
这次带来了两个版本,GLM-4.6V(106B-A12B)和GLM-4.6V-Flash(9B),主要升级的点在于上下文提升到了128k tokens,以及重点提升了模型原生多模态的工具调用能力。 
模型原生多模态的工具调用能力带来的显著有用的场景之一就是支持图文混排。
举个例子,我最近二刷唐诡第三季,看得上头。里面有一个案子,叫去天尺五。我想更深入的了解一下这个成语背后的一些故事。 
如果让之前的那些模型去搜索,比如ChatGPT, 它只能给我搜索文字、生成文字。 
查看ChatGPT的思索过程,
图片
可以看到它其实并没有搜索图片。
我们可以来对比看一下GLM-4.6V是怎么做的。
图片
可以看到GLM-4.6V通过多次调用 search_image 这个工具来进行多轮的图片搜索,并且很明显是在边搜边理解获取到的图片。
图片
最终生成的报告里可以发现除了传统的文字之外,还带着搜索得到的图片辅以说明。
当然,多模态能力的增强,也就意味着前端对界面的复刻能力的增强。 
先来个简单的。
比如我从designprompts.dev上找了一个网页截图让它复刻。 
提示词非常之粗糙,就是复刻一下这个页面。
图片
左边是原图,右边是它复刻的。
除了字体的大小不同之外,其他的元素都是完美复刻了的。
我再给了它个难一点的,一次给一排图。 
下面这个是我的原图:
图片
非常的,就不按常理出牌。。。 
图片
事实证明GLM-4.6V完成的还是不错的。
我觉得非常有意思的是第三张UI图,它因为没有现成的图片,但是它意识到中间这个区域是天气预报的一个直播场景,就直接标明了这个区域。 
VL模型的重要性此刻凸显出来。。  
以及,GLM-4.6V也可以支持接入Claude Code。
我指的接入是,不止是作为mcp,更是以基模的形式。 
官方配置教程在此: 

https://docs.bigmodel.cn/cn/guide/develop/claude。 

但是毕竟GLM-4.6V本身的参数量不是很大,写代码推荐的配置是GLM-4.6 配上GLM-4.6V MCP Server。 

配置成功后可以查看一下具体的tools有哪些。 
图片
我上传了一个视频,让它帮我复刻这个效果,包括一些我作为一个编程菜鸡无法说的清楚的交互动画。 
下面是GLM-4.6搭配着GLM-4.6V MCP Server 生成的效果:  
可以看到整体上的效果上其实完成的还不错了,包括一些细小的悬浮动画都做出来了。唯一美中不足的就是颜色和一些细小的文字没有还原完全准确。
当然,我还测试了一下模型的OCR能力。
图片
GLM-4.6V对这种字体的识别,基本是毫无压力。
图片

百分百准确。这个 case 之前测 DeepSeek-OCR和 Paddle-OCR都没能做到完全正确。

再来一个竖版的文字识别,而且还增加了点难度这次,让模型以正确的诗句内容排序呈现出来。

图片

GLM-4.6V也是能够正确识别,并且正确排序的。

图片

一个非常有意思的点是,它其实注意到了原图里,最后没有写完。 

图片
但是因为本身模型其实具备这个知识,所以也能把这个信息补全正确。
有知识的好处再次增加了啊~ 
这次 GLM-4.6V的上下文提升,也顺带便的把视频理解能力提升了,能一次理解长达1小时的视频。 
我直接整上一手来试试它的视频理解能力。   
我上传了一个科比的生涯十佳球视频。 
图片
识别理解的非常准确,即使是面对这种带着点推理的问题,也没什么问题。
最后,说下GLM-4.6V-Flash。 
因为只有9B的关系,所以非常适合本地部署。这个尺寸几乎是本地部署的最佳选择了。
我在LM Studio 上下载的是GGUF版本,大小只有5.76GB。
图片
运行在我M4 Max 128GB 内存的MacBook Pro 上,速度快到起飞。  
图片
每秒钟能达到65个token。唯一美中不足的是,不知道是不是LM Studio适配的问题,目前还没办法支持本地上传图片进行理解。。。  
哦对了,如果你想调用这个模型的API也是可以的。智谱官方这次是把这个模型直接免费了。。。
不说了,就是豪气啊 

智谱 AI GLM 教程

图片
时间过得真快,
好像就真的一眨眼,马上一年就结束了。 
看着国产开源模型从年头一路枝繁叶茂到年尾, 
只想说,
真好,
唯愿这股开源的热浪继续奔涌,愿我们的社区生态不仅枝繁叶茂,更能落地生根,长成参天大树。 
以上, 

>/ 作者:Bubble

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/270061.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午3:20
下一篇 2026年3月12日 下午3:21


相关推荐

关注全栈程序员社区公众号