智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?

[‘这篇文章,由AI一键直出⬆️’, ‘今天,智谱发布并开源了’, ‘GLM-4.6V多模态模型’, ‘,一个是向云端服务的106B基础版,一个是面向本地部署的9B轻量版。’, ‘模型下载:’, ‘

huggingface.co/collecti

‘, ‘API调用平台:’, ‘

bigmodel.cn
‘, ‘MCP调用入口:’, ‘

docs.bigmodel.cn/cn/cod

‘, ‘开头这篇文章,便是由GLM-4.6V-106B直接生成。’, ‘可以看到,GLM-4.6V除了在视觉理解上能够“看懂”多模态内容外,还具备工具调用能力(Function Call)能够直接做“执行”。’, ‘官方说,这是一个’, ‘原生具备多模态工具调用能力’, ‘的模型。比如,可以处理图文混排、识图购物、导购以及各种Agent场景的复杂视觉任务。’, ‘省流:’, ‘感知→理解→执行,都在一个推理链里完成,无需外部工程化。’, ‘一手实测’, ‘我知道,这么说,你可能还是没懂。下面,我们来看点实际的。’, ‘打开’, ‘Z.ai’, ‘,选择模型“GLM-4.6V”,根据任务需要选择合适的工具,开启“深度思考”,进行体验。’, ‘这里,简单分享几点技巧:’, ‘①建议所有场景都开启深度思考’, ‘,除非是明确的简单行为,比如OCR识别。’, ‘②不需要把所有工具都勾选’, ‘,建议根据自己的任务情况来选择。比如coding任务,它不太需要图像处理、图像搜索和购物搜索,那就把4个工具都关掉。’, ‘③’, ‘如果不知道自己需要什么样的工具,可以’, ‘点下方的胶囊入口’, ‘。’, ‘这里内置了6个场景:’, ‘识图搜图、图文扫描、文档解读、视频

智谱放大招!实测glm-4.6v,它也太会“看图做事”了

目前OCR,从图片中提取文字,千问和GLM-4.6V幻觉极少,几乎0幻觉。豆包开深度思考,还是胡说八道。

通过工具调用搜索识图,千问和GLM各有千秋,看各自的搜索源覆盖了,能搜到,大概率都能识别。GLM搜索会更积极一点,千问经常会摆烂。千问识图目前跟淘宝系有联动,可以识图后转购买链接。冷门内容,豆包调用工具后,识图翻车率依然很高。

在时间推理上,GLM翻车了,因为奇葩的理解方式,豆包估摸准了大概,千问依然稳如老狗。

综合来看,从图片识别和推理能力上看,千问还是一哥(甚至不用思考模式),GLM第二,豆包第三,元宝最差(不过,混元是有后手准备的)。


智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
这里多了一个挂耳

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
完全胡说八道,幻觉满天飞。可能处理时,图片被过度压缩了

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
这里多了一个1

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
千问稳如老狗

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
这里明显是bug,时针在12位置,GLM理解为1和2之间,这种理解方式也是奇葩,不能说逻辑错误,这是常识错误。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?
豆包理解对了,但精度不高。她一直在纠结手机顶部的00:34的时间干扰项

这个好,之前国内模型,我截了 bug 图片,都无法识别,基本不能用。

这次更新的glm4.6V,一个是视频理解功能,大部分模型现在还不支持这个功能,它可以告诉你视频里发生了啥。

上下文窗口128K, 这次的亮点是视觉理解的精度达到同级别 SOTA 水平+视觉原生工具调用能力,价格上比GLM-4.5V 还能便宜一半。


智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?

图像推理:我上传了一张电影演员合照,然后问了右上方一排的三个人演过啥电影, GLM 4.6正确,Gemini 发挥稳定,效果还行。

表格数据读取:弄了一张研报里的数据图, GLM-4.6 基本准确,Gemini发挥稳定。

又试了一个前端任务,直接找了 Runway 的页面发一张图让模型做一个一样的前端, GLM-4.6V 基本可以像素复刻。

不需要把图片转文字,它能直接用截图、文档、照片作为输入,对图表、搜索结果、渲染页面等视觉输出进行理解并加入推理过程。

初步测试下来,还是挺不错的。


智谱 GLM-4.6V 实现『看图做事』能力大飞跃,在多模态 AI 领域有何颠覆性突破?

当然肯定不能跟 Gemini 比。之前听说glm4.6 比肩 claude 我就试了一下拿他 agent。

当我看到它写成 using namespace 来解决包名错误的时候,我觉得编程这块可能还有较长的路要走。

当然也可能是每个人的体感不太一样。

我的脑子中基本对大模型 coding 的各种问题都相对清晰,哪怕提示词比较朴素,但基本都会落在一个比较明确的方向,不会让大模型去遍历所有的情况。

我自己的体验中,大部分的修改都是在一个相对可控的区间里面。​

之前定了一个季度,用了一个多月了,我自己根本用不完。

但说实话 GLM4.6 还是不如 sonnet4.5,更不说 opus4.5 了。不过国内算是最强,性价比无敌。​

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/270261.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午3:09
下一篇 2026年3月12日 下午3:09


相关推荐

关注全栈程序员社区公众号