智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

Ai探索者 • 2026年3月12日下午3:09 • 智谱 • 阅读 3

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

[‘这篇文章，由AI一键直出⬆️’, ‘今天，智谱发布并开源了’, ‘GLM-4.6V多模态模型’, ‘，一个是向云端服务的106B基础版，一个是面向本地部署的9B轻量版。’, ‘模型下载：’, ‘
https://
huggingface.co/collecti
ons/zai-org/glm-46v
‘, ‘API调用平台：’, ‘
https://www.
bigmodel.cn
‘, ‘MCP调用入口：’, ‘
https://
docs.bigmodel.cn/cn/cod
ing-plan/mcp/vision-mcp-server
‘, ‘开头这篇文章，便是由GLM-4.6V-106B直接生成。’, ‘可以看到，GLM-4.6V除了在视觉理解上能够“看懂”多模态内容外，还具备工具调用能力（Function Call）能够直接做“执行”。’, ‘官方说，这是一个’, ‘原生具备多模态工具调用能力’, ‘的模型。比如，可以处理图文混排、识图购物、导购以及各种Agent场景的复杂视觉任务。’, ‘省流：’, ‘感知→理解→执行，都在一个推理链里完成，无需外部工程化。’, ‘一手实测’, ‘我知道，这么说，你可能还是没懂。下面，我们来看点实际的。’, ‘打开’, ‘Z.ai’, ‘，选择模型“GLM-4.6V”，根据任务需要选择合适的工具，开启“深度思考”，进行体验。’, ‘这里，简单分享几点技巧：’, ‘①建议所有场景都开启深度思考’, ‘，除非是明确的简单行为，比如OCR识别。’, ‘②不需要把所有工具都勾选’, ‘，建议根据自己的任务情况来选择。比如coding任务，它不太需要图像处理、图像搜索和购物搜索，那就把4个工具都关掉。’, ‘③’, ‘如果不知道自己需要什么样的工具，可以’, ‘点下方的胶囊入口’, ‘。’, ‘这里内置了6个场景：’, ‘识图搜图、图文扫描、文档解读、视频

智谱放大招！实测glm-4.6v，它也太会“看图做事”了

目前OCR，从图片中提取文字，千问和GLM-4.6V幻觉极少，几乎0幻觉。豆包开深度思考，还是胡说八道。

通过工具调用搜索识图，千问和GLM各有千秋，看各自的搜索源覆盖了，能搜到，大概率都能识别。GLM搜索会更积极一点，千问经常会摆烂。千问识图目前跟淘宝系有联动，可以识图后转购买链接。冷门内容，豆包调用工具后，识图翻车率依然很高。

在时间推理上，GLM翻车了，因为奇葩的理解方式，豆包估摸准了大概，千问依然稳如老狗。

综合来看，从图片识别和推理能力上看，千问还是一哥（甚至不用思考模式），GLM第二，豆包第三，元宝最差（不过，混元是有后手准备的）。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里多了一个挂耳

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里多了一个挂耳

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 完全胡说八道，幻觉满天飞。可能处理时，图片被过度压缩了

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 完全胡说八道，幻觉满天飞。可能处理时，图片被过度压缩了

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里多了一个1

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里多了一个1

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 千问稳如老狗

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 千问稳如老狗

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里明显是bug，时针在12位置，GLM理解为1和2之间，这种理解方式也是奇葩，不能说逻辑错误，这是常识错误。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 这里明显是bug，时针在12位置，GLM理解为1和2之间，这种理解方式也是奇葩，不能说逻辑错误，这是常识错误。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 豆包理解对了，但精度不高。她一直在纠结手机顶部的00:34的时间干扰项

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？ — 豆包理解对了，但精度不高。她一直在纠结手机顶部的00:34的时间干扰项

这个好，之前国内模型，我截了 bug 图片，都无法识别，基本不能用。

这次更新的glm4.6V，一个是视频理解功能，大部分模型现在还不支持这个功能，它可以告诉你视频里发生了啥。

上下文窗口128K，这次的亮点是视觉理解的精度达到同级别 SOTA 水平+视觉原生工具调用能力，价格上比GLM-4.5V 还能便宜一半。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

图像推理：我上传了一张电影演员合照，然后问了右上方一排的三个人演过啥电影， GLM 4.6正确，Gemini 发挥稳定，效果还行。

表格数据读取：弄了一张研报里的数据图， GLM-4.6 基本准确，Gemini发挥稳定。

又试了一个前端任务，直接找了 Runway 的页面发一张图让模型做一个一样的前端， GLM-4.6V 基本可以像素复刻。

不需要把图片转文字，它能直接用截图、文档、照片作为输入，对图表、搜索结果、渲染页面等视觉输出进行理解并加入推理过程。

初步测试下来，还是挺不错的。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

当然肯定不能跟 Gemini 比。之前听说glm4.6 比肩 claude 我就试了一下拿他 agent。

当我看到它写成 using namespace 来解决包名错误的时候，我觉得编程这块可能还有较长的路要走。

当然也可能是每个人的体感不太一样。

我的脑子中基本对大模型 coding 的各种问题都相对清晰，哪怕提示词比较朴素，但基本都会落在一个比较明确的方向，不会让大模型去遍历所有的情况。

我自己的体验中，大部分的修改都是在一个相对可控的区间里面。

之前定了一个季度，用了一个多月了，我自己根本用不完。

但说实话 GLM4.6 还是不如 sonnet4.5，更不说 opus4.5 了。不过国内算是最强，性价比无敌。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/270261.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

Ai探索者网站注册用户

45 文章

0 粉丝

这个人很懒，什么都没有留下～

Kimi-Audio：月之暗面开源的高性能语音处理工具包

上一篇 2026年3月12日下午3:09

如何创建自己的文心一言智能体？新手必看教程！

下一篇 2026年3月12日下午3:09

智谱

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了

Ai探索者
2026年3月12日
2
智谱

新一代基座大模型GLM-4

新一代基座大模型GLM-4

Ai探索者
2026年3月12日
2
智谱

智谱开源GLM-OCR：0.9B小模型在复杂文档处理登顶SOTA

智谱开源GLM-OCR：0.9B小模型在复杂文档处理登顶SOTA

Ai探索者
2026年3月12日
2
智谱

智谱开源GLM-4.5工具调用超越Claude Opus 4.1，成本仅1.4%

智谱开源GLM-4.5工具调用超越Claude Opus 4.1，成本仅1.4%

Ai探索者
2026年3月12日
2
智谱

智谱推出全球100B级最强开源多模态模型GLM-4.5V：获41个榜单SOTA

智谱推出全球100B级最强开源多模态模型GLM-4.5V：获41个榜单SOTA

Ai探索者
2026年3月12日
2
智谱

首发即支持！昇思MindSpore 0day 支持智谱开源GLM-4-0414全部6个模型

首发即支持！昇思MindSpore 0day 支持智谱开源GLM-4-0414全部6个模型

全栈程序员-站长
2026年3月12日
2

关注全栈程序员社区公众号