智谱GLM-4.5V深度测评:前端复现、文字识别…它确实有点东西!

智谱GLM-4.5V深度测评:前端复现、文字识别…它确实有点东西!

作者|子川

来源AI先锋官

智谱又开源了!

两周前,智谱把 GLM-4.5 系列砸向开源圈。

相关阅读:

时隔不久,就在两天前,智谱再次宣布开源其最新一代的视觉理解模型——GLM-4.5V。

这是一个视觉能力强悍的多模态推理模型。

根据官方介绍,该模型基于 GLM-4.5-Air 训练,拥有 1060 亿参数和 120 亿激活参数。

先来看一下它的纸面实力。

根据官方发布的技术细节,在 41 个公开的视觉多模态榜单上,GLM-4.5V 的表现在同尺寸模型中最佳,超越了 Step-3、Qwen2.5-VL 等模型。

图片

同时,GLM-4.5V还参与了拍图猜地点积分赛,最终GLM-4.5V的积分排到了该赛事网站的第66名,超越了99%的人类用户。

图片

那它的实际效果到底如何?有介绍的那么厉害吗?老规矩,我们来测一测。

实测一:复现前端页面

发布会上有提到,GLM-4.5V 可以根据网页录屏或截图来复现前端代码。

我们上传一张抖音的截图,让它 1:1 复刻一个一模一样的页面。

图片

生成的效果是这样式的。

图片

一眼看过去,页面上几乎所有的功能,如登录、点赞、收藏等按钮,都被复制粘”过来了。

但缺点也很明显:每个功能模块之间的距离没有把控好,更多 UI 细节没能还原,看起来有点丑(当然,这已经很强了)。

为了测试 GLM-4.5V 的极限,我们还让它 1:1 复刻一个功能入口极其繁多的淘宝首页。

图片

从结果来看,这似乎是把它难住了。

这次它没能把所有的文本信息都复制过来,缺失了一部分功能,比如“淘宝直播”、“88VIP”等模块就没有看到。

图片

实测二:文字识别

接下来,我们测试了它的文字识别能力。我们上传了一张发票,并要求它提取所有关键信息。

提示词:请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回

图片

这一次,GLM-4.5V 表现堪称完美,准确识别并提取出所有的文字信息。

图片

实测三:图像识别与查找

为了测试 GLM-4.5V 的图像识别能力,我们让它玩起了“找东西”游戏。

比如让它找寻图片中有几个“3”。

图片

GLM-4.5V很快答案,并且准确地在图中标注了出来。

图片

升级一下难度,让它在一堆熊猫中寻找一个足球。

说实话,如果不是提前知道答案,小编也很难快速找到。

图片

尽管比较复杂,但还是很快就找到了。

图片

实测4:地理定位

这个测试怎么能少的得了看图识位置呢。

上传一张小编之前去玩时拍的照片,让它猜猜这是哪儿。

图片

智谱 AI GLM 教程回答正确!它很快就识别出这是深圳的“湾区之光”摩天轮。

图片

不过,考虑到这个摩天轮还算比较出名,可能没什么挑战性。再换一张小众点的风景照试试。

图片

这次 GLM-4.5V 就没能准确识别了,它推测这里可能是日本冈山县牛窗地区的某个海滨。

而正确答案其实是:深圳。

图片

目前该模型可以直接在z.ai或智谱清言体验。

同时GitHub、Hugging Face、魔搭社区均已上架,甚至贴心地提供了FP8量化版,大家感兴趣,可以去试玩一番。


 .END.

往期文章回顾
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/267311.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午6:11
下一篇 2026年3月12日 下午6:11


相关推荐

关注全栈程序员社区公众号