智谱GLM-4.5V深度测评：前端复现、文字识别…它确实有点东西！

作者｜子川

来源｜AI先锋官

智谱又开源了！

两周前，智谱把 GLM-4.5 系列砸向开源圈。

相关阅读：

时隔不久，就在两天前，智谱再次宣布开源其最新一代的视觉理解模型——GLM-4.5V。

这是一个视觉能力强悍的多模态推理模型。

根据官方介绍，该模型基于 GLM-4.5-Air 训练，拥有 1060 亿参数和 120 亿激活参数。

先来看一下它的纸面实力。

根据官方发布的技术细节，在 41 个公开的视觉多模态榜单上，GLM-4.5V 的表现在同尺寸模型中最佳，超越了 Step-3、Qwen2.5-VL 等模型。

同时，GLM-4.5V还参与了拍图猜地点积分赛，最终GLM-4.5V的积分排到了该赛事网站的第66名，超越了99%的人类用户。

那它的实际效果到底如何？有介绍的那么厉害吗？老规矩，我们来测一测。

实测一：复现前端页面

发布会上有提到，GLM-4.5V 可以根据网页录屏或截图来复现前端代码。

我们上传一张抖音的截图，让它 1:1 复刻一个一模一样的页面。

生成的效果是这样式的。

一眼看过去，页面上几乎所有的功能，如登录、点赞、收藏等按钮，都被复制粘”过来了。

但缺点也很明显：每个功能模块之间的距离没有把控好，更多 UI 细节没能还原，看起来有点丑（当然，这已经很强了）。

为了测试 GLM-4.5V 的极限，我们还让它 1:1 复刻一个功能入口极其繁多的淘宝首页。

从结果来看，这似乎是把它难住了。

这次它没能把所有的文本信息都复制过来，缺失了一部分功能，比如“淘宝直播”、“88VIP”等模块就没有看到。

实测二：文字识别

接下来，我们测试了它的文字识别能力。我们上传了一张发票，并要求它提取所有关键信息。

提示词：请提取这张照片的内容，其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校验码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地址、电话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单位’、‘数量’、‘单价’、‘金额’、‘税率’、‘税额’、‘价税合计（大写）’、‘价税合计（小写）’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地址、电话’、‘销售方地址、电话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息，返回的结果信息以json格式返回