智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

随着2025年接近尾声,大模型领域的竞争未见放缓,反而迎来了一波重磅更新。今日凌晨,智谱突袭发布了其新一代旗舰模型——GLM-4.7,以一系列 SOTA 表现,为今年的开源战场献上了堪称“压轴”的力作。

此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作,不仅在多项国际主流基准测试中横扫开源榜单,更以任务交付为核心,致力于成为开发者手中真正高效、可靠的全栈编程工具,全力冲刺“全球大模型第一股”。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

从功能亮点来看,GLM-4.7 在三个维度实现显著提升:


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7 可谓“开源即巅峰”:在全球百万用户盲测的 Code Arena 专业编码评估中,它位列开源第一、国产第一,超过 GPT-5.2。此外,模型进一步优化了“交错式思考”机制,并创新引入保留式思考与轮级思考,支持在同一会话内动态控制推理开销,在长程、复杂任务中兼顾效率与稳定性,真正向“以任务完成为核心的智能协作系统”迈进。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

302.AI 已第一时间接入 GLM-4.7 系列模型 API,本期实测将针对模型特性展开实测,重点对比 4.7 版本相较于 4.6 版本的改进与性能提升。

(1)各实测模型在 302.AI 的价格:

本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7 将代码层面的结构化思维和审美能力成功迁移到了视觉创作领域,生成的 PPT 在标题层级、元素尺寸和留白上更加合理、明确,结构更清晰。且几乎无需调整版式,即开即用。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7 的编程能力较 GLM-4.6 实现了显著提升,其增强的审美与交付质量在前端编程中尤为突出,能够生成具有更优质代码结构、更富现代设计感的 UI/UX 界面。

对比 GLM-4.6 的效果,GLM-4.7 生成的 Mac 系统模拟界面完全实现了核心功能且超出预期:


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.6 生成效果:


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

Claude Opus 4.5 的生成效果,同样是不是水准的发挥,但在 GLM-4.7 这一版效果面前难得略逊一筹。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7在完整实现了核心功能的同时,在 UI 和交互上也更加精良


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.6 生成效果:


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

对比此前 GPT-5.2 的案例,在物理逻辑和视觉设计上都是 GLM-4.7 效果更好。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7 在技术栈整合和复杂任务规划上的能力整体有所提升,能够更可靠地理解和完成包含 3D 渲染模块的综合性前端或游戏开发任务。


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

Vibe Coding?对于 GLM-4.7 来说也不在话下,只需给到简单的提示词,它甚至能为你创建一个自带主题的 Markdown 编辑器:


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

经过本次实测,GLM-4.7 展现出的综合能力,特别是其在任务完成度上的飞跃,已不言自明。相较于前代 GLM-4.6,其实力提升可概括为一次“扎实的进步”。

从多项测试案例来看,GLM-4.7 在以下两方面表现尤为突出:

GLM-4.7 的智能体特质更加成熟可靠。无论是实现功能完整的 Mac 桌面模拟器,还是开发带物理引擎的平台跳跃游戏,它都能输出结构清晰、可直接运行、且具备现代 UI/UX 观感的代码。更重要的是,在面对如“禅意庭院”“旋转星系”这类融合 3D 渲染、动画与交互的复合型任务时,GLM-4.7 能够有效整合技术栈、规划实现路径,证明了其处理复杂、长周期开发任务的能力已进入实用阶段。

GLM-4.7 在视觉输出质量上进步显著。生成的 PPT 版式专业、配色协调,基本实现“即开即用”;前端代码呈现的界面也具有更强的设计整体性与现代感。这说明其美学能力已从基础的功能实现,延伸至用户体验的优化层面。

这种从“生成片段”到“交付成品”的跨越,源于其底层思考机制的创新:“交错式思考”确保单步逻辑严谨,“保留式思考”维持长程对话连贯,“轮级思考”则支持根据任务复杂度动态调配推理资源。三者协同,显著提升了模型在真实场景中的理解力与执行稳定性,有效减少了无效输出与反复调试。

综合来看,凭借本次迭代,智谱 GLM-4.7 已坐稳“2025 年开源模型第一梯队”。它在多项硬核基准测试中取得的 SOTA 成绩,在我们的实测中得到了体现——更强的工程实用性和更优的交付质量。这也进一步揭示:谁更能稳定理解需求、流畅协同工具、并输出可直接使用的成果,谁就能在下一阶段的实用化竞争中占据先机。

步骤指引 :应用超市→机器人→聊天机器人→立即体验


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

选择模型:国产模型→glm-4.7系列模型→确认→创建


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

步骤指引:API超市→语言大模型→智谱→glm-4.7系列模型


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

点击【立即体验】在线调用 API


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

想即刻体验 GLM-4.7 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手


智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/270615.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午2:49
下一篇 2026年3月12日 下午2:49


相关推荐

关注全栈程序员社区公众号