智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。

此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠的全栈编程工具，全力冲刺“全球大模型第一股”。

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

从功能亮点来看，GLM-4.7 在三个维度实现显著提升：

GLM-4.7 可谓“开源即巅峰”：在全球百万用户盲测的 Code Arena 专业编码评估中，它位列开源第一、国产第一，超过 GPT-5.2。此外，模型进一步优化了“交错式思考”机制，并创新引入保留式思考与轮级思考，支持在同一会话内动态控制推理开销，在长程、复杂任务中兼顾效率与稳定性，真正向“以任务完成为核心的智能协作系统”迈进。

302.AI 已第一时间接入 GLM-4.7 系列模型 API，本期实测将针对模型特性展开实测，重点对比 4.7 版本相较于 4.6 版本的改进与性能提升。

（1）各实测模型在 302.AI 的价格：

本评测侧重模型对逻辑，数学，编程，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

GLM-4.7 将代码层面的结构化思维和审美能力成功迁移到了视觉创作领域，生成的 PPT 在标题层级、元素尺寸和留白上更加合理、明确，结构更清晰。且几乎无需调整版式，即开即用。

GLM-4.7 的编程能力较 GLM-4.6 实现了显著提升，其增强的审美与交付质量在前端编程中尤为突出，能够生成具有更优质代码结构、更富现代设计感的 UI/UX 界面。

对比 GLM-4.6 的效果，GLM-4.7 生成的 Mac 系统模拟界面完全实现了核心功能且超出预期：

附 GLM-4.6 生成效果：

附 Claude Opus 4.5 的生成效果，同样是不是水准的发挥，但在 GLM-4.7 这一版效果面前难得略逊一筹。

GLM-4.7在完整实现了核心功能的同时，在 UI 和交互上也更加精良：

附 GLM-4.6 生成效果：

对比此前 GPT-5.2 的案例，在物理逻辑和视觉设计上都是 GLM-4.7 效果更好。

GLM-4.7 在技术栈整合和复杂任务规划上的能力整体有所提升，能够更可靠地理解和完成包含 3D 渲染模块的综合性前端或游戏开发任务。

Vibe Coding？对于 GLM-4.7 来说也不在话下，只需给到简单的提示词，它甚至能为你创建一个自带主题的 Markdown 编辑器：

经过本次实测，GLM-4.7 展现出的综合能力，特别是其在任务完成度上的飞跃，已不言自明。相较于前代 GLM-4.6，其实力提升可概括为一次“扎实的进步”。

从多项测试案例来看，GLM-4.7 在以下两方面表现尤为突出：

GLM-4.7 的智能体特质更加成熟可靠。无论是实现功能完整的 Mac 桌面模拟器，还是开发带物理引擎的平台跳跃游戏，它都能输出结构清晰、可直接运行、且具备现代 UI/UX 观感的代码。更重要的是，在面对如“禅意庭院”“旋转星系”这类融合 3D 渲染、动画与交互的复合型任务时，GLM-4.7 能够有效整合技术栈、规划实现路径，证明了其处理复杂、长周期开发任务的能力已进入实用阶段。

GLM-4.7 在视觉输出质量上进步显著。生成的 PPT 版式专业、配色协调，基本实现“即开即用”；前端代码呈现的界面也具有更强的设计整体性与现代感。这说明其美学能力已从基础的功能实现，延伸至用户体验的优化层面。

这种从“生成片段”到“交付成品”的跨越，源于其底层思考机制的创新：“交错式思考”确保单步逻辑严谨，“保留式思考”维持长程对话连贯，“轮级思考”则支持根据任务复杂度动态调配推理资源。三者协同，显著提升了模型在真实场景中的理解力与执行稳定性，有效减少了无效输出与反复调试。

综合来看，凭借本次迭代，智谱 GLM-4.7 已坐稳“2025 年开源模型第一梯队”。它在多项硬核基准测试中取得的 SOTA 成绩，在我们的实测中得到了体现——更强的工程实用性和更优的交付质量。这也进一步揭示：谁更能稳定理解需求、流畅协同工具、并输出可直接使用的成果，谁就能在下一阶段的实用化竞争中占据先机。

步骤指引：应用超市→机器人→聊天机器人→立即体验