GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

又有一款中国大模型开源了，这次是被OpenAI点名的全球竞争对手：智谱。

名字叫GLM-4.5，很猛，

首款SOTA级原生Agentic大模型，国产综合评测第一，性能媲美全球最强旗舰模型。

我直接忍不住上手测试了一番，本篇我们先介绍一下它，测试的例子放在后面了。

GLM-4.5 采用了混合专家（MoE）架构，有两个版本：

GLM-4.5 在实际编码场景里，官方以Claude Code为编码工具。让 GLM-4.5 跟 Claude-4-Sonnet、Kimi-K2 和 Qwen3-Coder 全面 PK 了一把。

一共搞了 52 个编码任务，前端、工具、数据分析、测试、算法应用。所有任务都是在独立的测试环境里，通过多轮人机对话来评估的，标准也都统一。

结果：GLM-4.5 在 53.9% 的任务里干掉了 Kimi K2，对 Qwen3-Coder 更是以 80.8% 的胜率碾压。

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

但在与 Claude-4-Sonnet 的较量中仍有改进空间。

值得一提的是，GLM-4.5 在工具调用成功率上，表现最牛，平均达到 90.6%。

这比 Claude-4-Sonnet（89.5%）、Kimi-K2（86.2%）和 Qwen3-Coder（77.1%）都高。在 agentic 编码任务中表现出卓越的可靠性和效率。

这 52 项编码任务的测试过程，都公开了，大家想研究的，可以去看看。

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

开源地址：https://huggingface.co/zai-org/GLM-4.5

GLM4.5 参数量只有 DeepSeek-R1 的一半，Kimi-K2 的三分之一。

但在多项标准基准测试中，表现更为出色。参数效率翻倍，API价格仅为Claude的1/10。输入：0.8元 / 百万 tokens，输出：2元 / 百万 tokens，高速版本实测生成速度超过100tokens/秒，支持低延迟、高并发的实际部署需求。

GLM-4.5 在 推理、代码、智能体综合能力（平均分）达到开源模型 SOTA 水平；Agentic Coding 盲评测试中，实测结果国内最佳；

GLM-4.5 与 OpenAI、Anthropic、K2、Deepseek等模型对比表现：一共 12 个基准测试，里头包括了 3 个 Agent 任务，7 个推理任务，还有 2 个代码任务。总体而言，GLM-4.5 排名第 3，GLM-4.5 Air 排名第 6。

Agentic能力很强，直接干到第二，代码上比Sonnet差些，这个我体验完之后是这样的。

GLM-4.5 与 GLM-4.5-Air 均采用混合推理架构，支持两种工作模式：（1）适用于复杂推理或工具调用的“思考（thinking）模式”，以及（2）用于即时响应的“非思考（non-thinking）模式”。

同时，它在工具调用、网页浏览、软件工程等领域进行了深度优化。

可以一键兼容 Claude Code、Roo Code 等代码智能体框架，也能通过标准工具调用接口，支持任何智能体应用。

它是第一款原生Agentic基座模型：

能够胜任全栈开发任务，编写较为复杂的应用、游戏、交互网页。例如，你可以使用GLM-4.5轻松制作一个真的能搜索的搜索引擎，甚至一个真的能点赞的文字版短视频平台。以上需要模型原生具备在前端编写网站、在后端进行数据库管理，以及通过工具调用接口支持任意的智能体应用等综合能力。

大模型开始从仅仅生成一份内容，到一句话上线一个可运行的应用产品——并且是来自模型的原生能力。

作为一款专为 Agentic 任务优化的基础模型，它支持 128k 的上下文长度和原生函数调用能力。在 𝜏-bench 和 BFCL-v3（伯克利函数调用排行榜 v3）上评估了两款模型的 agentic 能力，结果显示，GLM-4.5 的性能与 Claude-4-Sonnet 相当。

智谱 AI GLM 教程

只需在 https://chat.z.ai/ 选择glm-4.5然后点击全栈开发即可：

Case1：做一个Google搜索网站。

离谱，一个真的能搜索的搜索引擎就这么做出来了。。网页做得太像谷歌了，要不是最后搜出来的信息的样式有点简略，我还反应不过来。

Z.ai版本“谷歌搜索”体验地址：https://n0x9f6733jm1-deploy.space.z.ai

Case2：一个真的能点赞的文字版抖音。

提示词：做一个文字版抖音，允许上下切换，需要支持发帖、点赞、评论的功能。

Z.ai版本“文字抖音”体验地址：https://t0mau6dg2nv0-deploy.space.z.ai

Case3： GLM-4.5不仅擅长处理复杂代码，同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页，用户可以点击地点查看详情，并伴有平滑的缩放动画。

提示词：Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I’ve visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

Z.ai网页上的这个全栈开发功能集成了数据库，一般的ChatBot只能生成前端html网页，但他却可以帮你创建需要后端功能的任务需求，还可以一键发布、源码下载。

有了 GLM-4.5，人们可以轻松创建同时需要前端编码、数据库管理和后台部署的网站。

下面我们直接上手实测一下：

下面涉及代码的例子是我在Claude Code中用Glm4.5生成的，在后文我会给大家介绍如何在Claude Code中接入GLM4.5。

“数字生命体”创造：AI版“西部世界”

提示词

这不再是执行一个有明确终点的任务，而是 创造一个拥有内生规则、可以无限运行下去的“混沌系统”。考验了模型将抽象逻辑（行为规则）转化为具体代码，并构建一个自洽、可交互的虚拟世界的能力。

这个游戏的逻辑就是觅食者（蓝色）会去吃食物（绿色），而守护者（红色）会杀死觅食者。蓝红可以指定一次加入的个数，绿色可控制再生速度，你的每次添加或者修改会影响整个“棋局”。

我们从视频中可以看到，我点击并演示了下面这些角色所有的功能。他都是流畅无bug的运行。

而这个案例在不少其他的模型中都失败了。并且它最终生成的这个美观度也值得肯定，有不少模型生成的比较简陋。

我可以通过调整参数来观察不同的物理现象，比如高速旋转时的离心效应，或者不同弹性系数下的能量损失。GLM4.5整个模拟器既有科学的物理基础，又有炫酷的视觉表现！

和以前一样，我给它喂了一份设计需求文档（前面在优化公众号文章排版，积累了些经验。我想把这些想法、经验转化成一个产品原型），比较复杂：

这份指令，一股脑儿地喂给了 AI。我想看看，它到底能消化多少，又能给我带来怎样的惊喜。在Claude Code和GLM的帮助下，它设计的这个高转化率的落地页，从【导航栏】到【主视觉区】，每个细节都得安排得明明白白。

场景中每一个粒子都需要计算并受到其他所有粒子的引力影响，而不是只有一个中心引力点。请提供一个UI按钮,可以随时向系统中添加一个新的、有初速度的粒子，并观察它如何与其他粒子相互作用，改变整个系统的轨迹。

提示词很简单。但GLM4.5做的比较完美。

系统开始时包含一个中心大质量恒星和5个围绕它运行的行星，展示了类似太阳系的轨道运动。当你添加新粒子时，它会扰乱原有的轨道，创造出复杂而美丽的引力舞蹈。

这个模拟展示了N体问题的混沌性质 – 即使初始条件只有微小变化，长期行为也可能完全不同。添加不同质量和速度的粒子，可以看到它们如何影响整个系统。

创建一个由数百个小立方体构成的、悬浮在空中的巨大罗马数字时钟。当时钟正常运转时，立方体保持形状；当用户点击时钟，所有立方体像爆炸一样四散飞溅，然后在几秒后，它们会重新汇聚、组合成时钟的形态。请使用物理引擎模拟爆炸和重组的动态过程。这个设计使用Three.js来实现3D效果，并包含物理模拟。

点击时钟我观看到了壮观的爆炸和重组效果！立方体会以真实的物理规律飞散，然后优雅地重新组合成时钟形态。

创造一个由数千个小球组成的、看起来像液态金属或粘稠流体的“软体 (Soft Body)”。用户可以用鼠标像捏橡皮泥一样，推、拉、挤压这个流体，它会产生逼真的、符合物理规律的形变和晃动效果。

GLM4.5生成了一个逼真的液态金属软体模拟器。这个模拟器将使用数千个相互连接的粒子，通过弹簧系统实现软体物理效果。我通过拖拽来”捏”这个液态金属，它会像真实的粘稠流体一样产生形变和晃动效果。而后调整不同的参数也获得了不同的质感。

用 Three.js 创建一个3D函数表面，例如 z = sin(x) + cos(y)。然后，生成一个小球，当用户点击表面任意位置时，小球会沿着该点梯度的反方向“滚下”，最终停在局部最低点。请将小球走过的路径用一条发光的线标记出来。

这个涉及代码和数学，GLM4.5创建的这个3D函数表面演示，小球会沿着梯度方向滚下并留下发光轨迹。小球会持续滚动直到找到局部最小点（梯度接近零的地方），然后停止。可以多次点击不同位置来创建多条路径，观察小球如何”滚下山坡”，还有，它搞出来的3D质感不错！

创建一个双栏 Markdown 编辑器，左侧编辑，右侧实时渲染成邮件样式。

测试了它的功能都能正常使用。好了，下次我让它继续增加更多优雅的样式。以适用于公众号排版。

我们以这个微软网页自动化mcp安装作为示例：

安装完mcp，记得重启终端才能生效。

测试他使用打开网页、截图、点击都正常

我继续让他测试我的Supabase 数据库是否可以正常链接。 [ Bolt + Supabase：1分钟实现APP的登陆功能、连接数据库（Bolt、Cursor、BaaS、AI全栈） ]

GLM4.5一顿操作，各方面规划了下，最终测试Supbase是可以连通的。在涉及网页操作的时候，它配合 playwright -mcp ，很自动化。

它甚至还做了一个网页方便我手动测试。。

请解释一下心理学中的‘前额叶回响效应’（Prefrontal Echo Effect）及其在决策中的应用。” (这是一个我刚编的、听起来很科学的术语)

这个回答很出色，它展示了大模型在处理 不存在或非标准概念 时的水平—— “有知者无畏，无知者不乱”。

它没有止步于“查无此词”，进行了 “善意重构” —— 推断出了提问者背后可能想了解的真实科学概念。

对比我测试4o、 Claude4的回答，前者在这个问题上有幻觉，后者回答的不如这个好。

Gpt-4o这个一个非常典型的、也是 最危险 的大模型“幻觉”案例。它不仅没有识别出你提出的概念是虚构的，反而还“一本正经地胡说八道”，用看似专业的术语和逻辑，为一个不存在的概念构建了一整套理论体系。

它 纠正了一个核心的事实错误，还 预判并满足了提问者背后真正的求知欲，展示了 对历史事实错误的纠错与深度背景延展能力。这个过程，当然，也没让它联网。

创意写作：请用鲁迅的文笔，写一段关于现代人沉迷于刷短视频的评论。

它把短视频比作‘新式鸦片’，把刷视频的人比作伸长脖子的‘看客’，这种跨越百年的精准互文，瞬间就有了批判的深度。那句‘脑子里只剩下一堆杂乱无章的、十五秒的碎片’，是说到了每个人的心坎里。

人生炼金术师：我以前写过一个人生炼金术师提示词（把普通的话语转为有人生哲理的精炼语句），来看看它生成的效果：

这效果，不输Claude。“ 买了很多没用的东西 ” ——> “ 你以为拥有了物品，其实是物品短暂地拥有了，你的欲望”。文案也是挺绝。

此外，在https://chat.z.ai/这里它能够做ppt，而且同时保持联网。还能把真实的图片给他加进去。

使用GLM-4.5制作PPT或者图文卡片，你将得到信息翔实、配图准确、排版精美的成果。与传统的AI PPT使用模板填充信息不同， GLM-4在制作过程中会自主搜索资料、寻找配图，根据实际材料直接以HTML形式编写图文，从而使信息更准确、排版更灵活。

看看它制作的WAIC Geoffrey Hinton演讲要点PPT

你可以看到里面的配图是网络上真实存在的。整个风格干净清爽。

提示词：我需要一份关于大模型“幻觉”(Hallucination)现象的深度分析PPT。请你上网研究其成因、最新学术观点和业界解决方案，并搜集几个最典型或有趣的“幻觉”案例。PPT的风格要像一份给科技巨头CEO的战略内参，冷静、专业但直指要害。

GLM 4.5 Agentic规划与执行： 整个过程（理解 ->规划 ->研究 ->设计 ->生成）一气呵成，展现了作为一个“智能体”独立完成复杂任务的闭环能力。

目录结构从“商业影响”入手，以“技术根源”收尾，平衡了商业视角和技术视角，符合“给CEO的内参”这一定位。

第二步：按照以下命令启动：

会出现这个界面，我们选择yes，表示使用GLM4.5的api key

继续，点击yes信任文件夹：

好了，一切大功告成！你可以愉快的在CC中使用GLM4.5了。

比如，让他创建一个鹈鹕svg玩玩：

虽然配置好了，但是不熟练 Claude Code怎么办？没事：关于在Claude Code 更具体的使用经验，我已经写在这篇文章里了（包括安装）： [ Claude Code 快速入门，高频使用点 + 生态工具，一篇搞定！ ]

另外，智谱刚刚推出了一个超值活动，名额有限，先到先得！只需50元即可享受包月服务，畅玩Claude Code 调用和GLM4.5 API，包含1万亿Tokens，享受无限量使用，爽到爆！抓紧时间，冲呀！

下面，官方还给出了许多有趣例子，点击链接可以看到GLM完成任务的整个过程。

Artifacts

GLM-4.5 增强了 4 月份 GLM-4 版本中引入的复杂代码生成功能。现在，该模型可以跨 HTML、SVG、Python 和其他格式创建复杂的独立作品 –从交互式迷你游戏到物理模拟。

PPT制作

利用 GLM-4.5 强大的 agentic 工具使用和 HTML 编码功能，智谱开发了一个模型原生的 PPT/Poster 智能体。用户可以提出简单或复杂的设计要求，也可以上传文档，该智能体会自动搜索网络或检索图片，然后制作 PPT。

全栈开发

GLM-4.5 在前端和后端开发方面都表现出色，是构建现代网络应用程序的强大工具。为了更好地展示其功能，智谱开发了一个受 Claude Code 启发的编码智能体。通过提供基本的全栈网站模板，该智能体使用户只需几个字就能创建整个网站。用户可以通过多轮对话毫不费力地添加功能和完善项目，使编码过程变得流畅而愉快。

写在最后

大语言模型的终极目标，是具备解决通用问题的认知能力，而非局限于特定任务。这意味着模型必须拥有泛化、常识推理和自我提升的能力。

过去五年，从GPT-3到o1，模型在编程、数学等领域的推理能力已大幅提升。

然而，这些模型仍未实现真正的通用。它们各有专长，却无一能在所有任务中都达到最佳。

GLM-4.5的目标，正是要整合这些分散的能力，实现更全面的性能。

它，是第一款原生Agentic基座模型。

GLM-4.5，首次在单个模型中实现了推理、代码、Agentic等多能力原生融合，适配从对话生成到智能体任务的多类场景。

从一个想法，到一个可运行的应用。
它具备这种端到端的能力。

实测中，它的推理、代码、智能体综合能力（平均分）达到了开源模型的SOTA水平；在Agentic Coding盲评测试中，结果国内最佳；体验上甚至能够平替闭源的Claude Sonnet 4。

大模型的未来，在于深入真实场景，解决实际问题。
GLM-4.5，正是在这条路上，迈出的坚实一步。

用了智谱一年半的免费flash模型，这次又蹲到了智谱最强的模型开源，太有爱了。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/265816.html原文链接：https://javaforall.net

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

关于作者

全栈程序员-站长

相关推荐

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

智谱深夜开源新一代GLM模型，推理速度快DeepSeek-R1八倍，还启用了全新域名Z.ai

国产 AI 大模型竞争升级：智谱 GLM-5 与 MiniMax 2.5 联袂发布

神秘模型“Pony Alpha”火了，被曝是智谱 GLM-5

智谱发布首个手机智能体：一句话点外卖订机票，手表、眼镜等均能接入

智谱开源GLM-ASR-Nano-2512模型推动端侧AI普及！