GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

又有一款中国大模型开源了,这次是被OpenAI点名的全球竞争对手:智谱。


名字叫GLM-4.5,很猛,

首款SOTA级原生Agentic大模型,国产综合评测第一,性能媲美全球最强旗舰模型。

我直接忍不住上手测试了一番,本篇我们先介绍一下它,测试的例子放在后面了。

GLM-4.5 采用了混合专家(MoE)架构,有两个版本:

GLM-4.5 在实际编码场景里, 官方以Claude Code为编码工具。让 GLM-4.5 跟 Claude-4-Sonnet、Kimi-K2 和 Qwen3-Coder 全面 PK 了一把。

一共搞了 52 个编码任务,前端、工具、数据分析、测试、算法应用。所有任务都是在独立的测试环境里,通过多轮人机对话来评估的,标准也都统一。

结果:GLM-4.5 在 53.9% 的任务里干掉了 Kimi K2,对 Qwen3-Coder 更是以 80.8% 的胜率碾压。

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

但在与 Claude-4-Sonnet 的较量中仍有改进空间。

值得一提的是,GLM-4.5 在工具调用成功率上,表现最牛,平均达到 90.6%。

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

这比 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%)都高。在 agentic 编码任务中表现出卓越的可靠性和效率。

这 52 项编码任务的测试过程,都公开了,大家想研究的,可以去看看。

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

开源地址:https://huggingface.co/zai-org/GLM-4.5

GLM4.5 参数量只有 DeepSeek-R1 的一半,Kimi-K2 的三分之一。

但在多项标准基准测试中,表现更为出色。参数效率翻倍,API价格仅为Claude的1/10。输入:0.8元 / 百万 tokens, 输出:2元 / 百万 tokens,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求。

GLM-4.5 在 推理、代码、智能体综合能力(平均分)达到开源模型 SOTA 水平;Agentic Coding 盲评测试中,实测结果国内最佳;

GLM-4.5 与 OpenAI、Anthropic、K2、Deepseek等模型对比表现:一共 12 个基准测试,里头包括了 3 个 Agent 任务,7 个推理任务,还有 2 个代码任务。总体而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

Agentic能力很强,直接干到第二,代码上比Sonnet差些,这个我体验完之后是这样的。

GLM-4.5 与 GLM-4.5-Air 均采用混合推理架构,支持两种工作模式:(1)适用于复杂推理或工具调用的“思考(thinking)模式”,以及(2)用于即时响应的“非思考(non-thinking)模式”。

同时,它在工具调用、网页浏览、软件工程等领域进行了深度优化。

可以一键兼容 Claude Code、Roo Code 等代码智能体框架,也能通过标准工具调用接口,支持任何智能体应用。

它是第一款原生Agentic基座模型:

能够胜任全栈开发任务,编写较为复杂的应用、游戏、交互网页。例如,你可以使用GLM-4.5轻松制作一个真的能搜索的搜索引擎,甚至一个真的能点赞的文字版短视频平台。以上需要模型原生具备在前端编写网站、在后端进行数据库管理,以及通过工具调用接口支持任意的智能体应用等综合能力。

大模型开始从仅仅生成一份内容,到一句话上线一个可运行的应用产品——并且是来自模型的原生能力。

作为一款专为 Agentic 任务优化的基础模型,它支持 128k 的上下文长度和原生函数调用能力。在 𝜏-bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上评估了两款模型的 agentic 能力,结果显示,GLM-4.5 的性能与 Claude-4-Sonnet 相当。

智谱 AI GLM 教程

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

只需在 https://chat.z.ai/ 选择glm-4.5然后点击全栈开发即可:


Case1:做一个Google搜索网站。

离谱, 一个真的能搜索的搜索引擎就这么做出来了。。网页做得太像谷歌了,要不是最后搜出来的信息的样式有点简略,我还反应不过来。

Z.ai版本“谷歌搜索”体验地址:https://n0x9f6733jm1-deploy.space.z.ai

Case2:一个真的能点赞的文字版抖音。

提示词:做一个文字版抖音 , 允许上下切换, 需要支持发帖、 点赞、 评论的功能。

Z.ai版本“文字抖音”体验地址:https://t0mau6dg2nv0-deploy.space.z.ai

Case3: GLM-4.5不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页,用户可以点击地点查看详情,并伴有平滑的缩放动画。

提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I’ve visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

Z.ai网页上的这个全栈开发功能集成了数据库,一般的ChatBot只能生成前端html网页,但他却可以帮你创建需要后端功能的任务需求,还可以一键发布、源码下载。



有了 GLM-4.5,人们可以轻松创建同时需要前端编码、数据库管理和后台部署 的网站。

下面我们直接上手实测一下:

下面涉及代码的例子是我在Claude Code中用Glm4.5生成的, 在后文我会给大家介绍如何在Claude Code中接入GLM4.5。

“数字生命体”创造:AI版“西部世界”

提示词

这不再是执行一个有明确终点的任务,而是 创造一个拥有内生规则、可以无限运行下去的“混沌系统”。考验了模型将抽象逻辑(行为规则)转化为具体代码,并构建一个自洽、可交互的虚拟世界的能力。

这个游戏的逻辑就是觅食者(蓝色)会去吃食物(绿色),而守护者(红色)会杀死觅食者。蓝红可以指定一次加入的个数,绿色可控制再生速度,你的每次添加或者修改会影响整个“棋局”。

我们从视频中可以看到,我点击并演示了下面这些角色所有的功能。他都是流畅无bug的运行。


而这个案例在不少其他的模型中都失败了。并且它最终生成的这个美观度也值得肯定,有不少模型生成的比较简陋。

我可以通过调整参数来观察不同的物理现象,比如高速旋转时的离心效应,或者不同弹性系数下的能量损失。GLM4.5整个模拟器既有科学的物理基础,又有炫酷的视觉表现!

和以前一样,我给它喂了一份设计需求文档(前面在优化公众号文章排版,积累了些经验。我想把这些想法、经验转化成一个产品原型),比较复杂:

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

这份指令,一股脑儿地喂给了 AI。我想看看,它到底能消化多少,又能给我带来怎样的惊喜。 在Claude Code和GLM的帮助下,它设计的这个高转化率的落地页,从【导航栏】到【主视觉区】,每个细节都得安排得明明白白。

场景中每一个粒子都需要计算并受到其他所有粒子的引力影响,而不是只有一个中心引力点。请提供一个UI按钮,可以随时向系统中添加一个新的、有初速度的粒子,并观察它如何与其他粒子相互作用,改变整个系统的轨迹。

提示词很简单。但GLM4.5做的比较完美。

系统开始时包含一个中心大质量恒星和5个围绕它运行的行星,展示了类似太阳系的轨道运动。当你添加新粒子时,它会扰乱原有的轨道,创造出复杂而美丽的引力舞蹈。

这个模拟展示了N体问题的混沌性质 – 即使初始条件只有微小变化,长期行为也可能完全不同。添加不同质量和速度的粒子,可以看到它们如何影响整个系统。

创建一个由数百个小立方体构成的、悬浮在空中的巨大罗马数字时钟。当时钟正常运转时,立方体保持形状;当用户点击时钟,所有立方体像爆炸一样四散飞溅,然后在几秒后,它们会重新汇聚、组合成时钟的形态。请使用物理引擎模拟爆炸和重组的动态过程。 这个设计使用Three.js来实现3D效果,并包含物理模拟。

点击时钟我观看到了壮观的爆炸和重组效果!立方体会以真实的物理规律飞散,然后优雅地重新组合成时钟形态。

创造一个由数千个小球组成的、看起来像液态金属或粘稠流体的“软体 (Soft Body)”。用户可以用鼠标像捏橡皮泥一样,推、拉、挤压这个流体,它会产生逼真的、符合物理规律的形变和晃动效果。

GLM4.5生成了 一个逼真的液态金属软体模拟器。这个模拟器将使用数千个相互连接的粒子,通过弹簧系统实现软体物理效果。我 通过拖拽来”捏”这个液态金属,它会像真实的粘稠流体一样产生形变和晃动效果。而后调整不同的参数也获得了不同的质感。

用 Three.js 创建一个3D函数表面,例如 z = sin(x) + cos(y)。然后,生成一个小球,当用户点击表面任意位置时,小球会沿着该点梯度的反方向“滚下”,最终停在局部最低点。请将小球走过的路径用一条发光的线标记出来。

这个涉及代码和数学,GLM4.5创建的这个3D函数表面演示,小球会沿着梯度方向滚下并留下发光轨迹。小球会持续滚动直到找到局部最小点(梯度接近零的地方),然后停止。可以多次点击不同位置来创建多条路径,观察小球如何”滚下山坡”,还有,它搞出来的3D质感不错!

创建一个双栏 Markdown 编辑器,左侧编辑,右侧实时渲染成邮件样式。


测试了它的功能都能正常使用。好了,下次我让它继续增加更多优雅的样式。以适用于公众号排版。

我们以这个微软网页自动化mcp安装作为示例:

安装完mcp,记得重启终端才能生效。

测试他使用  打开网页、截图、点击都正常

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?

我继续让他测试我的Supabase 数据库是否可以正常链接。 [ Bolt + Supabase:1分钟实现APP的登陆功能、连接数据库(Bolt、Cursor、BaaS、AI全栈) ]

GLM4.5一顿操作,各方面规划了下,最终测试Supbase是可以连通的。在涉及网页操作的时候,它 配合 playwright -mcp ,很自动化。


它甚至还做了一个网页方便我手动测试。。


请解释一下心理学中的‘前额叶回响效应’(Prefrontal Echo Effect)及其在决策中的应用。” (这是一个我刚编的、听起来很科学的术语)


这个回答很 出色,它展示了大模型在处理 不存在或非标准概念 时的水平—— “有知者无畏,无知者不乱”

它没有止步于“查无此词”,进行了 “善意重构” —— 推断出了提问者背后可能想了解的真实科学概念

对比我测试4o、 Claude4的回答,前者在这个问题上有幻觉,后者回答的不如这个好。

Gpt-4o这个一个非常典型的、也是 最危险 的大模型“幻觉”案例。它不仅没有识别出你提出的概念是虚构的,反而还“一本正经地胡说八道”,用看似专业的术语和逻辑,为一个不存在的概念构建了一整套理论体系。



它 纠正了一个核心的事实错误,还 预判并满足了提问者背后真正的求知欲, 展示了 对历史事实错误的纠错与深度背景延展能力。这个过程,当然,也没让它联网。

创意写作: 请用鲁迅的文笔,写一段关于现代人沉迷于刷短视频的评论。


它把短视频比作‘新式鸦片’,把刷视频的人比作伸长脖子的‘看客’,这种跨越百年的精准互文,瞬间就有了批判的深度。那句‘脑子里只剩下一堆杂乱无章的、十五秒的碎片’,是说到了每个人的心坎里。

人生炼金术师 : 我以前写过一个人生炼金术师提示词(把普通的话语转为有人生哲理的精炼语句),来看看它生成的效果:


这效果,不输Claude。“ 买了很多没用的东西 ” ——> “ 你以为拥有了物品,其实是物品短暂地拥有了,你的欲望”。文案也是挺绝。

此外,在https://chat.z.ai/这里 它能够做ppt,而且同时保持联网。还能把真实的图片给他加进去。


使用GLM-4.5制作PPT或者图文卡片,你将得到信息翔实、配图准确、排版精美的成果。与传统的AI PPT使用模板填充信息不同, GLM-4在制作过程中会自主搜索资料、寻找配图 ,根据实际材料直接以HTML形式编写图文,从而使信息更准确、排版更灵活。

看看它制作的WAIC Geoffrey Hinton演讲要点PPT

GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?


你可以看到里面的配图是网络上真实存在的。整个风格干净清爽。

提示词: 我需要一份关于大模型“幻觉”(Hallucination)现象的深度分析PPT。请你上网研究其成因、最新学术观点和业界解决方案,并搜集几个最典型或有趣的“幻觉”案例。PPT的风格要像一份给科技巨头CEO的战略内参,冷静、专业但直指要害。


GLM 4.5 Agentic规划与执行: 整个过程(理解 ->规划 ->研究 ->设计 ->生成)一气呵成,展现了作为一个“智能体”独立完成复杂任务的闭环能力。


目录结构从“商业影响”入手,以“技术根源”收尾,平衡了商业视角和技术视角,符合“给CEO的内参”这一定位。


第二步:按照以下命令启动:

会出现这个界面,我们选择yes,表示使用GLM4.5的api key


继续,点击yes信任文件夹:


好了,一切大功告成!你可以愉快的在CC中使用GLM4.5了。

比如,让他创建一个鹈鹕svg玩玩:


虽然配置好了,但是不熟练 Claude Code怎么办?没事: 关于 在Claude Code 更具体的使用经验,我已经写在这篇文章里了( 包括安装 ): [ Claude Code 快速入门,高频使用点 + 生态工具,一篇搞定! ]

另外,智谱刚刚推出了一个超值活动,名额有限,先到先得!只需50元即可享受包月服务,畅玩Claude Code 调用和GLM4.5 API,包含1万亿Tokens,享受无限量使用,爽到爆!抓紧时间,冲呀!

下面,官方还给出了许多有趣例子,点击链接可以看到GLM完成任务的整个过程。

Artifacts

GLM-4.5 增强了 4 月份 GLM-4 版本中引入的复杂代码生成功能。现在,该模型可以跨 HTML、SVG、Python 和其他格式创建复杂的独立作品 –从交互式迷你游戏到物理模拟。

PPT制作

利用 GLM-4.5 强大的 agentic 工具使用和 HTML 编码功能,智谱开发了一个模型原生的 PPT/Poster 智能体。用户可以提出简单或复杂的设计要求,也可以上传文档,该智能体会自动搜索网络或检索图片,然后制作 PPT。

全栈开发

GLM-4.5 在前端和后端开发方面都表现出色,是构建现代网络应用程序的强大工具。为了更好地展示其功能,智谱开发了一个受 Claude Code 启发的编码智能体。通过提供基本的全栈网站模板,该智能体使用户只需几个字就能创建整个网站。用户可以通过多轮对话毫不费力地添加功能和完善项目,使编码过程变得流畅而愉快。

写在最后

大语言模型的终极目标,是具备解决通用问题的认知能力,而非局限于特定任务。这意味着模型必须拥有泛化、常识推理和自我提升的能力。

过去五年,从GPT-3到o1,模型在编程、数学等领域的推理能力已大幅提升。

然而,这些模型仍未实现真正的通用。它们各有专长,却无一能在所有任务中都达到最佳。

GLM-4.5的目标,正是要整合这些分散的能力,实现更全面的性能。

它,是第一款原生Agentic基座模型。

GLM-4.5,首次在单个模型中实现了推理、代码、Agentic等多能力原生融合,适配从对话生成到智能体任务的多类场景。

从一个想法,到一个可运行的应用。
它具备这种端到端的能力。

实测中,它的推理、代码、智能体综合能力(平均分)达到了开源模型的SOTA水平;在Agentic Coding盲评测试中,结果国内最佳;体验上甚至能够平替闭源的Claude Sonnet 4。

大模型的未来,在于深入真实场景,解决实际问题。
GLM-4.5,正是在这条路上,迈出的坚实一步。

用了智谱一年半的免费flash模型,这次又蹲到了智谱最强的模型开源,太有爱了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/265816.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午7:34
下一篇 2026年3月12日 下午7:34


相关推荐

关注全栈程序员社区公众号