🌐 智谱 GLM‑4.5 全面解析：挑战全球前列的开源旗舰大模型

在 2025 年 7 月末，AI 界迎来一场重量级的开源发布——智谱（Zhipu）正式推出 GLM‑4.5 系列大模型，这是继 GLM‑4 系列之后的又一次全面升级，也是智谱首次面向智能 Agent 应用场景定制的旗舰级基础模型。更引人注目的是，GLM‑4.5 以“开箱即用”的形式开放权重、推理能力与思考模式，不仅在多个国际 benchmark 中跻身前三，更以超高性价比、支持工具调用与结构化推理的能力，引发业界广泛关注。

那么，这款模型到底有什么技术亮点？又适合怎样的部署与应用？本文将为你全面解析。

GitHub仓库：https://github.com/zai-org/GLM-4.5

HuggingFace仓库： https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

ModelScope仓库：https://modelscope.cn/collections/GLM-45-b8693e2a08984f

发布博客：GLM-4.5: Reasoning, Coding, and Agentic Abililties

体验地址：

HuggingFace： https://huggingface.co/spaces/zai-org/GLM-4.5-Space

ModelScope：https://modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

官网：Free AI for Presentations, Writing & Coding

智谱（Zhipu.ai，现统一品牌为 Z.ai）是国内最早投入大模型研发的企业之一。此次发布的 GLM‑4.5 与轻量版 GLM‑4.5‑Air，定位为 Agent 原生基础模型（Agent-native Foundation Model），其目标不仅是自然语言生成，而是支持推理、交互、调用工具、结构化思考，成为多模态智能体的中枢。

模型已于 2025年7月28日 在 Hugging Face、ModelScope 等平台开放下载，采用 MIT 开源协议，对商用场景友好。

GLM‑4.5 采用稀疏激活的混合专家（MoE）架构，每层从多个专家子模块中只激活一部分（例如 2~4 个），从而提升计算效率与模型容量比例，大幅降低推理成本。：

GLM‑4.5（旗舰版）：

总参数量：约 3550 亿
活跃专家参数：32B

GLM‑4.5‑Air（轻量版）：

总参数量：106B
活跃专家参数：12B

架构: 采用更深（层数更多）而非更宽的MoE架构，因为研究发现更深的模型具有更好的推理能力。同时，采用了分组查询注意力（GQA）和更多的注意力头来增强推理性能。

预训练: 模型首先在15T token的通用语料上进行训练，随后在7T token的代码与推理语料上进行强化训练。之后，通过中等规模的领域特定数据集（包括指令数据）进一步提升关键能力。

为了支持大规模模型的强化学习（RL），智谱AI开发并开源了RL基础框架 slime。

核心创新:

灵活的混合训练架构: 支持同步和异步训练，解耦数据生成和模型训练，最大化GPU利用率。
解耦的智能体设计: 将耗时的环境交互（Rollout）与训练引擎分离，解决了智能体任务中数据生成的瓶颈。
混合精度加速: 采用FP8格式进行数据生成，BF16进行模型训练，在不牺牲质量的前提下大幅提升速度。

后训练过程对提升模型能力至关重要。GLM-4.5在后训练阶段，重点强化了智能体编码、深度搜索和通用工具使用三大能力。
通过在精心策划的推理数据和合成的智能体场景上进行监督微调（SFT），并随后进行专门的RL阶段来培养专家能力，最后通过专家蒸馏技术，将这些专业技能整合，使GLM-4.5具备全面的实力。

GLM‑4.5 在 MATH、GSM8K、BBH 等推理类评测中表现优异，具备处理多步骤逻辑、数学问题、代码生成的能力。

支持结构化工具调用（如输出 <tool_call> 数据结构）和链式思维（Chain-of-Thought）追踪，更适合打造具备外部调用能力的 AI Agent 或 Copilot 应用。

在 12 个主流 benchmark 的平均成绩中：

GLM‑4.5 综合得分 63.2，排全球第三，仅次于 GPT‑4 与 Claude 3 Opus；
GLM‑4.5‑Air 得分 59.8，在高效参数模型中排名第一，优于 DeepSeek-VL、Yi 等多款竞品。

特别是在中文任务、多轮推理、工具调用方面，GLM‑4.5 拥有显著优势，被认为是中文 Agent 应用场景最具潜力的开源大模型之一。

Z.ai 同时公布了部署建议与成本模型：

运行推荐配置：8 块 H20 GPU 即可运行 GLM‑4.5 推理版本。
推理成本：

输入 100 万 tokens 约 0.11 美元
输出 100 万 tokens 约 0.28 美元

相较于 GPT‑4（API）、DeepSeek、Moonshot 等模型，GLM‑4.5 成本优势显著，便于企业本地部署与混合部署（Hybrid AI）。

平台支持：Hugging Face、ModelScope、清华智谱 GitHub 均已上线仓库与模型权重；
社区兼容性：支持 transformers、vllm、OpenCompass 等主流推理框架，兼容 llama.cpp 和 ggml 量化部署路线；
Agent 框架适配：GLM‑4.5 提供多种工具调用模板，可快速适配 LangChain、OpenAgent、Coze、AutoGen 等智能体平台。

AI 助手 / AI Copilot
多轮复杂问答系统
数学/逻辑题智能解答
跨模态分析与生成
自主 Agent 系统（如智能问诊、金融分析、数据问答）

模型版本	发布时间	总参数	活跃参数	支持多模态	推理结构化	长上下文
GLM‑4‑9B	2024 Q1	9B	9B	✅	❌	128K
GLM‑4‑32B	2024 Q2	32B	32B	✅	✅	128K
GLM‑4V / Voice	2024 Q3	9B	9B	✅（图像/语音）	✅	128K
GLM‑4.5	2025 Q3	355B	32B	✅	✅	128K+
GLM‑4.5‑Air	2025 Q3	106B	12B	✅	✅	128K+