智谱发布GLM-4.5V，全球开源多模态推理新标杆，Day0推理微调实战教程到！

全栈程序员-站长 • 2026年3月12日下午3:19 • 智谱 • 阅读 1

视觉语言大模型（VLM）已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂，VLM模型也亟需在基本的多模态感知之外，逐渐增强复杂任务中的推理能力，提升自身的准确性、全面性和智能化程度，使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。

刚刚，智谱发布了最新的 GLM-4.5V 开源工作——全球100B级效果最佳的开源视觉推理模型，已同步在魔搭社区开源。

模型合集：

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air（106B参数，12B激活），延续 GLM-4.1V-Thinking 技术路线，在 42 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能，涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

智谱发布GLM-4.5V，全球开源多模态推理新标杆，Day0推理微调实战教程到！

在多模态榜单之外，研究团队更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括：

环境安装

对于和：

vLLM

vLLM推理

SGlang推理

我们介绍使用ms-swift对GLM-4.5V进行训练。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址：

https://github.com/modelscope/ms-swift

研究团队将展示可运行的微调demo，并给出自定义数据集的格式。

在开始微调之前，请确保您的环境已准备妥当。

如果您需要自定义数据集微调模型，你可以将数据准备成以下格式。

智谱 AI GLM 教程智谱发布GLM-4.5V，全球开源多模态推理新标杆，Day0推理微调实战教程到！

训练完成后，使用以下命令进行推理：

推送模型到ModelScope：

点击链接， 即可跳转模型合集~

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/270077.html原文链接：https://javaforall.net