智谱 GLM-4.1V-9B 思维模式 VLM 来了

全栈程序员-站长 • 2026年3月12日下午2:30 • 智谱 • 阅读 2

智谱 AI 最近开源了 GLM-4.1V-9B-Thinking，这是一个 90 亿参数的视觉语言模型，它在复杂推理任务上的表现令人惊艳，某些方面甚至超越了参数量大它近八倍的 720 亿级模型，这无疑是多模态领域一个值得深思的突破。

长期以来，我们普遍认为模型参数量越大，能力就越强。然而，GLM-4.1V-9B-Thinking 的出现正在改写这一认知。这款由智谱 AI（THUDM）推出的新模型，通过引入独特的思维范式并结合强化学习进行训练，显著提升了自身的推理能力。我的观察是，这种思维训练让模型不再仅仅是信息的感知者，而开始成为一个真正的思考者。它不仅在数学等特定领域表现突出，在多项综合基准测试中也取得了压倒性优势。

智谱 GLM-4.1V-9B 思维模式 VLM 来了

具体来看，GLM-4.1V-9B-Thinking 在 28 个基准任务中，有 23 个取得了 100 亿参数级别模型的最佳成绩，更令人振奋的是，它在 18 个任务上甚至超越了目前行业领先的 720 亿参数模型 Qwen-2.5-VL-72B。这说明，对于高阶推理任务，架构创新和精细的训练策略，其重要性有时可以超越单纯的参数规模。

除了强大的推理能力，GLM-4.1V-9B-Thinking 还在多模态处理上树立了新标准。它支持长达 64K 的上下文长度，这意味着模型可以理解并处理更复杂、更连贯的视觉和文本信息。同时，它能处理任意宽高比和高达 4K 分辨率的图智谱 AI GLM 教程像，这对于需要精确细节分析的应用场景至关重要。作为一款双语模型，GLM-4.1V-9B-Thinking 原生支持中文和英文，极大拓宽了其应用范围。智谱 AI 还同步开源了基础模型 GLM-4.1V-9B-Base，鼓励社区在此基础上进一步探索 VLM 的能力边界。

对于开发者和 AI 爱好者，智谱 AI 提供了便捷的体验渠道。

你可以在 Hugging Face 或 ModelScope 平台上找到在线演示

Hugging Face 链接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

ModelScope 链接：https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

如果你想深入代码，项目的 GitHub 仓库 https://github.com/THUDM/GLM-4.1V-Thinking 提供了详细的快速推理教程和更多开发资源。现在就去体验一下这个以思考为核心的 VLM 吧。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/270959.html原文链接：https://javaforall.net

智谱 GLM-4.1V-9B 思维模式 VLM 来了

关于作者

全栈程序员-站长

相关推荐

智谱开源最新GLM模型系列，启用全球域名“Z.ai”

智谱GLM-5已完成与华为昇腾、摩尔线程、寒武纪等主流国产芯片平台适配

Obsidian使用笔记

智谱开源GLM-OCR模型：仅0.9B参数，多项基准取得SOTA表现

LLM学习指南（四）—— 预训练语言模型（PLM） – 教程

“大模型六小虎”首个IPO，智谱启动A股上市，大股东持股7.4%