【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务

全栈程序员-站长 • 2026年3月12日下午4:40 • 智谱 • 阅读 4

【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务

GLM-4.5V 是智谱 AI 发布的新一代多模态大语言模型（Visual Language Model，VLM），具备图像理解 + 文本生成能力。
结合 vLLM 高性能推理框架，可以实现低延迟、高吞吐的在线推理服务部署。

本文将带你从环境准备到运行推理 API 服务，完成一个可直接调用的 GLM-4.5V-AWQ 推理平台。
【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务

1. 新建 conda 环境

首先查看当前已有的 conda 环境（可选，用于确认要克隆的环境名称）：

克隆一个已有可用的深度学习环境：

为新环境名称
为被克隆的环境（可换成你已有的 CUDA/PyTorch 环境）

激活新环境：

2. 确认 PyTorch 与 CUDA 版本

示例输出：

3. 确认版本

是高效注意力计算库，用于加速推理。

确保版本与 CUDA / PyTorch 对应，否则会运行时报错。

4. 检查 transformers 版本

示例输出：

1. 模型压缩

为了降低推理显存占用，我们使用 AWQ（Activation-aware Weight Quantization）量化。

压缩后的优势：

显存占用显著降低
部署所需硬件资源减少
推理速度提升

压缩后模型大小示例：

1. 启动命令

2. 参数详细解释

参数说明要部署的模型路径（已AWQ量化）服务对外的模型名称，客户端调用需一致使用适配 GLM-4.5 系列的工具调用解析器推理逻辑解析器允许模型自动选择外部工具针对 MoE 架构的专家并行计算最大并发请求序列数使用 2 张 GPU 进行张量并行

启动后，vLLM 会默认监听 API 接口。
你可以使用 curl 或 Python 智谱 AI GLM 教程发送请求。

Python 调用示例

示例输出：

环境匹配是关键：PyTorch / CUDA / flash_attn 必须版本对应
AWQ量化极大降低显存占用，推荐在资源有限时使用
vLLM 的 tensor-parallel-size 与 GPU 数量匹配，否则会报错
可通过调整并发，平衡吞吐与延迟

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/268904.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.6K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

Coze扣子平台使用教程

上一篇 2026年3月12日下午4:40

豆包自创ai智能体怎么聪明一点

下一篇 2026年3月12日下午4:41

智谱

VSCode Copilot 魔改对比：智谱 GLM-4.6 与其他大模型接入流程差异解析

VSCode Copilot 魔改对比：智谱 GLM-4.6 与其他大模型接入流程差异解析

Ai探索者
2026年3月12日
2
智谱

智谱清言API是否提供免费调用额度？

智谱清言API是否提供免费调用额度？

Ai探索者
2026年3月12日
4
智谱

智谱宣布 GLM-4.6发布，寒武纪、摩尔线程已完成适配

智谱宣布 GLM-4.6发布，寒武纪、摩尔线程已完成适配

Ai探索者
2026年3月12日
2
智谱

智谱AI GLM-Image实战：电商海报快速生成教程

智谱AI GLM-Image实战：电商海报快速生成教程

全栈程序员-站长
2026年3月12日
2
智谱

设计师必备：用GLM-Image快速生成商业级AI插画教程

设计师必备：用GLM-Image快速生成商业级AI插画教程

Ai探索者
2026年3月12日
5
智谱

智谱发布新一代视觉语言模型 GLM-4.1V-Thinking

智谱发布新一代视觉语言模型 GLM-4.1V-Thinking

全栈程序员-站长
2026年3月12日
2

关注全栈程序员社区公众号