GLM-4.5V 是智谱 AI 发布的新一代多模态大语言模型(Visual Language Model,VLM),具备图像理解 + 文本生成能力。
结合 vLLM 高性能推理框架,可以实现低延迟、高吞吐的在线推理服务部署。
本文将带你从环境准备到运行推理 API 服务,完成一个可直接调用的 GLM-4.5V-AWQ 推理平台。

1. 新建 conda 环境
首先查看当前已有的 conda 环境(可选,用于确认要克隆的环境名称):
克隆一个已有可用的深度学习环境:
- 为新环境名称
- 为被克隆的环境(可换成你已有的 CUDA/PyTorch 环境)
激活新环境:
2. 确认 PyTorch 与 CUDA 版本
示例输出:
3. 确认 版本
是高效注意力计算库,用于加速推理。
确保版本与 CUDA / PyTorch 对应,否则会运行时报错。
4. 检查 transformers 版本
示例输出:
1. 模型压缩
为了降低推理显存占用,我们使用 AWQ(Activation-aware Weight Quantization)量化。
压缩后的优势:
- 显存占用显著降低
- 部署所需硬件资源减少
- 推理速度提升
压缩后模型大小示例:
1. 启动命令
2. 参数详细解释
启动后,vLLM 会默认监听 API 接口。
你可以使用 curl 或 Python 智谱 AI GLM 教程 发送请求。
Python 调用示例
示例输出:
- 环境匹配是关键:PyTorch / CUDA / flash_attn 必须版本对应
- AWQ量化极大降低显存占用,推荐在资源有限时使用
- vLLM 的 tensor-parallel-size 与 GPU 数量匹配,否则会报错
- 可通过 调整并发,平衡吞吐与延迟
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/268904.html原文链接:https://javaforall.net
