GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑

大家好，我是 Ai 学习的老章

上周 GLM-4.7-Flash 开源：，这个参数级别的模型，确实非常诱人。尤其是量化之后，2 张 4090 就能跑：

文章迟迟未出，一是部署过程确实踩了很多坑，二是最近新模型、新工具来的太多了：、、、、、、等等，我都有些文章介绍。

本文就介绍一下 GLM-4.7-Flash 本地部署完整过程，帮大家少踩点坑

1、下载模型

我选择的是这个 AWQ-4bit 量化版，原因 1 是它支持 vLLM 部署，原因 2 是它真的很小巧，把原版 58GB 压到了 17GB，原因 3 是压缩至此情况下，幻觉没有显著增加

https://modelscope.cn/models/cyankiwi/GLM智谱 AI GLM 教程-4.7-Flash-AWQ-4bit/files

2、升级 vLLM@nightly

先声明：我没有选择此方法，但是官方教程提到了，大家可以试试

我遇到的问题是各种依赖相互干扰，烦死了。还有系统基础环境太差，又不敢升级，昨天一文中我有提到。

CUDA 的升级，这里不赘述了，之前无比详细介绍过：

vLLM 巨大里程碑一文中提到 vLLM 官网上线（），这里面有个极友好的交互式 vLLM 安装选择器（GPU、CPU 等）

我选择的方式是 vLLM-Docker

https://hub.docker.com/r/vllm/vllm-openai/tags很简单，直接拉取镜像

这时还不行，因为即便是 nightly 版本，官方也没有支持 transformers 5.x

这里有个骚操作

新建一个 Dockfile

然后自行打包 glm-4.7 专用镜像

新镜像就是 glm-4.7-custom，后面用它拉起模型，至此 vLLM 升级完成

3、启动模型

vllm 直接启动，我没有尝试

我的 docker 启动脚本如下，1张卡就能跑起来，这里我用了2张

默认 max-model-len 直接报 OOM，降到 10240，然后 max_num_seqs 设 10 才跑起来

运行没问题，我把它接入了 OpenwebUI

使用感受，思考太墨迹了，甚至超过 30s 的思考有点不习惯

生成速度倒是很不错

显存占用如下：

这个级别的模型解决点内网疑难杂症，甚至写点代码还是很不错的

不过大家想不到吧，我内网还在用着 DeepSeek-R1-0528-Qwen3-8B（），时常给我惊喜

比如下面问题，它比 GLM 4.7 Flash 还靠谱，还只需要一张卡就能跑，思考极快。现在的大模型，哪有赢家通吃，各有千秋，没必要大炮打蚊子。就算是一张厕纸，一条底裤也有它本身的用处，更何况大模型乎。

如果在使用 GLM 4.7 Flash 时遇到循环或重复问题，可以尝试添加

我没遇到

发布者：Ai探索者，转载请注明出处：https://javaforall.net/268242.html原文链接：https://javaforall.net

GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑

1、下载模型

2、升级 vLLM@nightly

3、启动模型

关于作者

Ai探索者网站注册用户

GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑

1、下载模型

2、升级 vLLM@nightly

3、启动模型

关于作者

Ai探索者网站注册用户

相关推荐

智谱发布Z1系列推理模型

零基础教程：用vLLM+Chainlit玩转GLM-4-9B大模型

开源Manus替代：智谱AutoGLM沉思来了

Claude Code+GLM 5 安装配置与10个快速上手技巧！

清华与智谱AI：GLM-4.5称霸三大AI领域

Claude Code配置工具如何解决VS Code中插件无法加载的问题？