实践日期:2025年12月23日 vLLM 版本:0.8.5.post1 模型:Qwen3-8B 平台:AutoDL(RTX 4090 24GB) 参考教程:github.com/datawhalech…
- 项目概述
- 环境准备
- 连接服务器
- 环境修复
- 模型下载
- Python脚本推理
- 启动API服务器
- API接口测试
- 常见问题与解决
- 学习总结
1.1 什么是 vLLM?
vLLM(Vectorized Large Language Model)是一个高性能的大语言模型推理引擎,由加州大学伯克利分校开发。
vLLM 的核心优势
1.2 什么是 Qwen3-8B?
Qwen3-8B 是阿里云通义千问团队发布的第三代大语言模型,拥有 80 亿参数。
Qwen3 的特色功能
- 思考模式(Thinking Mode):模型会先进行推理思考,再给出答案
- 多语言支持:支持中文、英文等多种语言
- 长上下文:支持 32K 甚至更长的上下文窗口
1.3 为什么选择 AutoDL?
本教程选择 AutoDL 是因为:
- vLLM 在 Jupyter Notebook 环境中存在多进程兼容问题
- AutoDL 提供完整的 Linux 终端环境
- 国内访问 ModelScope 下载模型更快
2.1 注册 AutoDL 账号
- 访问 AutoDL 官网
- 注册并完成实名认证
- 充值(建议先充 10-20 元测试)
2.2 创建实例
DataWhale在 AutoDL 平台准备的 Qwen3 的环境镜像,点击下方链接并直接创建 Autodl 示例即可。 www.codewithgpu.com/i/datawhale…
步骤 1:选择 GPU
在 AutoDL 控制台,点击”租用新实例”,选择 GPU:
显存需求说明:Qwen3-8B 使用 float16 精度约需 16GB 显存,加上 KV Cache 等开销,建议至少 24GB。
步骤 2:选择镜像
选择社区镜像:
这个镜像预装了:
- Python 3.12
- PyTorch + CUDA
- vLLM 0.8.5
- Transformers
- ModelScope
【截图:AutoDL 实例创建页面 – GPU和镜像选择】



步骤 3:创建实例
点击”立即创建”,等待实例启动(通常 1-2 分钟)。
3.1 获取 SSH 连接信息
实例创建成功后,在控制台可以看到“SSH登录”列,复制其中的登录指令和密码,可以获得下列信息。
- SSH 地址:例如
- SSH 端口:例如
- 用户名:
- 密码:创建时设置的密码
3.2 使用 VS Code 远程连接(推荐)
步骤 1:安装 Remote-SSH 扩展
在 VS Code 中安装 扩展。

步骤 2:配置 SSH
按 ,输入 ,选择用户目录下的 config 文件。


添加以下配置:
注意:请将 和 替换为你实际的 AutoDL 实例信息。

步骤 3:连接服务器
- 按 ,输入
- SSH主机选择 ,平台选择Linux
- 输入密码
- 等待连接成功
【截图:VS Code 成功连接 AutoDL】




3.3 打开终端
连接成功后,打开/root/autodl-tmp文件夹。

在 VS Code 中按 打开终端,你应该看到类似:

4.1 问题背景
社区镜像中的依赖版本可能存在冲突,需要先修复才能正常使用 vLLM。首先 pip 换源加速下载并安装依赖包。
4.2 检查 vLLM 版本
如果出现错误,按以下步骤修复。
4.3 修复依赖冲突
错误 1:NumPy/SciPy 不兼容
错误信息:
原因:scipy 与 numpy 版本不匹配。
解决方案:
错误 2:RecursionError(递归错误)
错误信息:
原因:scikit-learn 的编译扩展与新 numpy 不兼容。
解决方案:
错误 3:Numba 需要 NumPy 2.2 或更低
错误信息:
原因:安装 scikit-learn 时自动升级了 numpy 到 2.4。
解决方案:
4.4 验证修复成功
预期输出:
【截图位置:vLLM 版本验证成功】
请在此处插入终端显示 vllm –version 输出的截图
5.1 创建下载脚本
在 目录下创建 文件,内容如下:
5.2 开启网络加速(可选)
AutoDL 提供学术资源加速,可以加快下载速度:
5.3 运行下载脚本
预期输出:
下载时间:模型约 16GB,根据网络状况需要 10-30 分钟。
【截图位置:模型下载完成】

5.4 验证下载
【ls 命令说明】
预期输出:
模型文件说明
6.1 创建推理脚本
在 目录下创建 文件,内容如下:
6.2 运行推理脚本
首次运行说明:
预期输出:
【截图位置:Python 脚本推理成功】

6.3 补充:不启用思考模式的推理脚本
在 目录下创建 文件,内容如下:

【思考模式 vs 非思考模式对比】
7.1 vLLM 服务器简介
vLLM 可以启动一个兼容 OpenAI API 的 HTTP 服务器,这样你就可以:
- 使用 HTTP 请求调用模型
- 使用 OpenAI Python SDK 调用
- 集成到任何支持 OpenAI API 的应用中
7.2 启动服务器命令
【命令参数详解】
【反斜杠 的作用】
7.3 启动输出说明
启动成功后,你会看到类似输出:
API 端点说明
【截图:vLLM 服务器启动成功】



重要提示:启动服务器后,需要打开一个新终端来测试 API。 服务器终端需要保持运行,不要关闭。
8.1 使用 curl 测试
测试 1:检查模型列表
预期输出:
测试 2:发送对话请求
预期输出(格式化后):
【响应字段说明】
8.2 使用 Python 测试
创建测试脚本
在 目录下创建 文件,内容如下:
运行测试脚本
预期输出:
8.3 简洁版 OpenAI SDK 测试脚本
vllm_openai_completions.py
在 目录下创建 文件,这是一个启用思考模式的简洁版本:


vllm_openai_chat_completions.py
在 目录下创建 文件,这是另一个简洁版本:


【三个 API 测试脚本对比】
9.1 环境相关问题
问题 1:NumPy 版本冲突
错误信息:
解决方案:
问题 2:Numba 不兼容
错误信息:
解决方案:
问题 3:递归深度超限
错误信息:
解决方案:
9.2 模型下载问题
问题 4:下载速度慢
解决方案:
- 开启 AutoDL 学术加速:
- 使用后台下载:
9.3 推理问题
问题 5:显存不足(OOM)
错误信息:
解决方案:
问题 6:API 服务器无响应
检查步骤:
9.4 为什么不能在 Colab 中运行?
问题:vLLM 在 Jupyter Notebook 中报错
错误信息:
原因解释:
千问 Qwen 教程
Jupyter Notebook 使用 创建子进程,但 CUDA 不允许在 fork 后的进程中重新初始化。vLLM 需要多进程工作,这与 Notebook 环境不兼容。
解决方案:使用提供终端环境的平台(如 AutoDL)
10.1 完成的任务清单
10.2 核心知识点回顾
Python 语法速查表
采样参数对照表
10.3 关键命令速查
10.4 下一步学习建议
- 尝试其他模型
- Qwen2.5-7B-Instruct(更小,速度更快)
- DeepSeek-R1-Distill(强推理能力)
- Llama-3-8B(英文能力强)
- 学习模型量化
- 使用 AWQ/GPTQ 量化减少显存占用
- INT4 量化可以在 8GB 显存上运行 8B 模型
- 构建应用
- 使用 Gradio 创建 Web 聊天界面
- 使用 LangChain 构建 RAG 应用
- 集成到你自己的项目中
- 学习微调
- 使用 LoRA 进行高效微调
- 定制你自己的领域模型
- vLLM 官方文档
- Qwen3 官方文档
- ModelScope 模型库
- datawhalechina/self-llm 教程
- AutoDL 帮助文档
- OpenAI API 文档
本文档基于 2025 年 12 月 23 日的实践编写 vLLM 版本:0.8.5.post1 模型:Qwen/Qwen3-8B 平台:AutoDL RTX 4090 24GB
发布者:Ai探索者,转载请注明出处:https://javaforall.net/260045.html原文链接:https://javaforall.net
