QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

全栈程序员-站长 • 2026年3月13日上午9:32 • 千问 • 阅读 3

5 月 27 日消息，阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

千问 Qwen 教程 QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/258111.html原文链接：https://javaforall.net

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

关于作者

全栈程序员-站长

相关推荐

3大场景解锁！通义千问的企业级高效部署与性能优化实践指南

通义千问Qwen3发布，对话阿里大模型研发一号位周靖人

​​OpenAI-使用教程-基于通义千问详解

告别手动对齐！Qwen3字幕工具本地部署教程，保护隐私安全

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

通义千问首个图像生成基础模型：Qwen-Image

OpenAI-使用教程-基于通义千问详解