阿里千问发布 Qwen3-Coder-Next:低推理成本编程智能体模型

阿里千问发布 Qwen3-Coder-Next:低推理成本编程智能体模型

2 月 4 日消息,阿里巴巴千问宣布推出 Qwen3-Coder-Next,一款专为编码代理与本地开发打造的开放权重的语言模型。

该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体能力。

IT之家附官方详细介绍如下:

Qwen3-Coder-Next 不依赖单纯的参数扩展,而是聚焦于扩展智能体训练信号。我们使用大规模的可验证编程任务与可执行环境进行训练,使模型能够直接从环境反馈中学习千问 Qwen 教程。训练过程包括:

该配方强调长程推理、工具使用以及从执行失败中恢复,这些对现实世界中的编程智能体至关重要。

下图汇总了在多个广泛使用的编程智能体基准上的表现,包括 SWE-Bench(Verified、Multilingual、Pro)、TerminalBench 2.0 和 Aider。

阿里千问发布 Qwen3-Coder-Next:低推理成本编程智能体模型

图中表明:

下图展示了 Qwen3-Coder-Next 如何在效率与性能之间取得更优的帕累托权衡。

阿里千问发布 Qwen3-Coder-Next:低推理成本编程智能体模型

这一对比清晰体现了效率优势:

Qwen3-Coder-Next 在编程智能体基准上展现出良好前景,在实用场景中具备不错的速度与推理能力。尽管其表现可与部分更大的开源模型竞争,仍有很大改进空间。

展望未来,我们认为强大的智能体能力 —— 如自主使用工具、应对难题、管理复杂任务 —— 是更好编程智能体的关键。接下来我们计划提升模型的推理与决策能力、支持更多任务,并根据使用反馈快速迭代更新。

开源地址

ModelScope:

https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next

Hugging Face:

https://huggingface.co/collections/Qwen/qwen3-coder-next

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/259803.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午7:59
下一篇 2026年3月13日 上午7:59


相关推荐

关注全栈程序员社区公众号