为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!

Qwen3是阿里在2025年6月份开源的最新Qwen系列大模型,包含了8个不同参数规模的大模型,最大达到2350亿参数规模,最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本。


不过这个系列中没有Qwen3-72B这个版本,而Qwen 72B一直是此前Qwen系列中最强的,如Qwen2.5-72B,一直是开源模型中的标杆,也是开源领域稠密模型参数最高的一类(所谓稠密模型就是非MoE架构)。但很多人依然关心还有没有Qwen3-72B模型?阿里什么时候会发布Qwen3-72B模型,答案是可能再也没有了!

阿里取消了72B这个参数规模的Qwen模型的主要原因在于阿里发现,当模型参数规模超过千问 Qwen 教程300亿(30B)的时候,稠密模型的训练和推理效果以及推理效率都非常难优化,因此,超过30B规模的模型,阿里选择使用MoE架构。因此,从Qwen3开始,阿里取消了72B版本的Qwen模型。


上图是阿里Qwen大模型工程师在X的回复。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/259689.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午8:05
下一篇 2026年3月13日 上午8:06


相关推荐

关注全栈程序员社区公众号