参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

9 月 24 日消息,继 Qwen3-2507 系列发布之后,阿里云今天宣布推出 Qwen3-Max —— 通义团队迄今为止规模最大、能力最强的语言模型。

Qwen3-Max-Instruct 正式版在代码能力和智能体能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。

通义团队表示,仍在训练中的 Qwen3-Max-Thinking 已展现出非凡潜力,预计在不久的将来向公众正式发布这一版本。据介绍,在结合工具使用并增加测试时计算资源的情况下,该“思考”版本已在 AIME 25、HMMT 等高难度推理基准测试中取得 100% 的准确率。

千问 Qwen 教程参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

IT之家附官方地址:

据阿里介绍,Qwen3-Max 模型总参数超过 1T,预训练使用了 36T tokens。模型结构沿用了 Qwen3 系列的模型结构设计范式,使用了 global-batch load balancing loss。

参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

据介绍,Qwen3-Max-Instruct 的预览版已在 LMArena 文本排行榜上稳居全球前三(超越 GPT-5-Chat)。正式发布版本进一步提升了其能力,尤其在代码生成与智能体表现方面表现卓越。

IT之家注意到,在专注于解决现实编程挑战的基准测试 SWE-Bench Verified 上,Qwen3-Max-Instruct 取得了高达 69.6 分的优异成绩,稳居全球顶尖模型之列。

此外,在评估智能体工具调用能力的严苛基准 Tau2-Bench 上,Qwen3-Max-Instruct 更是实现了突破性表现,以 74.8 分超越 Claude Opus 4 与 DeepSeek-V3.1。

参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

Qwen3-Max 的推理增强版本 —— Qwen3-Max-Thinking,通过集成代码解释器并运用并行测试时计算技术,展现了前所未有的推理能力,尤其在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上,均取得了满分。

参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先

相关阅读:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/257432.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午10:09
下一篇 2026年3月13日 上午10:09


相关推荐

关注全栈程序员社区公众号