重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

Ai探索者 • 2026年3月12日下午11:44 • 千问 • 阅读 2

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

Qwen3系列模型的架构和训练都有了比较大的变化。首先是Qwen3的预训练阶段的数据集规模千问 Qwen 教程就比Qwen2.5系列增加了一倍。Qwen2.5系列模型的预训练tokens数是18万亿，而Qwen3系列则在36万亿tokens上预训练。除了网上的公开文本数据集，阿里还使用Qwen2.5-VL提取了大量的PDF格式数据，同时用Qwen2.5-Math和Qwen2.5-Coder合成了许多数学和编程数据集，来增加Qwen3预训练数据。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/261191.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

Ai探索者网站注册用户

45 文章

0 粉丝

这个人很懒，什么都没有留下～

腾讯混元OCR大模型，本地部署，实测

上一篇 2026年3月12日下午11:44

龙虾OpenClaw对普通人有什么机会？

下一篇 2026年3月12日下午11:44

千问

华为、阿里大模型：参数相关性0.927引抄袭争议

华为、阿里大模型：参数相关性0.927引抄袭争议

全栈程序员-站长
2026年3月13日
2
千问

Qwen各版本本地部署显存要求是多少？

Qwen各版本本地部署显存要求是多少？

全栈程序员-站长
2026年3月12日
3
千问

千问家族最强视觉模型！Qwen3-VL来了

千问家族最强视觉模型！Qwen3-VL来了

全栈程序员-站长
2026年3月13日
2
千问

背字根

背字根

全栈程序员-站长
2026年3月12日
3
千问

Qwen3.5-27B服务管理教程：supervisor启停／日志排查／端口检测全流程

Qwen3.5-27B服务管理教程：supervisor启停／日志排查／端口检测全流程

全栈程序员-站长
2026年3月14日
3
千问

Qwen3-4B-Instruct-2507新手教程：Docker+vLLM+Chainlit完整部署与使用指南

Qwen3-4B-Instruct-2507新手教程：Docker+vLLM+Chainlit完整部署与使用指南

Ai探索者
2026年3月14日
2

关注全栈程序员社区公众号