月之暗面万亿Moe模型——Kimi K2

月之暗面万亿Moe模型——Kimi K2

在25年的当下,大模型中一个技术关键词正变得越来越火:MoE(Mixture of Experts,混合专家)。Moe的显著优势时所需的计算资源远少于Dense模型,有着更快的预训练速度和推理速度。MoE 就像“组团打怪”的AI结构,让超大模型又强又省!

随着 Meta 发布 Llama 4-MoE、DeepSeek 推出 DeepSeek-V3-MoE,以及阿里开源的 Qwen 3-MoE,几乎所有主流 AI 实验室都在将 MoE 作为新一代大模型的核心架构。月之暗面的 Kimi K2 也凭借其 1 万亿参数 MoE 架构强势出圈,成功挑战了 GPT-4 等闭源旗舰模型。

kimi k2总参月之暗面 Kimi 教程数量为1T,实际激活参数量为32B。模型层数共有61层,其中1层Dense,60层Moe层,每一层moe层有384个路由专家,1个共享专家。上下文长度128K。

关键特点:

  • Large-Scale Training:使用了15.5T的token数据量稳定训练了1T参数量规模的Moe大模型
  • MuonClip 优化器:使用了MuonClip优化器代替现在广泛使用的Adam优化器
  • Agentic Intelligence:目标成为工具调用,任务完成的Agent智能助手

官方已开源模型至huggingface社区,提供了两种模型。模型权重链接为:huggingface.co/collecti

  • Kimi-K2-Base:基础模型,可供研究者等进行细分领域的微调等任务
  • Kimi-K2-Instruct:后训练模型,适用于对话等任务

kimi k2模型使用了MuonClip优化器,支撑了15.5T token数据量的1T参数量大模型稳定训练,关于优化器可参考kellerjordan.github.io/

月之暗面万亿Moe模型——Kimi K2

kimi k2在数学、编程和工具使用等领域内,性能优异,超越Deepseek、Qwen3等开源模型,在某些任务上性能接近Claude 4,GPT4等闭源大模型。

月之暗面万亿Moe模型——Kimi K2

在多项Benchmark中也取得了优异成绩,列举如下。

月之暗面万亿Moe模型——Kimi K2
代码任务
月之暗面万亿Moe模型——Kimi K2
工具使用&数学任务

详细数据在k2技术报告中,技术报告链接:moonshotai.github.io/Ki

技术报告中也给出了agent智能的使用case,分析数据的案例部分如下,流程较多,具体的可以查看技术报告。

月之暗面万亿Moe模型——Kimi K2
月之暗面万亿Moe模型——Kimi K2

技术报告也显示了最终的结果html:

月之暗面万亿Moe模型——Kimi K2

kimi k2支持主流推理框架:vLLM,SGLang,TensorRT-LLM等,部署可参考官方仓库github.com/MoonshotAI/K

同时kimi k2在技术报告中指出,仍存在不足。在处理困难的推理任务或者不明确的工具定义时,模型可能会生成过多的token,导致输出阶段或者工具调用不完整。以及,如果开启了工具使用,某些任务的性能会下降等,他们正在解决。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/270897.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午2:34
下一篇 2026年3月12日 下午2:34


相关推荐

关注全栈程序员社区公众号