月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。

月之暗面 Kimi 教程月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion

7月11号,月之暗面推出了 Kimi K2,这是一款先进的混合专家 (MoE) 语言模型,拥有 320 亿个激活参数和 1 万亿个总参数。Kimi K2 采用 Muon 优化器进行训练,在前沿知识、推理和编码任务中表现出色,同时针对代理能力进行了精心优化。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion_02

主要特点

  • 大规模训练:在 15.5T 个令牌上预先训练 1T 参数 MoE 模型,且训练不稳定性为零。
  • MuonClip 优化器:我们将 Muon 优化器应用于前所未有的规模,并开发新的优化技术来解决扩展过程中的不稳定性问题。
  • 代理智能:专为工具使用、推理和自主解决问题而设计。

模型变体

  • Kimi-K2-Base:基础模型,对于想要完全控制微调和定制解决方案的研究人员和建设者来说是一个强有力的开端。
  • Kimi-K2-Instruct:后训练模型,最适合用于即兴、通用聊天和代理体验。它是一款无需长时间思考的反射级模型。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion_03

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_人工智能_04

给 Kimi K2 你的工具并描述你的任务。 它会自动理解如何使用工具并完成工作。您无需为代理应用程序编写任何复杂的工作流程。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_强化学习_05

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_AIGC_06

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_人工智能_07

使用 Kimi K2 规划您梦想中的 2025 年伦敦酷玩乐队巡演,它通过 17 次无缝工具调用为您精心打造计划,涵盖搜索、日历、Gmail、航班、Airbnb 和餐厅预订等功能。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion_08

将 Flask 项目转换为 Rust 时,Kimi K2 会系统地重构代码库并运行性能基准测试,以确保获得可靠的结果

  • 主页:https://www.moonshot.ai/
  • 模型:https://huggingface.co/moonshotai
  • 技术报告:https://t.co/2RP7U3iakZ
  • GitHub:https://github.com/moonshotai/Kimi-K2

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion_09

评估结果 下表详细列出了 Kimi-K2-Instruct 的性能,表明其在一系列任务中的表现堪比甚至超越了最新的开源和专有模型。该模型在知识密集型和推理基准测试中表现出色,在自然语言理解、数学和科学、代码生成和代理工具使用方面均取得了优异的成绩

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_人工智能_10

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_AIGC_11

预训练是代理智能 (Agentic Intelligence)的关键基础,它建立先验知识,使强化学习 (RL) 探索变得易于处理、高效且可推广。然而,正如 Ilya Sutskever 所观察到的,人类数据是一种有限的“化石燃料”,其增长速度远远落后于计算速度。这使得预训练期间的代币效率成为 AI 缩放定律中一个新的关键系数。 在“体验时代”(David Silver,Richard Sutton,2025)中,后训练至关重要。在这个时代,LLM 越来越多地从自身生成的互动中学习,获得回报,使他们摆脱人类数据的限制,并超越人类的能力。 Kimi K2 正是基于这些见解而打造的。

Kimi K2 的增强代理能力源自两个重要方面——大规模代理数据合成和通用强化学习。

用于工具使用学习的大规模代理数据合成: 为了教会模型复杂的工具使用能力,我们受 ACEBench 启发,开发了一个全面的流程,可以大规模模拟现实世界的工具使用场景。我们的方法系统地演化了数百个包含数千种工具(包括真实的 MCP(模型上下文协议)工具和合成工具)的领域,并生成了数百个拥有不同工具集的代理。 所有任务均基于评分标准,从而实现一致的评估。代理与模拟环境和用户代理交互,创建逼真的多轮工具使用场景。LLM 评委根据任务评分标准评估模拟结果,筛选出高质量的训练数据。这种可扩展的流程能够生成多样化、高质量的数据,为大规模拒绝采样和强化学习奠定基础。

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。_stable diffusion_12

通用强化学习: 关键挑战在于将强化学习应用于具有可验证和不可验证奖励的任务;可验证任务的典型示例是数学和编程竞赛,而撰写研究报告通常被视为不可验证的任务。除了可验证奖励之外,我们的通用强化学习系统还采用自我判断机制,让模型充当自身的“批评家”,为不可验证任务提供可扩展的、基于评分标准的反馈。 同时,使用可验证奖励的在线策略rollout来持续更新评论家,使评论家不断提高其在最新策略上的评估准确性。这可以被视为一种利用可验证奖励来改进不可验证奖励估计的方法

Kimi 的网页版和移动版用户均可免费选择并使用全新的 Kimi K2 模型。目前网页版和 App 版的 MCP 功能仍在开发中。在未来几周内推出这些功能。在此期间可以试用 Researcher,抢先体验其代理功能。请注意,Kimi K2 尚不支持视觉功能。

  • 试用链接:https://www.kimi.com/

通过 API 使用 Kimi K2

Kimi 平台提供与 OpenAI/Anthropic 兼容的接口,方便您轻松将现有应用程序适配至 Kimi K2。我们鼓励开发者探索我们的工具调用 API,以构建代理应用程序。如需了解更多信息,请访问

  • API试用:platform.moonshot.ai
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/270807.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午2:39
下一篇 2026年3月12日 下午2:39


相关推荐

关注全栈程序员社区公众号