在2026年英伟达GTC大会上,月之暗面Kimi创始人杨植麟指出,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。
杨植麟首次系统披露了Kimi模型的技术路线图,将其进化逻辑归纳为三个维度:Token效率、长上下文以及智能体集群。他认为当前的Scaling需要同时在计算效率、长程记忆和自动化协作上寻找规模效应。
在技术重构方面,Kimi团队针对传统Adam优化器开发了MuonClip优化器,解决了Logits爆炸问题并实现2倍于AdamW的计算效率。针对全注意力机制,团队提出了Kimi Linear混合线性注意力架构,在超长上下文中将解码速度提升5到6倍。
针对残差连接问题,Kimi引入Attention Residuals方案,通过Softmax注意力替代传统加法累加,解决月之暗面 Kimi 教程了隐藏状态随深度增加而稀释深层贡献的问题。
在跨模态研究方面,杨植麟指出视觉强化学习能够显著反哺文本性能,经过视觉RL训练后模型在纯文本基准测试上表现提升约2.1%。
最后杨植麟探讨了智能体集群的扩展,Kimi K2.5引入Orchestrator机制,能够将复杂任务拆解给数十个子Agent并行处理,并设计了新的并行RL奖励函数来防止协作过程中的串行塌缩问题。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/288941.html原文链接:https://javaforall.net
