kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

品玩4月14日讯,据月之暗面官方消息,月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。

Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 Moonlight,16B总参数,2.8B激活参数。视觉信息处理部分,采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入,包括单图、多图、视频、包含视觉信息的长文档等,在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平。

此外kimi还推出了支持长思考的模型分支版本:Kimi-VL-Thinking。它经过强化学习,激活了模型的长思维链推理能力(Long CoT)。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型,但在有较高推理难度的基准测试(包括 MMMU,MathVision,MathVista)中,部分成绩可以接近甚至超过超大尺寸的前沿模型。

月之暗面 Kimi 教程

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/267206.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午6:16
下一篇 2026年3月12日 下午6:16


相关推荐

关注全栈程序员社区公众号