kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

Ai探索者 • 2026年3月12日下午6:16 • 月之暗面 • 阅读 3

品玩4月14日讯，据月之暗面官方消息，月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。

Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 Moonlight，16B总参数，2.8B激活参数。视觉信息处理部分，采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入，包括单图、多图、视频、包含视觉信息的长文档等，在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平。

此外kimi还推出了支持长思考的模型分支版本：Kimi-VL-Thinking。它经过强化学习，激活了模型的长思维链推理能力（Long CoT）。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型，但在有较高推理难度的基准测试（包括 MMMU，MathVision，MathVista）中，部分成绩可以接近甚至超过超大尺寸的前沿模型。

月之暗面 Kimi 教程

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

发布者：Ai探索者，转载请注明出处：https://javaforall.net/267206.html原文链接：https://javaforall.net

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

关于作者

Ai探索者网站注册用户

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

关于作者

Ai探索者网站注册用户

相关推荐

180亿美元！Kimi估值破千亿

月之暗面开源Kimi CLI：命令行⭊代理双模切换，开发者效率新利器来了

Perplexity CEO 称赞月之暗面，希望基于 Kimi K2 进行后训练

Kimi-API调用时返回401错误，如何正确配置API密钥？

Kimi K2宣布更新：上下文长度扩展至256K，带来更快的API

这几个清北90后，撑起全球AI半边天