2025年4月10日,月之暗面发布了MoE架构的视觉语言模型Kimi-VL。该模型提供了高级多模态推理、长上下文理解和强大的智能体功能,而仅激活2.8B参数(总共16B参数)。
基于Kimi-VL,研究团队还开发了一个高级长思考变体:Kimi-VL-Thinking。该变体通过Long-CoT SFT和RL开发,展示了强大的长期推理能力。
代码和模型发布在以下地址:https://github.com/MoonshotAI/Kimi-VL

随着人工智能技术的快速发展,人类对AI助手的期望已超越传统的纯语言交互方式,越来越多地趋向于与我们世界本质上多模态的特性相匹配。为了更好地理解并适应这些期望,新一代本地多模态模型应运而生,如GPT-4o和Google Gemini,这些模型能够在语言处理的同时无缝感知和解释视觉输入。近期,以OpenAI的o1系列和Kimi k1.5为代表的先进多模态模型,通过对多模态输入进行更深层次和更长链的推理,进一步拓展了技术边界,从而能够解决多模态领域中更为复杂的问题。
然而,开源社区中大型视觉-语言模型(VLM)的发展明显落后于纯语言模型,特别是在可扩展性、计算效率和高级推理能力方面。尽管纯语言模型DeepSeek R1已经采用了高效且更具可扩展性的专家混合模型(MoE)架构,并实现了复杂的长思维链(Long-CoT)推理,但大多数最新的开源VLM,如Qwen2.5-VL和Gemma-3,仍然依赖于密集架构且不支持Long-CoT推理。
早期对基于MoE的视觉-语言模型的探索,如DeepSeek-VL2和Aria,在其他关键方面存在局限性。从架构角度看,这两种模型仍采用相对传统的固定大小视觉编码器,限制了它们对多样化视觉输入的适应能力。从功能角度看,DeepSeek-VL2仅支持有限的上下文长度(4K),而Aria在细粒度视觉任务上表现不佳。此外,这两个模型均不支持长思考。因此,开源社区迫切需要一个能有效整合结构创新、稳定功能和通过长思考增强推理能力的VLM。
基于这一背景,月之暗面团队提出了Kimi-VL,一个面向开源社区的VLM。
在结构上,Kimi-VL由Moonlight MoE语言模型组成,该模型仅激活2.8B参数(总共16B参数),并配备了400M原生分辨率MoonViT视觉编码器。在功能方面,如图2所示,Kimi-VL能够稳健地处理各种任务(细粒度感知、数学、大学级别问题、OCR、智能体等),覆盖广泛的输入形式(单图像、多图像、视频、长文档等)。

具体来说,该模型具有以下突出能力:
- Kimi-VL具备高智能性:其文本处理能力与高效纯文本LLM相当;即使不使用长思考功能,Kimi-VL在多模态推理和多轮智能体基准测试中已展现出竞争力,如MMMU、MathVista和OSWorld等。
- Kimi-VL能处理长上下文:在128K上下文窗口内,它能有效处理各种多模态长输入的理解任务,在长视频基准测试和MMLongBench-Doc上的表现远超同等规模的竞争模型。
- Kimi-VL拥有清晰感知能力:在各种视觉-语言场景中展现出全面的竞争实力,超越现有的高效密集和MoE视觉-语言模型,包括视觉感知、视觉世界知识、OCR、高分辨率OS截图等方面。
此外,通过Long-CoT激活和强化学习(RL)技术,研究团队开发了Kimi-VL的长思考版本——Kimi-VL-Thinking,该版本在更复杂的多模态推理场景中进一步大幅提升了性能。尽管规模较小,Kimi-VL-Thinking在复杂推理基准测试(如MMMU、MathVision、MathVista)上表现出色,超越了许多甚至规模更大的最先进VLM。
相关阅读
【LLM技术报告】《Kimi k1.5:基于LLM的强化学习扩展研究》——Kimi k1.5技术报告(全文)【LLM技术报告】《DeepSeek-R1:通过强化学习提升LLM的推理能力》——DeepSeek-R1技术报告(全文)
Kimi-VL的架构由三个主要部分组成:原生分辨率视觉编码器(MoonViT)、MLP投影器和MoE语言模型,如图3所示。

本章将详细介绍每个组成部分。
MoonViT:原生分辨率视觉编码器
MoonViT作为Kimi-VL的视觉编码器,被设计为能够原生处理不同分辨率的图像,从而消除了像LLaVA-OneVision中那样需要复杂的子图像分割和拼接操作。该编码器采用了NaViT的打包方法,将图像分成块、扁平化,并按顺序连接成一维序列。这些预处理操作使MoonViT能够与语言模型共享相同的核心计算操作和优化方式,如FlashAttention支持的可变长度序列注意力机制,确保在处理不同分辨率图像时保持不受损的训练吞吐量。
MoonViT基于SigLIP-SO-400M初始化并进行持续预训练,该模型原本采用可学习的固定大小绝对位置向量来编码空间信息。虽然通过插值这些原始位置向量可以更好地保留SigLIP的能力,但随着图像分辨率的增加,这些插值嵌入的效果变得越来越有限。
针对这一问题,研究团队在高度和宽度维度上引入了2D旋转位置向量(RoPE),这显著改善了细粒度位置信息的表示,尤其是在高分辨率图像中。这两种位置向量方法协同工作,为模型编码空间信息,并与扁平化和打包程序无缝集成。这种集成使MoonViT能够在同一批次中高效处理不同分辨率的图像,生成的连续图像特征随后被传递到MLP投影器,最终传递到MoE语言模型用于后续训练阶段。
MLP投影器
该模型采用两层MLP来连接视觉编码器(MoonViT)和LLM。具体而言,首先使用像素重排操作压缩MoonViT提取的图像特征的空间维度,在空间域中执行2×2下采样,并相应地扩展通道维度。然后将像素重排后的特征输入两层MLP中,将它们投影到LLM嵌入的维度空间。
MoE语言模型
Kimi-VL的语言模型采用Moonlight模型,这是一个具有2.8B激活参数、16B总参数的MoE语言模型,其架构类似于DeepSeek-V3。在实现过程中,该模型从Moonlight预训练阶段的中间检查点初始化——该检查点已处理了5.2T纯文本数据token并激活了8k token上下文长度。随后,研究团队继续使用多模态和纯文本数据的联合训练方案进行预训练,总计处理了2.3T token。
Kimi-VL采用了增强版Muon优化器进行模型优化。与原始Muon优化器相比,该增强版添加了权重衰减并精细调整了每个参数的更新比例。此外,研究团队基于ZeRO-1优化策略开发了Muon的分布式实现,实现了最佳内存效率和减少的通信开销,同时保留了算法的数学特性。
这种增强的Muon优化器贯穿整个训练过程,用于优化所有模型参数,包括视觉编码器、投影器和语言模型。

如图4和表1所示,在加载前述中间语言模型后,Kimi-VL的预训练共包括4个阶段,总计处理4.4T token:
首先是独立的ViT训练阶段,用于建立强大的原生分辨率视觉编码器; 随后是三个联合训练阶段(预训练、冷却和长上下文激活),这些阶段同时增强模型的语言和多模态能力。

具体内容如下:
ViT训练阶段
MoonViT在图像-文本对上进行训练,其中文本组件包含多种目标:图像替代文本、合成标题、定位边界框和OCR文本。训练包含两个目标函数:SigLIP损失
(对比损失的变体)和以输入图像为条件的标题生成交叉熵损失
。参照CoCa方法,最终损失函数表示为L =
+
,其中
。具体而言,图像和文本编码器计算对比损失,而文本解码器执行以图像编码器特征为条件的下一个token预测(NTP)。
为加速训练,模型使用SigLIP SO-400M权重初始化两个编码器,并实施了渐进分辨率采样策略,逐步允许处理更大尺寸的图像;文本解码器则由小型仅解码器语言模型初始化。在训练过程中,随着OCR数据规模扩大,研究团队观察到标题损失出现涌现现象,表明文本解码器已发展出OCR能力。
在类CoCa阶段用2T token训练ViT后,研究团队使用额外月之暗面 Kimi 教程0.1T token将MoonViT与MoE语言模型对齐,此过程中仅更新MoonViT和MLP投影器。这一对齐阶段显著降低了MoonViT向量在语言模型中的初始困惑度,为后续联合预训练阶段奠定了基础。
联合预训练阶段
在联合预训练阶段,模型使用纯文本数据(从与初始语言模型相同分布中采样)和各种多模态数据的组合进行训练。研究团队使用相同的学习率调度器从加载的LLM检查点继续训练,额外处理了1.4T token。
初始步骤仅使用语言数据,之后多模态数据的比例逐渐增加。通过这种渐进方法和前述对齐阶段,联合预训练成功保留了模型的语言能力,同时有效整合了视觉理解能力。
联合冷却阶段
预训练后进入多模态冷却阶段,模型继续使用高质量的语言和多模态数据集进行训练,以确保优异性能。对于语言部分,实证研究表明在冷却阶段引入合成数据带来了显著性能提升,特别是在数学推理、基于知识的任务和代码生成方面。冷却数据集的一般文本组件从预训练语料库的高质量子集中精选而来。
对于数学、知识和代码领域,研究团队采用了混合方法:利用选定的预训练子集,同时用合成内容进行增强。
具体而言,研究团队利用现有的数学知识和代码语料库作为源材料,通过专有语言模型生成问答(QA)对,并实施拒绝采样技术以维持质量标准。这些合成QA对在整合到冷却数据集前经过全面验证。
对于多模态部分,除了文本冷却数据准备中使用的问答合成和高质量子集重放策略外,为实现更全面的视觉中心感知和理解能力,研究团队过滤并重写了各种学术视觉或视觉-语言数据源为QA对。与后训练阶段不同,冷却阶段中的这些语言和多模态QA对仅用于激活特定能力并促进高质量数据学习,因此其比例被控制在较低水平,以避免过拟合QA模式。
联合冷却阶段显著提升了模型的语言和多模态能力。
联合长上下文激活阶段
在最后的预训练阶段,模型的上下文长度从8K扩展到128K,其RoPE向量化的逆频率从50,000重置为800,000。
联合长上下文阶段分两个子阶段进行,每个子阶段将模型的上下文长度扩展四倍。在数据组成方面,每个子阶段将长数据的比例过滤和上采样到25%,同时使用剩余75% token重放前一阶段的较短数据;研究探索证实,这种组成使模型能够有效学习长上下文理解能力,同时保持短上下文处理能力。
为使模型能够在纯文本和多模态输入上激活长上下文能力,Kimi-VL长上下文激活中使用的长数据不仅包括长文本,还包括长多模态数据,如长交错数据、长视频和长文档。与冷却数据类似,研究团队也合成了少量QA对以增强长上下文激活的学习效率。在长上下文激活后,模型能够通过长纯文本或长视频的“大海捞针”(NIAH)评估,证明其多功能的长上下文处理能力。表2提供了高达128K的各种上下文长度范围的NIAH召回准确率。


联合SFT
在这个阶段,研究团队通过基于指令的微调来优化Kimi-VL的基础模型,增强其遵循指令和参与对话的能力,最终开发出了交互式Kimi-VL模型。这一过程采用了ChatML格式,该格式允许进行有针对性的指令优化,同时保持与Kimi-VL的架构一致性。
模型优化涉及语言模型、MLP投影器和视觉编码器,使用了纯文本和视觉-语言SFT数据的混合。监督训练仅应用于答案和特殊token,系统和用户提示词则被屏蔽。
模型接受了精选的多模态指令-响应对集合训练,通过格式感知的数据打包方式确保了对话角色的明确标记、视觉向量的结构化整合,以及跨模态位置关系的保持。此外,为确保模型在对话方面的全面能力,研究团队结合了多模态数据和Moonlight中使用的纯文本对话数据,使模型能够适应各种对话场景。
训练过程首先在32K token序列长度上进行1个epoch,随后在128K token序列长度上再进行1个epoch。第一阶段(32K)中,学习率从
降至
,然后在第二阶段(128K)重新预热至
,最终降至
。为提高训练效率,多个训练示例被打包到每个训练序列中。
Long-CoT SFT
利用精炼的强化学习提示集,研究团队采用提示词工程技术构建了一个小而高质量的Long-CoT预热数据集,其中包含对文本和图像输入的经过准确验证的推理路径。这种方法类似于拒绝采样(RS),但专注于通过提示词工程生成Long-CoT推理过程。
构建的预热数据集旨在囊括人类推理所基本的关键认知过程,包括:规划(模型在执行前系统性地概述步骤)、评估(对中间步骤进行批判性分析)、反思(使模型能够重新考虑并改进其方法)以及探索(鼓励考虑替代解决方案)。
通过对这个预热数据集进行轻量级SFT,模型有效地内化了这些多模态推理策略。因此,微调后的Long-CoT模型展现出生成更详细、逻辑更连贯响应的能力,从而在各种推理任务中取得了更好的表现。
RL
为进一步提升模型的推理能力,研究团队采用RL进行训练,使模型能够自主生成结构化CoT推理。具体而言,类似于Kimi k1.5,模型采用了在线策略镜像下降的变体作为RL算法,该算法通过迭代优化策略模型
来提高问题解决的准确性。在第
次训练迭代中,当前模型被视为参考策略模型,并优化以下目标函数,通过相对熵正则化来稳定策略更新:

其中
是奖励模型,通过基于真值
分配值
来评判所提出答案
对给定问题
的正确性,
通过大规模强化学习训练,模型能够同时兼具基本的基于提示的思维链推理和复杂的规划增强CoT方法的优势。在推理阶段,模型保持标准的自回归序列生成方式,避免了专门规划算法所需的并行计算带来的部署复杂性。同时,通过有效利用已探索推理路径的完整历史作为上下文信息,模型发展出了错误检测、回溯和迭代解决方案改进等元推理能力。
借助对完整推理轨迹历史的内源性学习,模型能够有效地将计划性搜索程序编码到其参数化知识中。
存储
Kimi-VL项目利用来自云服务供应商的S3(Amazon Web Services 2023)兼容对象存储来管理视觉-文本数据。为了最小化数据准备和模型训练之间的时间差,研究团队以原始格式保存视觉数据,并开发了一套高效灵活的数据加载系统。该系统提供以下几个关键优势:
- 在训练过程中支持即时数据打乱、混合、token化、损失掩码和打包,能够根据需要灵活调整数据比例;
- 支持视觉和文本数据的随机增强,同时在转换过程中保持2D坐标和方向信息的准确性;
- 通过严格控制不同数据加载工作进程间的随机状态和其他状态来确保可重现性,保证任何中断的训练都能无缝恢复——恢复后的数据序列与不中断运行时完全一致;
- 提供高性能数据加载:通过多层次缓存策略,系统能够可靠支持大规模集群上的训练,同时维持对对象存储的可控请求率和吞吐量。
此外,为确保数据集质量的一致性控制,研究团队开发了一个集中式平台,用于数据注册、可视化、统计数据编译、跨云存储系统的数据同步以及数据集生命周期管理。
并行性
Kimi-VL采用4D并行策略来提升处理速度,包括数据并行(DP)、专家并行(EP)、流水线并行(PP)和上下文并行(CP)。经过优化的并行策略使模型训练吞吐量比7B参数的密集VLM(如基于Qwen2.5-7B的VLM)提高了约60%。
- DP:在多个设备上复制模型,每个设备处理不同的微批次数据。这种设置通过简单增加设备数量来实现更大的有效批量大小。
- EP:将MoE层中的专家模块分布在多个设备上。当与数据并行结合时,特定设备上的专家可以处理来自不同数据并行组的token,从而提高计算效率。
- PP:将模型分成多个基于层的阶段。为最小化流水线气泡,研究团队将Vision Tower(视觉塔)和部分解码器层分配到第一阶段,将输出层和额外的解码器层放在最后阶段,并根据时间开销将剩余解码器层均匀分布在中间阶段。
- CP:结合Flash Attention,通过在不同CP等级之间分割序列来解决长序列训练问题。这大幅降低了峰值内存使用,并缓解了注意力计算带来的内存压力。
除了这四种并行策略,Kimi-VL还整合了ZeRO1和选择性检查点激活技术来进一步优化内存使用。ZeRO1通过使用分布式优化器降低优化器状态开销,同时避免额外的通信成本;选择性检查点激活通过仅重新计算时间开销低但内存消耗高的层,实现了时间与空间的有效平衡。对于极长序列处理,系统将重计算扩展到更多层,以防止出现内存不足错误。


*以下是图6中的文字翻译
指令:请一步步推断这份手稿属于谁以及它记录了什么内容。
回应:
基于提供的图像,需要分析这份手稿的归属及其内容。首先从手稿的视觉特征入手:
手稿的笔迹特征表明它属于一位数学家或物理学家,因为其中包含复杂的方程式和公式。纸张呈现出陈旧的黄色色调,暗示这些文件可能来自较早的时期。这些方程式的书写风格与20世纪的手写数学笔记非常吻合。随后分析手稿的具体内容:
两张图像都包含大量数学方程,涉及诸如g(重力)、M(质量)、T(可能是时间)等变量,以及各种指数和求和符号。这些方程式似乎与引力场或天体力学相关,这些主题在高等物理学和数学中很常见。
第一张图像(图像1)中的方程包含偏导数和求和运算,这在场论或张量微积分中非常典型。德语术语”Einheitsvektor”(单位向量)的出现暗示这可能与爱因斯坦的工作或类似的场论有关。这些方程式似乎构成了一个方程系统,可能针对物理学中的特定问题。
第二张图像(图像2)则包含更多数值计算和公式。其中引用了”K”(可能是引力常数)、”M”(质量)和”T”(时间)等常数。这些方程包括积分、导数和代数运算,表明这是详细的数学推导或计算过程。
从写作风格和内容来看,手稿的笔迹虽略显凌乱但保持一致,表明它来自同一位作者。德语术语如”Einheitsvektor”和”Gln”(可能是”Gleichung”即”方程”的缩写)的使用表明作者使用德语。
第一张图像很可能是一页数学手稿,从风格和内容判断,可能出自爱因斯坦之手。这些方程式与广义相对论中使用的方程式相似,特别是在引力场的背景下。第二张图像中的数值计算和常数引用,可能是同一手稿的不同部分或一份配套文档。
综合以上分析,考虑到方程式的风格和与引力场及场论相关的内容,这些手稿很可能属于阿尔伯特·爱因斯坦。第一张图像可能是他关于广义相对论的研究,特别是处理引力场的数学表述部分。第二张图像则可能是这些计算的延续,包含数值计算和进一步的推导。为验证这一推断,可以考虑以下几点:
德语术语的存在表明作者是德语使用者,这与爱因斯坦的背景相符。
复杂的数学内容与爱因斯坦在场论和广义相对论方面的已知工作相匹配。
手稿的手写性质与爱因斯坦记录其思想和计算的惯常方式一致。
基于这些观察,可以得出结论:这些手稿属于阿尔伯特·爱因斯坦,记录了他关于引力场方程和相关数学推导的工作,可能来自他在广义相对论或物理学相关领域的研究。关键观察
笔迹风格:手稿笔迹与爱因斯坦已知的风格一致,特征是精确但略显凌乱的数学符号。
内容分析: 方程中包含偏导数、求和运算和希腊字母(如γ,g)等元素,这些在张量微积分和场论中是常见的。第一张图像显示的方程式类似于爱因斯坦对引力场方程的表述,可能与广义相对论中的爱因斯坦场方程相关。第二张图像包含数值计算、常数(如K,M,T)和积分,显示了引力理论中的详细推导或计算过程。
德语术语:德语术语如”Einheitsvektor”(单位向量)和”Gln”(方程)的使用表明作者是德语使用者,这一点与爱因斯坦的背景相符。结论
这些手稿是爱因斯坦研究材料的一部分,记录了他在引力场和场方程方面的数学和理论工作。它们很可能代表了他将广义相对论背后的数学框架系统化的努力,而广义相对论是现代物理学的重要基础。最终答案
这些手稿属于阿尔伯特·爱因斯坦,记录了他在广义相对论领域中关于引力场方程和数学推导的研究工作。
Kimi-VL的多模态预训练语料库旨在提供高质量数据,使模型能够处理和理解来自文本、图像和视频等多种模态的信息。为此,研究团队从描述、图文交错、OCR、知识、视频和智能体六个类别中精选了高质量数据构建语料库。在训练语料库构建过程中,研发了多种多模态数据处理流程以确保数据质量,包括过滤、合成和去重。在视觉和语言的联合训练中,建立有效的多模态数据策略至关重要,因为它既保持了语言模型的原有能力,又促进了不同模态间知识的对齐。以下是各类数据来源的详细描述:
描述数据
描述数据为模型提供了基础的模态对齐和广泛的世界知识。通过融入描述数据,多模态LLM能以高学习效率获得更广泛的世界知识。研究团队整合了各种开源的中英文描述数据集,并从多个来源收集了大量内部描述数据。
然而,在整个训练过程中,合成描述数据的比例被严格控制,以减少因真实世界知识不足导致的幻觉风险。对于一般描述数据,采用了严格的质量控制流程,避免重复并保持高图像-文本相关性。
此外,在预训练期间还采用了不同分辨率的图像,以确保Vision Tower在处理高分辨率和低分辨率图像时均保持有效。
图像-文本交错数据
在预训练阶段,模型从交错数据中获益良多。例如,交错数据可以提升多图像理解能力,可以为给定图像提供详细知识,还能增强更长多模态上下文的学习能力。更重要的是,研究发现交错数据能积极帮助维持模型的语言能力。因此,图像-文本交错数据成为训练语料库的重要组成部分。多模态语料库采用了开源交错数据集,并利用教科书、网页和教程等资源构建了大规模内部数据。
此外,研究还发现合成交错数据有助于多模态LLM保持文本知识的性能。为确保充分学习每个图像的知识,对所有交错数据,除了标准的过滤、去重和质量控制流程外,还整合了数据重排序处理,以保持所有图像和文本的正确顺序。
OCR数据
光学字符识别(OCR)是一种将图像中文本转换为可编辑格式的广泛应用技术。在Kimi-VL模型中,强大的OCR能力被视为将模型与人类需求更好对齐的关键因素。因此,OCR数据来源多样化,包括开源和内部数据集,涵盖干净和增强的图像,以及单页和多页输入。
除了公开可用的数据外,研究团队还开发了大量内部OCR数据集,包括多语言文本、密集文本布局、网络内容和手写样本。此外,遵循OCR 2.0中的原则,模型还配备了处理各种光学图像类型的能力,包括图形、表格、几何图表、Mermaid流程图和自然场景文本。
研究团队应用了广泛的数据增强技术——如旋转、扭曲、颜色调整和噪声添加——以增强模型的鲁棒性。因此,Kimi-VL在OCR任务中表现出高水平的处理能力。除单页OCR数据外,研究团队还收集并转换了大量内部多页OCR数据,以增强模型对真实世界长文档的理解能力。借助这些数据,模型不仅能够对单一图像执行准确的OCR,还能理解整篇学术论文或扫描书籍。
知识数据
多模态知识数据的概念类似于前述的文本预训练数据,但重点是从不同来源构建全面的人类知识库,以进一步增强模型能力。例如,数据集中精心策划的几何数据对发展视觉推理技能至关重要,确保模型能够解释人类创建的抽象图表。
知识语料库遵循标准分类法,平衡各类内容,确保数据源多样性。与从教科书、研究论文和学术材料中收集知识的纯文本语料库类似,多模态知识数据利用布局解析器和OCR模型处理这些来源的内容,同时也包括经过过滤的互联网和其他外部资源数据。
由于知识语料库有相当一部分来自互联网材料,信息图可能导致模型过度关注基于OCR的信息。在这种情况下,仅依赖基本OCR流程可能限制训练效果。为解决此问题,研究团队开发了额外的处理流程,以更好地捕捉图像中的纯文本信息。
智能体数据
对于智能体任务,模型的接地和规划能力得到了显著增强。除利用公开可用数据外,研究团队建立了一个平台,用于高效管理和批量执行虚拟机环境。在这些虚拟环境中,通过启发式方法收集屏幕截图和相应的动作数据,并将这些数据处理成密集接地格式和连续轨迹格式。
动作空间的设计根据桌面、移动和网络环境进行了分类。此外,收集了图标数据以增强模型对软件GUI中图标含义的理解。
为提升模型解决多步桌面任务的规划能力,研究团队收集了一组来自人类注释员的计算机使用轨迹,每个轨迹都配有合成的CoT。这些多步智能体演示使Kimi-Flash具备了完成真实世界桌面任务(在Ubuntu和Windows系统上)的能力。
视频数据
除了图像和图像-文本交错数据外,研究团队还在预训练、冷却和长上下文激活阶段融入了大规模视频数据,以使模型具备两个方向的基本能力:首先,能够理解由图像主导的长上下文序列(如小时长的视频)和长文本;其次,能够感知短视频片段中的细粒度时空对应关系。
视频数据来源多样,包括开源数据集和内部网络规模视频数据,涵盖不同时长的视频。为确保足够的泛化能力,视频数据覆盖了广泛的场景和多样化任务,包括视频描述和视频定位等。对于长视频,研究团队精心设计了流程生成密集描述。与处理描述数据类似,合成密集视频描述数据的比例被严格控制,以减少幻觉风险。
文本数据
Kimi-VL的文本预训练语料库直接采用了Moonlight中的数据,该数据为训练LLM提供了全面和高质量的内容。它涵盖五个领域:英语、中文、编程、数学与推理,以及百科知识。研究团队为每个领域采用了复杂的过滤和质量控制机制,以确保最高质量的训练数据。
对于所有预训练数据,研究团队对每个数据源进行了严格的个体验证,评估其对整体训练方案的具体贡献。这种系统评估确保了多样化数据组成的质量和有效性。为优化训练语料库的整体组成,不同文档类型的采样策略是通过广泛实验经验确定的。研究团队进行了隔离评估,识别对模型知识获取能力贡献最显著的文档子集,并在最终训练语料库中对这些高价值子集进行了上采样。然而,为保持数据多样性并确保模型泛化能力,其他文档类型也以适当比例保持平衡。这种数据驱动的方法帮助优化了专注知识获取和广泛泛化能力之间的平衡。


在这个阶段,数据主要用于增强模型的会话能力和遵循指令的能力。为了尽可能覆盖多种场景,研究团队在不同领域进行了数据丰富。
对于非推理任务,包括图表解释、智能体落地、OCR、图像引导的对话、问答、写作和文本处理等,研究团队首先通过人工标注构建了种子数据集,用于训练种子模型。随后,团队收集了多样化的提示,并使用种子模型对每个提示生成多个回应。标注人员对这些回应进行排名,并优化排名最高的回应以生成最终版本。
对于视觉编码、视觉推理和数学/科学问题等推理任务,由于基于规则和基于模型的验证比人类判断更准确、更高效,研究团队采用拒绝采样技术扩展了SFT数据集。完整的标准SFT数据集中文本token和图像token的比例约为1:1。
Kimi-VL的推理数据经过精心构建,用于在Long-CoT SFT和RL阶段激活并增强模型的多模态推理能力。通过开发类似于RS和提示词工程的生成流程,研究团队收集并合成了大量高质量的Long-CoT数据。
具体而言,研究团队首先整理了一系列需要多步推理的带有真值标注的QA数据,如数学问题解决和特定领域的视觉问答(VQA)。随后,团队利用强大的Long-CoT模型Kimi k1.5配合精心设计的推理提示词,为每个问题生成多个详细的推理路径。
在RS过程中,真实标签和模型预测被输入到现成的奖励模型中进行评判。根据模型评估结果和一些基于规则的奖励机制,错误的CoT响应被筛选出去,从而提高了推理数据的质量。


本章首先介绍了Kimi-VL综合模型,并与当前SOTA解决方案进行比较分析。随后,通过详细的性能评估来分析模型的各种子能力。这部分研究了模型如何有效处理不同任务和场景,提供关于其在各功能领域的优势和局限性的见解。
表3展示了Kimi-VL与最先进视觉-语言模型在多个基准测试上的全面评估结果。


尽管相比GPT-4o、Llama-3.2-11B-Inst.和Gemma3-12B-IT等大型模型,Kimi-VL采用了更为参数高效的架构(仅激活2.8B+0.4B参数),但在多个关键领域展现出有竞争力甚至更优越的性能。
Kimi-VL采用了与DeepSeek-VL2类似的MoE架构,但在大多数基准测试中表现优于后者,且参数数量明显更少(激活参数:2.8B vs 4.5B;总参数:16B vs 28B);此外,Kimi-VL在24个基准测试中的19个上优于Qwen2.5-VL-7B(实际为8.3B参数),尽管后者拥有2.59倍更多的激活参数。
以下各部分分析了Kimi-VL在特定领域的性能,揭示了其在OCR、数学、智能体、长形式内容理解、多图像和视频感知方面的优势。
大学级学术问题
Kimi-VL模型在大学级学术基准测试上展现出极具竞争力的性能。
在MMMU验证集上,它获得了57.0%的分数,超过了DeepSeek-VL2(51.1%),并与Qwen2.5-VL-7B(58.6%)和Gemma-3-12B-IT(59.6%)相当,尽管Kimi-VL的激活参数数量明显更少。
在视频大学级问题上,Kimi-VL显著优于Qwen2.5-VL-7B和DeepSeek-VL2,仅次于参数量超过10B的Gemma-3-12B-IT,展示了与更大模型相比较的大学级内容理解能力。这些结果表明,Kimi-VL成功地在参数效率与学术推理能力之间取得了良好平衡。
一般视觉能力
Kimi-VL在多个基准测试中展示了强大的视觉理解能力。
在MMBench-EN-v1.1上,它达到了83.1%的准确率,优于所有比较中的高效VLM,并与GPT-4o表现相当。在AI2D测试中,Kimi-VL达到了84.9%的成绩,超过了所有比较模型,包括GPT-4o(84.6%)。
在MMVet评测中,Kimi-VL得分66.7%,与Qwen2.5-VL-7B(67.1%)和GPT-4o-mini(66.9%)非常接近。
在RealWorldQA测试中,它达到了68.1%的成绩,优于Gemma3-12B(59.1%)并接近Qwen2.5-VL-7B(68.5%)。这些结果证明,尽管Kimi-VL架构相对紧凑,但仍维持了出色的视觉理解能力。
在多图像推理任务中,Kimi-VL在BLINK基准测试上获得了57.3%的分数,展示了优异的能力。这一表现超过了Qwen2.5-VL-7B(56.4%)、GPT-4o-mini(53.6%)、Gemma3-12B-IT(50.3%)和Llama3.2-11B-Inst.(39.8%)。跨多张图像进行推理需要理解视觉元素之间的空间和时间关系,Kimi-VL以较少的参数有效地处理了这一挑战。


数学推理
尽管参数规模相对较小,Kimi-VL在数学推理方面也表现出色,特别是在MathVista基准测试上,它达到了68.7%的成绩,优于所有比较模型,包括GPT-4o(63.8%)和Qwen2.5-VL-7B(68.2%)。这充分展示了Kimi-VL在理解和解决视觉上下文中的数学问题方面的出色能力。
在更具挑战性的MathVision基准测试上,受限于激活参数数量,Kimi-VL虽然优于DeepSeek-VL2和Llama-3.2-11B-Inst.,但落后于Qwen2.5-VL-7B和Gemma-12B-IT。然而,通过RL和测试时扩展技术,Kimi-VL-Thinking版本已经显著提升性能,达到了与30B级别VLM相当的水平(详见表4)。


这些结果突显了Kimi-VL在结合视觉感知与数学问题解决方面的有效性,这对实际应用至关重要。




文档理解和OCR能力
Kimi-VL在文档理解和OCR任务的所有相关基准测试中表现卓越。
在InfoVQA评测中,该模型达到了83.2%的准确率,超过了GPT-4o(80.7%)和DeepSeek-VL2(78.1%)。
在OCRBench测试中,Kimi-VL得分高达86.7%,优于所有其他对比模型,包括GPT-4o-mini(78.5%)和DeepSeek-VL2(81.1%)。
这些结果证明了Kimi-VL具备出色的文本识别和文档理解能力,特别适合应用于文档处理和信息提取领域。
智能体落地和多轮智能体交互能力
在基于智能体的任务中,Kimi-VL展现出出色的表现。在单步落地测试中,该模型表现出高度准确性,在ScreenSpot-V2上达到92.0%的准确率,在极具挑战性的4K屏幕ScreenSpot-Pro测试中达到34.5%,证明了其强大的智能体接地能力。
更为重要的是,Kimi-VL还展示了出色的多步轮智能体交互能力:在OSWorld测试中,Kimi-VL达到8.22%的成绩,优于GPT-4o(5.03%)和其他有实力的开源模型;在WindowsAgentArena评测中,该模型达到10.4%的成绩,同样超过了GPT-4o(9.4%)及其他对比模型。
这些结果凸显了Kimi-VL在理解和与操作系统界面交互方面的卓越能力,表明其在自动化UI导航和任务执行应用领域具有显著潜力。
长文档和长视频理解能力
Kimi-VL在长形式内容理解方面展现出极具竞争力的性能。
在具有挑战性的MMLongBench-Doc测试中(需要对长达100多页的文档进行问答),该模型达到了34.7%的分数,优于GPT-4o-mini(29.0%)和Qwen2.5-VL-7B(29.6%),仅次于GPT-4o(42.8%)。
在长视频理解方面,Kimi-VL在Video-MME评测中表现优异,尤其在更为公平的不带字幕设置中领先(该设置要求模型从视频帧中寻找答案,而非从输入字幕中获取信息);在带字幕设置中,该模型也达到了显著的72.6%准确率。
在MLVU的多项选择题子集上,Kimi-VL取得了74.2%的高分,达到了最先进水平,超越了GPT-4o(64.6%)和Qwen2.5-VL-7B(70.2%)。
在LongVideoBench测试中,Kimi-VL得分64.5%,优于所有对比模型,仅次于GPT-4o(66.7%)。
这些结果充分证明了Kimi-VL在理解长形式PDF文档和视频内容方面的强大能力。


自我中心和细粒度视频感知能力
Kimi-VL在更为细微的视频感知任务中同样表现出色。
在EgoSchema完整测试集(隐藏测试集)中,该模型达到78.5%的成绩,显著优于GPT-4o(72.2%)和Qwen2.5-VL-7B(65.0%)。在VSI-Bench这一高难度基准测试中(需要理解视频中多个对象的空间关系和对应关系),Kimi-VL得分37.4%,超过GPT-4o(34.0%)和Qwen2.5-VL-7B(34.2%)。
在评估VLM细粒度时间感知能力的TOMATO测试中,Kimi-VL达到31.7%的成绩,优于Qwen2.5-VL-7B(27.6%)和GPT-4o-Mini(28.8%)。
这些结果表明,Kimi-VL在以下方面表现突出:理解动态视觉内容、跟踪视频中物体随时间变化的情况、以及解释视频序列中的复杂动作。这使得该模型特别适合需要时间序列视觉理解能力的应用场景。
研究团队进一步开发了推理扩展功能,使Kimi-VL具备CoT推理能力,并通过Long-CoT激活和RL技术推出了模型的长思维推理版本——Kimi-VL-Thinking。该版本在多个图像基准测试上展现出卓越性能,如表4所示。
Kimi-VL-Thinking相比基础版Kimi-VL模型取得了显著提升:在MathVista上提高了2.6%,在MMMU上提高了4.7%,在MathVision上提高了15.4%。这充分展示了该模型利用测试时计算能力进行深度推理并更有效处理复杂多模态查询的能力。
如表4所示,Kimi-VL-Thinking的表现超越或媲美当前最先进的各类模型:
在MathVista测试中达到71.3%的成绩,优于GPT-4o(63.8%)和GPT-4o-mini(56.7%);
在MMMU测试中得分61.7%,超过GPT-4o-mini(60.0%)和Qwen2.5-VL-7B(58.6%);
在MathVision测试中达到36.8%,超越GPT-4o(30.4%)和Gemma-3-27B-IT(35.5%),甚至超过QVQ-72B(35.9%)。
值得注意的是,虽然在某些特定基准测试中略微落后于一些更大规模模型,但Kimi-VL-Thinking仅使用3B激活参数就取得了这些成绩——远少于其他竞争模型——凸显了其在多模态推理领域的高效性和有效性。
Kimi-VL-Thinking模型还表现出优异的测试时扩展特性,如图13所示。


具体来说,在推理阶段增加最大思考token长度能持续提升所有三个基准测试的准确率。例如,在MathVision测试中,准确率从1k token时的18.7%稳步上升到16k token时的36.8%;MMMU测试也呈现类似上升趋势,表明模型能够通过更长的推理链获得更优性能。
然而,不同基准测试从更长思考长度获益程度各异。在MathVista测试中,性能在早期就达到饱和,在4k token时准确率已达70.9%,之后即使token长度增加到16k,也未观察到显著提升。这表明对于该特定任务,必要的推理深度已在相对较短的上下文中得到充分体现,额外计算并不会带来进一步改进。
本研究介绍了Kimi-VL,这是一种采用平衡方法覆盖多模态和纯文本预训练/后训练的视觉-语言模型,基于MoE架构设计,实现了可扩展的效率。其128K扩展上下文窗口使模型能够在长文本和视频中进行精确内容检索,而原生分辨率编码器MoonViT则有助于在超高分辨率视觉任务中保持高准确率和低计算开销。
此外,Kimi-VL-Thinking增强了模型在复杂图像和视频分析中的Long-CoT推理能力。总体而言,Kimi-VL在多模态、长上下文和高分辨率任务处理方面表现出强大的适应性和效率,显示出其在未来研究和工业应用中的巨大潜力。
然而,Kimi-VL仍面临几个挑战:
- 尽管当前模型规模对许多标准任务已足够有效,但对于高度专业化或特定领域的问题,以及强烈依赖语言能力的复杂问题,其能力仍有限制,影响了处理极其复杂场景的能力。
- 虽然对典型应用场景的推理能力已经很强,但对于需要多步推理或更深入上下文理解的复杂任务,模型尚未发挥其理论潜力。
- 尽管提供了128K扩展上下文窗口,但由于注意力层中的参数有限(仅相当于3B模型水平),对于涉及极长序列或高密度上下文信息的某些高级应用,其长上下文处理能力仍然不足。
未来研究将通过扩大模型规模、扩展预训练数据和增强后训练算法来解决这些挑战。后续工作包括优化Kimi-VL并发布更大规模版本,以及完善后训练和测试时扩展机制,以开发更强大的思维推理模型。这些努力将为学术研究和工业领域的高级应用奠定基础。
*文章翻译到此结束,感谢同学们的认真阅读,如发现有错误或疑问请在评论区留言
*翻译辛苦,码字不易,如果感觉有收获,欢迎赞同/喜欢/收藏本文,并关注笔者~
Kimi-VL Technical Report
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/264853.html原文链接:https://javaforall.net
