
👦🏻 作者: 镜山
🥷 编辑: Kavana
🧑🎨 排版: NCon

6 月 30 日,百度正式开源文心大模型 4.5 系列,包括 10 款模型、预训练权重与推理代码,并同步发布配套工具与实践案例。
曾几何时,百度的开源策略曾引发讨论。因此,百度这次的开源动作在技术圈引发了不小的关注,目前在 X 和 Reddit 上出现了不少积极声音。
对此,「十字路口」从百度相关人士得到的回复是:
带着对这种「立场逆转」的好奇,「十字路口」团队也深入研究了这份技术报告,发现了几个值得关注的亮点。
ERNIE-4.5 系列一共开源了 10 个大模型。
这次开源的ERNIE 4.5系列的产品线更加明确,分为 3 块:2 个 0.3 B 系列;4 个 A3B 系列;4个A47B 系列,小中大杯都覆盖了。
其中的文本模型系列专门针对通用语言理解和生成能力进行了优化,让 AI 在处理日常对话、文本创作等任务时表现更好。而多模态模型系列则支持「思考模式」和「非思考模式」两种工作状态。
我们整理了一个清单,并做了可视化:

这些模型在多个文本和多模态基准测试中都达到了 SOTA 水平,比如在技术报告中介绍了ERNIE-4.5-Base 预训练模型的性能表现。在通用、推理、数学、知识、编程方面 Benchmark 上的表现都还不错:

在这篇长达 68 页的技术报告中,我们在文章底部发现了两个技术团队做的有趣的测试案例。他们给 ERNIE-4.5-VL 输入一段视频,用来检验模型的视觉理解和感知能力。
【1】让 ERNIE-4.5-VL 「看视频写文案」,用来将视频拆解为重要事件并简洁描述:
【2】让 ERNIE-4.5-VL 精准查找视频细节,用来检验模型准确定位并识别视频中特定事件:

从这个测试案例可以看出,ERNIE-4.5-VL 在理解图像和视频方面确实很不错,对视觉知识的深刻理解和感知能力和它在各项视觉能力测试中的表现,正好呼应上了。
比如,在视频理解和视觉感知的 Benchmark (LongVideoBench等基准测试)中,ERNIE-4.5-VL 的得分优势比较明显:

在官方技术博客里,ERNIE-4.5 在多项包含视觉感知、视觉知识以及文档图表理解能力的 Benchmark 中,像是 RealWorldQA、双语的MMBench ,它的表现甚至要超过闭源模型 OpenAI-o1:

ERNIE-4.5-VL 的视觉能力,很大程度上源于它采用了创新的「多模态异构混合专家(MoE)模型」架构,把处理文字和处理图像的训练合并到了一个模型里。
简单说,就是把处理文字和处理图像的「专家」放在同一个模型里,让它们既能合作又不会互相干扰。
为了避免文字和图像训练时互相影响,ERNIE 4.5设计了「异构 MoE」结构:既有共享的部分让不同类型信息能够交流,又有各自专门的「专家」负责处理特定内容。

这种架构最大的好处就是:AI 模型在学习的时候,同时接触文字和图片两种信息。就像一个人同时学习阅读和看图一样,这样训练出来的 AI 能更敏锐地察觉到不同信息之间的微妙区别。因此,它在理解文字、生成文字、看懂图片,以及把文字和图片联系起来思考这些任务上,都表现得更出色。
文字信息和视觉信息都能得到充分的「表达机会」。

我们曾在介绍 Agent 产品时,判断「多模态融合」将越来越重要,现在它已经从基础大模型的身上体现了出来。
在翻阅技术报告的过程中,我们发现 ERNIE 4.5 在「省资源」上又进步了不少。
从框架角度来看,ERNIE 4.5系列模型的是自家的飞桨框架。值得注意的是,AI 大模型「狂飙」的这些日子里,深度学习框架成了基础模型「大玩家」的必选项,各家几乎都在 All in。
几个月前飞桨 3.0 正式发布,这个深度学习框架能减少 Llama 预训练 80% 分布式核心代码开发,将 DeepSeek-R1 满血版单机部署吞吐提升一倍。
现在,我们在这份技术报告中也发现了飞桨的身影。
通过飞桨,ERNIE 4.5 模型在 2016 个NVIDIA H800 GPU 和 RoCE 互联的环境下 FLOPs 利用率(MFU)达到 47%。这些技术和配置使得 ERNIE 4.5 能够处理极其庞大的数据。
从模型架构角度看,技术团队几乎在所有方面都在想办法提高效率。
我们把这些复杂的技术全部可视化,并为每项技术都举了一个例子,方便理解。比如,下面这一套「异构混合并行」+「多层级负载均衡」的策略,就是提升预训练吞吐的重要框架:

为了实现这些「高效率化策略」,具体技术手段有四种:节点内专家并行、显存友好的流水线调度、FP8 混合精度训练和细粒度重计算。
每一种都在钻研提效:

在推理方面,技术团队提出了 2 种优化方法 —— 多专家并行协同量化方法、卷积编码量化算法。两套方案的共同目标都是:让训练好的 AI 模型在实际应用时反应更快,用户等待时间更短:

这样,模型甚至能做到效果接近无损的 4-bit 量化和 2-bit 量化:

此外,还有两个很有意思的优化,可以更加充分地利用资源:

总的来看,即使是参数最大的 ERNIE-4.5-A47B 模型,也能够在单个节点上部署。
具体来说,只需要 4 张 80GB 的 A800 或 H800 GPU(4-bit 精度),或者 1 块 141GB 的 H20 GPU(2-bit 精度)就够了。除了英伟达的 GPU 之外,ERNIE-4.5 也能通过飞桨部署到各种不同品牌的硬件平台中。
这意味着用户有更多硬件选择,部署起来也更加灵活。
最近我们还看到,多模态任务越来越重要。在不同场景下,AI 大模型处理图片、视频的能力往往决定了应用效果的好坏。
甚至出现了一种:底层的「多模态融合」直接决定了上层「应用建筑」能盖多高。如果想要进入到更广的应用场景里,基础大模型的多模态能力就显得非常重要。
面对这样的趋势,我们在技术报告中看到 ERNIE 4.5 选择根据不同任务需求,对模型进行「定制化的后训练」:

翻来覆去地阅读过后,我们发现,为了让模型在多模态方面表现更好,技术团队采用了多阶段优化。每个模型都要经过「多阶段后训练」。这就像模型毕业后再参加职业培训,专门学更实用、更精细的技能。
这里,主要用到了三种方法:SFT、DPO、UPO:

技术本身过于复杂,我们通俗点解释:
【1】SFT 就是给模型更多「正确答案」让它学习,提升准确性
【2】DPO 则是让模型学会「察言观色」,选择更符合用户喜好的回答方式
【3】UPO 可以理解为「全面集合」,它能够结合多种偏好优化技术,更全面地让模型贴合人类喜好和需求。
可以看出,在技术团队的眼中,多模态能力的重要性很高。因为它直接决定了 AI 基础模型能在多少场景下,真正帮到使用 LLM 构建应用的创业团队。
在介绍完 ERNIE 4.5 的模型技术之后,报告的后半部分特意提及了一些便于开发者使用的套件。
此次与 ERNIE 4.5系列(含MoE/稠密、多模态/纯文本的 10 款模型)本体一起开源的还有 2 个训练&部署工具链以及 API,再加上飞桨社区,可以说百度首度打通了「从下载到上线的体系」。
现在 ERNIE 4.5 全部模型(包括预训练、精调和推理代码)和项目已经在 Hugging Face 、GitHub、飞桨星河社区上线。
除了百度官方的文心一言,飞桨社区也可以直接进行对话测试。

比如,我们选择 ERNIE-4.5-300B-A47B 模型,可以在飞桨 Playground 中直接测试,支持各种参数调节:

【1】ERNIEKit 可以帮用户完整调教模型、做高效调优(就是用更少资源达到更好效果)。
【2】模型训练好后,可以直接用 FastDeploy 部署上线使用。
整个流程一气呵成,开发者不用再到处找工具拼凑了。

ERNIEKit 和 FastDeploy 很大地提升了开发部署效率,所有代码都可以在对应模型页面一键复制。
比如,用 ERNIEKit 做微调很简单,下载模型到本地,只需要复制一行代码:
运行 Erniekit 工具, 做 SFT(监督式微调):
在监督微调后,用DPO(偏好优化)来进一步对齐:
用 FastDeploy可以一键把模型部署成 HTTP API 服务,方便前端或应用直接调用。
比如,以 OpenAI API 接口启动 FastDeploy 推理服务的基本部署命令示例:
飞桨社区还有很多基于基础模型的应用项目和实践教程。
比如,我浏览旗舰多模 ERNIE-4.5-VL-424B-A47B 这个模型时,发现《从零构建智能行业应用: ERNIE+RAG+Agent 实战指南》系列教程已经更新到 2025 年 7 月 1 日版本,其中利用到的基础模型已经替换成了 ERNIE-4.5:


类似的应用和项目还有很多,可以按照我们下面做的这个可视化卡片查找:

当复杂的 AI 能力变成几行代码就能调用的「一键开发」,再加上这种「大礼包式」的开发工具包,这种转变让更多人有机会参与到 AI 应用的创造中来。
更多的想法得以落地,更多的可能性正在被释放。
期待今年在基础模型领域涌现更多这样的突破,「十字路口」也将继续关注并解读这些「有亮点」的技术报告。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/270235.html原文链接:https://javaforall.net
