文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

不知道大家关注到没?文心大模型 ERNIE 4.5 已开源并首发于 GitCode 平台!不同于以往的开源模型,百度这次一口气开源了 10 款模型,覆盖基础、对话、多模态、思考等多个方向,甚至将核心训练框架、分布式策略完全开放。在基准测试中,文心开源即刷榜,性能大幅超越​ ​​​Qwen3​、​DeepSeek-V3 等模型;下面跟随博主一起从模型架构特性、技术分析、部署难度等来对文心模型全面解析一下!

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

话不多说,先来看看大家最关心的问题?文心大模型这次开源的 10 款模型,它们都有哪些版本、聚焦什么方向、参数规模多大 ,下面咱们逐个来看!

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心大模型 ERNIE 4.5 开源本次主要分为3类、文本大语言模型、视觉语言模型、和小型密集模型。所的模型都支持128K的上下的上下文窗口,覆盖了基础、对话、多模态、思考等多个方向。

对于每个版本的文心模型官方都给出了两种版本,Base 基础版(预训练基础模型)和PT模型版本。

我这边建议大家部署的话通常去选择PT()模型,不仅因为PT模型他性能最佳,而且它对人类偏好进行了定向优化,能更好地适配各类下游任务场景。

视觉语言模型方面 Qwen2-VL 有 3B、7B 和 72B ,最达参数为720亿,而文心视觉语言模型的的参数达到了4240亿,活跃参数达470亿。均大于通义千问视觉语言模型的参数规模。

文心大模型开源除带来了各种各样的版本,在基准测试方面也是表现极佳,在多个文本和多模态数据集上取得了 SOTA 的性能,大幅超越​ ​​​Qwen3​、​DeepSeek-V3​ ​等模型。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

从上图我们可以看到文心 300B 的参数模型大幅超越了 ​ ​​​Qwen3​、​​​DeepSeek-V3​,​但规模只有 DeepSeek-V3 6710 亿参数的一半,可谓是相当强悍了。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

其中在ERNIE-4.5-21B-A3B 后训练模型,ERNIE-4.5-21B-A3B-Base 的参数量仅为210亿比Qwen3-30B 300亿参数更小,却在BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base。实现了效果和效率的双向平衡。

除此之外文心大模型本次开源全部按照Apache 2.0协议开源,这意味着我们不管是使用它进行学术研究,还是用在商用领域开发产业相关的应用项目,都完全没问题。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

而且百度这次不仅仅只是开源10款大模型而已,为了让所有开发者都能体验上的强悍性能。还开源了大模型高效部署套件​FastDeploy​,提供了一行代码开箱即用的多硬件部署体验,使用接口兼容vLLM和OpenAI协议。

在模型量化、对齐、LoRA精调等方面也无需担心。百度早已准备好了,开源了文心大模型开发套件​ERNIEKit​,提供预训练、全参精调(SFT)、直接偏好优化(DPO)、参数高效精调与对齐(SFT-LoRA/DPO-LoRA)、训练感知量化(QAT)和训练后量化(PTQ)等大模型全流程开发支持。

  • 帮助我们轻松部署及高性能推理文心大模型4.5开源系列模型。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

或许不少兄弟心里都犯嘀咕,为啥这次文心大模型 ERNIE 4.5 实力这么强劲?它不光在性能上超越 Qwen3、DeepSeek – V3,还在多个文本与多模态基准测试里达到 SOTA 水平​。

文心一言这一次性能达到SOTA水平,靠的可不是简单粗暴的参数堆砌。而是对整个架构都更新换代了,设计了一个很巧妙的多模异构结构。于传统的 模型不同,ERNIE 4.5使用了一种新的异构结构模态结构,它支持跨模态的参数共享,包括自注意力参数共享和专家参数共享,同时还允许为每个单独的模态提供专用参数。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

注意这可不是简单的“拉通共享”的粗暴拼接就能实现的,而是文本和视觉各有专属专家。为其各自的特征量身定制的不同专家组,从而减少跨模态干扰。让文字与视觉精准分工、各行其道,实现互不干扰的协同运作。

同时MoE(混合专家模型)的文本和视觉标记都会经过共享专家处理,其输出与文本专家、视觉专家的输出相加,共同构成 MoE 层的最终输出,从而促进模态间知识融合,让模型在多模态任务中表现更优。

彻底保证了既不互相干扰,又能互相增强,催生出 1+1 远大于 2 的协同效能。

在大规模多模态 MoE 架构中,文本、图像等不同模态的信息数据结构与处理逻辑差异显著。分布式训练时,会导致专家负载不均衡、模态间数据交互不畅、资源分配失衡、利用率低甚至模型收敛困难等问题。

为此,文心 ERNIE 4.5 引入了一种异构并行策略,以实现高效的联合训练。此外,还提出了一种分层负载均衡方法,用于提高可变分辨率训练的扩展效率。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在异构并行策略引入了 FP8 混合精度训练框架和容错系统,对内存、通信、计算开销进行优化。文心最大 的ERNIE 4.5 语言模型采用了 8 路专家并行 (EP)、12 路管道并行 (PP)和 ZeRO-1 数据并行 (DP)配置。

通过以上全面优化,实现了 47% 的模型 FLOPs 利用率 (MFU),比DeepSeek的 FLOPs 利用率还高。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在层负载均衡策略这边采用了,粗粒度负载均衡和细粒度动态均衡分区, 对 ViT 编码器数据并行组令牌计数,借循环分区算法分发打包序列,实现粗粒度负载平衡;再在 attention 算子内外执行动态分区,进一步均衡负载 。

通过这次的分层负载均衡策略,计算、内存和通信的资源利用效率得到了显著提高。与没有负载均衡的基线方法相比,ERNIE-4.5-VL424B-A47B-Base 在端到端多模态训练中实现了高达 32% 的整体性能升。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心4.5还引入了一种模态感知专家分配策略,其中视觉专家仅包含文本专家的三分之一参数,从而提高了视觉信息处理的效率。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

并且对特定的模态的训练策略进行微调,对每个模型采用SFT(监督微调), DPO(直接偏好优化)通过用户偏好直接优化模型输出,让用户更喜欢模型的回答, UPO(统一偏好优化)使模型在多任务场景,能同时兼顾用户的多种偏好,来满足实际应用的不同要求。

推理和部署方面,文心4.5的技术依旧很猛,为了进一步提高推理效率并支持更广泛的硬件,不仅提供 BF16 和 FP8 推理功能,还提供各种低精度推理选项。支持4bit 和2bit的“极限压缩”,但压缩不损效果,还能做动态切换和并行加速。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

也是说只要有一个 141GB的显存环境,就可以部署 2 位 ERNIE-4.5-300BA47B 的超大模型了,也就是俩张A100就满足要求了(80GB)大大降低了 ERNIE 4.5 的准入门槛。而同级别的 ​ ​​​Qwen3​、​DeepSeek-V3​ ​等模型所需要的显存远远不止这个数。

经过前面的细致介绍与深度解读,相信各位铁铁对文心 4.5 已构建起全面清晰的认知。面对这款性能强悍的大模型,想必大家早已按捺不住实战部署的热切期待 —— 话不多说,接下来就让我们直接踏入部署实战的环节。

3.1.1 环境选择

再部署之前我们先看下简单ERNIE不同系列模型对于配置的要求

模型名称 上下文长度 量化方式 最低部署资源 说明 ERNIE-4.5-0.3B 32K/128K BF16 1块6G/12G显存GPU / 2G内存 – ERNIE-4.5-21B-A3B-Paddle 32K/128K WINT8 1块48G显存GPU / 128G内存 128K长度需启用分块预填充 ERNIE-4.5-VL-28B-A3B-Paddle 32K/128K WINT8 1块48G显存GPU / 128G内存 需启用分块预填充 ERNIE-4.5-300B-A47B-Paddle 32K/128K WINT4 4块64G显存GPU / 600G内存 128K长度 ERNIE-4.5-VL-424B-A47B-Paddle 32K/128K WINT2 1块141G显存GPU / 1T内存 128K长度需启用分块预填充

以上就是部分文心模型对显存的要求 ,从配置要求可以看出,文心大模型的 0.3B 轻量版本仅需一张 40 系显卡即可流畅运行。
本次实战部署,我们特意选择了ERNIE-4.5-VL-28B-A3B-PT这一型号作为轻量级模型中的代表性选择,在模型性能、多模态理解与生成、应用场景等方面有出色表现,并且对中文的语义理解和文化背景知识的把握更精准,具备广泛的应用适配性,当前主流算力平台也能够轻松适配,非常适合实战体验。

  • 对于本地部署百度提供了FastDeploy一键部署工具,FastDeploy 是基于 PaddlePaddle 的大型语言模型和可视化语言模型的推理部署工具包。它提供具有核心加速技术的生产就绪型开箱即用部署的解决方案。

以下是对基于NVIDIA CUDA GPU 安装FastDeploy,需要满足以下环境

依赖项 版本要求 GPU驱动程序 ≥535 CUDA ≥12.3 CUDNN ≥9.5 Python ≥3.10 Linux X86_64架构
3.1.2 环境准备

ERNIE-4.5-VL-28B-A3B-PT对于本地部署还是需要较强的硬件资源的,一般本机的配置不足以进行搭建与测试。博主这边也是给大家租了一台A100显卡的配置来给大家实测一下。(ps现在市面上已经有很多算力平台提供算力服务,适用于各种AI深度学习、高性能计算、渲染测绘、云游戏等算力租用各种场景,大家随便选择就好)

  • 这里我们直接选择PyToch镜像,可以看到预装了很多环境基本不需要自己配置,我们选择满足部署FastDeploy启动的环境就够了。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

  • ① 创建云实例成功后,有两种方式可连接实例:一是通过 SSH 密钥连接,二是借助 JupyterLab 可视化工具连接(推荐使用这种更便捷的方式 )。
  • ② 点击进入JupyterLab可视化的工具的终端进入工作空间控制台

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

然后我们选择用python创建虚拟空间,主要是来保持保持系统环境清洁和隔离项目依赖

  • ① 避免我们后续操作出现环境上的报错问题,确保依赖互不干扰
  • ② 如果不用虚拟环境我们就肯会出现下面的报错

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

把下面命令复制粘贴输入到控制终端即可


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


libgomp1 是 GNU OpenMP 库的一部分,用于支持程序中的 并行计算(多线程并行处理),在后面我们启动服务是需要依赖 libgomp1 来实现并行计算加速。


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

因为FastDeploy 的部分核心功能(如模型解析、推理引擎适配)直接依赖 PaddlePaddle 的底层库,未安装 Paddle的话,FastDeploy 将无法正确加载和运行 Paddle 模型来以提供 CUDA/CUDNN 等 GPU 加速所需的依赖。所以我们先安装一下

  • ① 在这里我们一定要根据自己显卡厂商和CUDA的版本来选择安装命令,否则导致依赖冲突
  • :【一键直达:查看安装信息】

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式
文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

安装好了我们可以使用一下代码检测一下,如果没问题那么就证明可以下一步了

  • vi check.py 用vim编辑器创建一个python文件,把代码复制进去
  • python check.py 运行代码查看信息

这边可以看命令运行完之后,显示paddlepaddle-gpu 安装成功,现在就开始使用 PaddlePaddle 进行深度学习吧。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

下载完 工具我们就可以一键启动我们的 了。

  • ① 在下载时我们要注意使用自己CPU架构对应的版本来安装下载,不然就会启动失败
  • ② fastdeploy的安装手册: 【一键直达】

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

我们本次显卡是A100所以直接选择对应版本的命令下载就好了

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

看到下面这种就是成功安装了 fastdeploy

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

安装完成后,再次运行以下命令,确认输出为 True 和 gpu,如果输出结果为False cpu 表示这意味着 PaddlePaddle 没有使用 CUDA 编译,只能在 CPU 上运行。

  • 需要重新安装 paddlepaddle-gpu:3.1.0

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

3.1.2 模型下载与配置

以上运行模型需要的环境就全部搭建好,其实整个过程还是非常简单了只需要输入几行命令5分钟就可以快速部署起来了,下面我们去 拉取 开源项目来一键部署

  • 文心大模型4.5系列开源模型: https://ai.gitcode.com/theme/

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

ERNIE-4.5-VL-28B-A3B-PT开源地址:https://gitcode.com/paddlepaddle/ERNIE-4.5-VL-28B-A3B-PT

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

为了避免大模型后续启动解析主机名(或获取本机 IP)时,DNS 解析失败。使用我们这里修改一下主机的配置来让主机名与本机 IP 的映射。


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

3.1.3 部署与测试

由于这是 280 亿参数的大模型,部署需要一定时间,我们稍微等待 5 分钟左右即可。当下方显示 8180 端口启动时,咱们的大模型就部署完成了。

  • 服务启动了一定要注意,不要Ctrl+C退出连接,否则服务会停止,API也无法访问了。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


这里可以看到咱们端口连接没问题,服务完美启动了

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

首先我们需要下载一个requests 库发送 HTTP 请求


文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式


这里我给大家准备了一个python的大模型交互程序来方便我们进行和大模型交互,把下面代码复制进test文件


启动python 文件

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

问题:9.11和9.9哪个更大?

  • 这个问题详细大家都不陌生吧,连chatGPT遇到了都互犯傻的简单问题!国内很多模型都回答不出来我们来看看ERNIE-4.5-VL-28B-A3B-PT 的推理能力如何

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

从实际测试来看,文心 ERNIE-4.5-28B 版本的推理能力表现稳健,对比多数同级别模型优势明显。不过受限于终端交互体验的局限性,这里暂不展开更多测试内容。本次环节主要是带大家初步感知模型的基础能力,更全面、深入的对比评测将在下文详细呈现。

3.2.1 部署时间成本

文心ERNIE-4.5不同版本的模型博主也去实际测试部署了一下,整个部署流程通过fastdeploy部署工具其实很简单几分钟就搞定,其中部署的大部分时间都是在等待模型启动毕竟参数也是 280亿的大模型,部署时间肯定是要比稠密型模型要时间长。

模型型号 显卡型号 部署时长 ERNIE-4.5-0.3B-Paddle 4090 实测7分钟左右 ERNIE-4.5-21B-A3B-PT A800 实测16分钟半 ERNIE-4.5-VL-28B-A3B-PT A100 实测22分钟

整体来说文心文心ERNIE-4.5部署时间成本很低,通过fastdeploy部署工具10几分钟就能完成一个轻量级大模型的部署使用。

3.3.1 技术门槛要求

从上面的部署测试全过程不难看出,百度文心 4.5 的部署技术门槛已降至中等偏下水平。通过百度FastDeploy 部署工具的深度优化 —— 整个部署流程被高度简化,开发者无需复杂配置,只需输入预设命令即可实现模型的一键启动,极大降低了操作难度。这种 “轻量化” 的部署体验,让更多开发者能轻松跨越技术壁垒,快速上手文心开源模型的落地应用。

不同层次开发者的部署难度

  • 有深度学习基础的开发者:熟悉虚拟环境配置、依赖管理及模型部署流程的用户,可直接参照 GitCode 仓库的官方文档和命令示例,按照步骤执行部署命令,通常能在半小时内完成服务启动,过程顺畅度较高。
  • 对于新手开发者而言: 尽管可能面临环境配置(如 CUDA 版本不兼容、依赖安装失败)或命令行操作不熟练等问题,但通过查阅部署文档、百度飞桨开发者社区, CSDN 等技术论坛的资料,小白也可轻松部署。整体而言,工具的 “一键部署” 特性已大幅降低技术壁垒,新手通过 1-2 小时的学习和调试即可完成部署,技术门槛处于中等水平
3.3.2 常见问题及解决办法(选看)

在部署过程中最容易出现的就是依赖冲突问题,容易导致各种报错。对于这种报错只需要配置启动虚拟空间就可以完美解决依赖冲突问题

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

此报错核心是 主机名无法解析为 IP,优先检查 /etc/hosts 配置和主机名解析命令

  • 然后对主机名和ip进行映射即可解决
  • hostname 查询出主机名 然后 vim /etc/host 进行修改映射关系

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

这个报错主要的原因是,系统缺少 PaddlePaddle 运行所需的共享库文件libgomp.so.1

  • 只需要pip 安装即可: apt update && apt install -y libgomp1 libssl-dev zlib1g-dev

上面部署大模型的时候也给大家做了一些简单的评测,不过由于终端的交互性不怎么好,如果对比大模型的话展现也麻烦。所以这里使用文心千帆平台来调用api ,用UI交互的方式,对比文心ERNIE-4.5与同级别的大模型究竟谁强谁弱?

模型名称 参数

文心一言 ERNIE Bot 教程

是否多模态 ERNIE-4.5-28B-VL-A3B 280亿 是(含视觉 – 语言多模态能力 ) Qwen2.5-VL-32b 320 亿 是(含视觉 – 语言多模态能力 ) DeepSeek-VL2 161 亿 是(含视觉 – 语言多模态能力 )

每次评分的机制为, 这三个核心方面分别体现了大模型响应效率,处理时长,和推理能力。

模型名称 最优 中等 最差 首Token 3 2 1 总耗时 3 2 1 正确性 (正确4分) (酌情给分) (错误 0分)

为了测试大模型的基础通识能力,我给各位大模型准备了 3 道题,这些题可是业内公认的大模型处理难题,看看各位模型面对它们时,到底能交出怎样的答卷,比比谁更厉害

问题1:9.11和9.9哪个更大?

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

通过测试大家可以看到ERNIE-4.5-28B-VL-A3B在本轮表现不错,不仅耗时最快,而且答案也正确,其次是 DeepSeek-VL2响应也很快,但是推理方面有点问题,答案是错误的。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.91s 2.01s 正确 9 Qwen2.5-VL-32b 1.45s 8.92s 正确 5 DeepSeek-VL2-Small 1.33s 2.01s 错误 5

问题2:单词Strawberry里有几个r?

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

这里Qwen2.5的响应时间更短,但耗时方面ERNIE-4.5更优俩个模型不分上下,DeepSeek-VL2依旧是推理有些问题。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.73s 1.24s 正确 8 Qwen2.5-VL-32b 0.43s 3.9s 正确 8 DeepSeek-VL2 1.46s 1.46s 错误 2

问题3:请给出10句以樱桃俩字为结尾的句子。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

这道题只有ERNIE-4.5全部都答对了,Qwen对了一个这里给他算的一分,DeepSeek对了2个算2分。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.85s 3.85s 正确 9 Qwen2.5-VL-32b 0.45s 7.68s 一个正确 5 DeepSeek-VL2 2.01s 4.57s 俩个正确 5

在本次基础通识测试,可以明显看到 的模型是比 要强出不少的,所以基础通识测试冠军给到 这边,下面我们看看其他测试。

模型名称 总分 ERNIE-4.5-28B-VL-A3B 9+8+9=26 Qwen2.5-VL-32b 5+8+5=18 DeepSeek-VL2 5+2+5=12

这里同样是使用3个推理问题来考验一下3个大模型的推理能力怎么样

问题1:一个弹珠被放到红酒杯里,然后将这个红酒杯在桌子上倒过来,然后将红酒杯拿起来放到冰箱里。请问弹珠现在在哪?

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在这个问题里ERNIE-4.5并没有给出准确答案,而是向我们索要更多信息后再推理所以酌情给分1分。DeepSeek-VL2就有些逻辑混乱了回答弹珠在杯子顶部。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.44s 4.94s 未给出答案 6 Qwen2.5-VL-32b 0.84s 11.7s 正确 8 DeepSeek-VL2 2.36s 4.94s 错误 4

问题2: 如果晾干5件衬衫需要4小时,那么晾干20件衬衫需要多久?

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

这一题我们主要是测试大模型的是否能推理出晾干是一个并行事件,来考验一下推理能力。

  • 在本次测试中每个大模型都给出了正确答案非常不错
  • DeepSeek-VL2在本次也是支棱起来耗时最短拿下第一
模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.14s 6.04s 正确 8 Qwen2.5-VL-32b 0.55s 11.7s 正确 8 DeepSeek-VL2 1.4s 1.4s 正确 9

问题3:一个房间里有三个杀人犯,有一个人进来后锁死房门,然后杀了其中一个杀人犯,那现在房间里还剩下多少个杀人犯?

  • 正确答案: 还剩3个杀人犯

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在本次测试中ERNIE-4.5并没有给出正确答案,而是继续索要信息。而Qwen2.5给我们爆来惊喜是唯一 一个回答正确的。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.83s 5.55s 未给出答案 6 Qwen2.5-VL-32b 1.17s 10.92s 正确 7 DeepSeek-VL2 1.5s 1.5s 错误 4

在本次推理测试中,Qwen2.5 是我们得分最高的模型。总分为 20 分的模型只有两个,分别是 Qwen2.5 和 ERNIE-4.5(文心 4.5)。文心 4.5 在参数少了 110 亿的情况下还能达到这样的效果,也是挺不错的。

模型名称 总分 ERNIE-4.5-28B-VL-A3B 6+8+6=20 Qwen2.5-VL-32b 8+8+7=23 DeepSeek-VL2 4+9+4=17

既然本次测评聚焦于多模态模型,自然不能仅局限于文本能力的考验。接下来,我们将重点转向视觉能力的测试,看看这些大模型在图像识别等视觉任务中的表现究竟如何?

问题1:识别其中动物是什么动物?

  • 答案:狐狸

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式
文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

这里每个大模型都给出了正确答案,DeepSeek总耗时最快。但答案也很简洁,而 ERNIE-4.5和Qwen2.5都对图像做了更精准的描述图像分析能力更强一些。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 2.97s 3.51s 正确 7 Qwen2.5-VL-32b 1.8s 3.82s 正确 8 DeepSeek-VL2 2.12s 2.12s 正确 9

下面我们来一个复杂一点的场景和问题,来看看每个模型会不会在图像识别上出现幻觉?

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

问题:图中一共有多少辆车?按从上到下,从左到右排号依次说出每辆车的颜色。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在本次测试中可以看到文心 4.5 完美的完成了我们的任务并且给出的信息更加详细。而Qwen和DeepSeek 俩个人推理没问题但好像都出现了幻觉给我脑补了一台车太奇怪了。

模型名称 首Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.04s 2.36s 正确 9 Qwen2.5-VL-32b 0.62s 3.63s 错误 4 DeepSeek-VL2 1.86s 2.48s 错误 3

综合两项任务表现,ERNIE-4.5-28B-VL-A3B 以 “双任务全正确、细节分析到位、响应效率均衡” 的优异成绩,在本次视觉能力测试中脱颖而出,成功斩获视觉能力冠军;而 Qwen2.5-VL-32b 和 DeepSeek-VL2 则在复杂场景的准确性上暴露出不足,需在多模态推理的严谨性上进一步优化。

模型名称 总分 ERNIE-4.5-28B-VL-A3B 7+9=16 Qwen2.5-VL-32b 8+4=12 DeepSeek-VL2 9+3=12

在代码这部分我们也来进行测试一下看看3个大模型的代码能力怎么样?本次也选取了一个比较有难度的代码任务,为了更好的展示效果我们选择生成单个html文件,方便网页直接打开查看。

  • 得分点:需要时针分针秒针 ,且时间显示正确,
    时钟位置在页面中央,背景颜色为
    只能使用 文件创建。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

通过GIF相信各种都看到各个大模型的代码能力了。我们先从生成代码能力来分析一下, ERNIE-4.5-28B是本次给出的代码最全最完善大模型,其次是Qwen2.5-VL-32b的代码能力也还不错但是响应速度明显不如ERNIE-4.5-28B。

  • DeepSeek-VL2 在本次任务中完成很快,但是生成的内容很少一看就不足以完成本次代码任务。
模型名称 首Token 总耗时 ERNIE-4.5-28B-VL-A3B 0.43s 14.94s Qwen2.5-VL-32b 0.47s 43.67s DeepSeek-VL2 1.2s 7.08s

下面我们依次下载了3个大模型生成的html文档打开看一下效果,可以看到ERNIE-4.5-28B虽然中心点有些小瑕疵但是整体效果都符合要求,背景时间中心点指针都满足要求了。

  • 而 Qwen2.5-VL-32b的中心点就没满足要求了,指针都糊在一起了,背景符合我们的要求
  • DeepSeek-VL2 的代码生成的太简短了,所以结果也如我们所料一塌糊涂。

上面的代码要求确实是有些难度,下面我为3个模型又准备一个简单点的题目来区分这3个模型在代码编程下的能力。

问题2:一个HTML网页,上面有个按钮,每次摁下就会随机生成一个随机数,同时这个按钮需要更换一个随机颜色。请使用单个html文件。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

在这道题目的的实测中我们可以看到 ERNIE-4.5-28B 在本次生成代码速度中依旧是遥遥领先Qwen 和 DeepSeek 最先完成本次任务。

模型名称 首Token 总耗时 ERNIE-4.5-28B-VL-A3B 0.44s 11.61s Qwen2.5-VL-32b 0.28s 17s DeepSeek-VL2 1.23s 10.31s

下面我们还是依次下载了每个模型生成的代码,可以看到 ERNIE-4.5-28B 的效果可以说实现的非常完美了,完全按照我们的要求来完成的,没有其他任何多于的。

  • 在这里也是完成了基础功能的实现,总体来说Qwen 的效果是比DeepSeek的展示更好一些的

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

本次我们通过围绕基础通识、高级推理、视觉能力和代码编程四大核心维度,对 ERNIE-4.5-28B-VL-A3B、Qwen2.5-VL-32b、DeepSeek-VL2 三款多模态模型进行了全方位测试。通过 11 项细分任务的综合表现,各模型的优势与短板清晰呈现

  • 在基础通识、视觉能力和代码编程上都稳坐冠军,虽然高级推理 20 分稍逊,但全维度无明显短板,综合表现最优。
  • 高级推理 23 分夺冠,部分任务响应速度快。但基础通识 18 分、视觉能力 12 分表现一般,存在多模态 “幻觉” 和代码细节缺陷。
  • 各项得分均垫底,基础通识 12 分、高级推理 17 分、视觉能力 12 分,代码生成简略且功能缺失多。仅单题耗时偶有亮点,需在基础能力和推理机制上迭代优化。
模型名称 基础通识 高级推理 视觉能力 代码编程 综合表现 ERNIE-4.5-28B-VL-A3B 26 20 16 优 🌟🌟🌟🌟🌟 Qwen2.5-VL-32b 18 23 12 良 🌟🌟🌟🌟 DeepSeek-VL2 12 17 12 中 🌟🌟🌟

总体而言,ERNIE-4.5-28B-VL-A3B凭借全面且稳定的表现,成为本次多模态模型评测中最值得信赖的选择。

文心 ERNIE-4.5 的开源不仅给我们带来了高性能模型,更构建了从训练到部署的完整生态体系。通过 GitCode 开源平台的开放协作模式,开发者可直接获取模型代码。利用百度提供的 ERNIEKit 开发套件和 FastDeploy 部署工具即可轻松完成模型部署,大幅降低技术门槛,为模型精调、量化优化、多硬件适配提供全流程支持。

在社区生态层面,飞桨星河社区上线短短几天便吸引了大批开发者入驻。在这里,开发者既能发现众多优质有趣的开源项目,还能通过社区提供的服务 “一键运行” 项目直接体验项目效果;同时,也可以自主开源个人项目,吸引广大开发者参与协作开发,一起完善开源项目。

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

未来,我相信文心 ERNIE-4.5 凭借卓越的模型性能、完善的开发套件与部署工具链、活跃的社区生态氛围以及全面的技术文档支持,必将吸引大批开发者与企业用户投身其中,共同推动文心开源大模型的社区生态走向繁荣。

本次对文心 ERNIE-4.5 开源模型的深度剖析到这里就告一段落了。我们从模型特性解读、技术架构分析、部署实践指南、到全方位对比评测,已系统呈现了其核心能力与优势。相信大家对文心 ERNIE-4.5 的实力已有清晰认知,无需过多赘述。对这款模型感兴趣的开发者,不妨一键点击文末 GitCode 链接,开启属于你的部署体验之旅吧!

  • 😀一起来轻松玩转文心大模型吧!🎉🎉🎉
  • 📌文心大模型免费下载地址: https://ai.gitcode.com/theme/

以下是博主在本次评测梳理的 ERNIE-4.5 开源生态核心资源合集,涵盖代码仓库、部署配置规范、技术白皮书及开发工具包等关键内容,希望能为各位对 感兴趣的开发者提供帮助。

资源名称 链接 ERNIE4.5 GitCode 开源仓库 【一键直达】 ERNIE4.5 部署配置要求 【一键直达】 Paddlepaddle-gpu官方文档 【一键直达】 FastDeploy部署说明 【一键直达】 ERNIE4.5技术文档 【一键直达】 ERNIE 开发工具包 【一键直达】 飞桨星河社区 【一键直达】

文章来源于互联网:文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/269660.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午3:56
下一篇 2026年3月12日 下午3:56


相关推荐

关注全栈程序员社区公众号