文心一言4.5开源部署指南及文学领域测评

文心一言4.5开源部署指南及文学领域测评

文心一言4.5开源部署指南及文学领域测评

  📝个人主页:

期待您的关注 

文心一言4.5开源部署指南及文学领域测评

目录

一、引言

二、文心一言开源模型

2.1 MoE架构

文心一言 ERNIE Bot 教程

2.2 文心一言MoE架构 

三、文心一言稠密模型部署

3.1 产品选择

3.2 环境选择

3.3 Python3.12安装

3.3 PaddlePaddle-GPU安装

 3.4 FastDeploy-GPU安装

​编辑3.5 模型部署

四、模型测试

4.1 文心一言4.5基础请求测试

​编辑

4.2 文心一言4.5多次请求测试

4.3 让文心一言4.5自己想一些测试方向

4.4 中文处理和生成测评 

4.4.1 文学文本理解能力(基础核心)

4.4.2 文学知识储备(专业基础)

4.4.3 文学创作能力(核心应用)

 五、测试总结


文心一言(ERNIE Bot)是百度推出的人工智能大语言模型,它基于飞桨平台和文心知识增强技术,具备文本处理、AI 绘画等功能,能应用于创作、数据分析、代码生成等多个场景,支持 PC、APP 及 API 接入等使用方式,用户规模庞大,生态不断扩展,不同版本在性能上各有提升,满足不同需求。

2025年6月30日,百度做出了一件具有里程碑意义的事情:开源文心一言大模型,这一举措旨在构建更加繁荣的开发者生态系统。此举不仅在行业内引发了广泛关注,也标志着中国AI市场竞争格局的重大变化。百度的这一战略转变,可能会推动整个行业从性能竞争逐步转向价格战,总体来说,文心一言的开源将来可能会推动AI行业的发展。

文心一言4.5开源部署指南及文学领域测评

 这一决策将打破AI技术壁垒,让AI社区开发者可以更加直观的了解到文心一言大模型的架构设计和运行机制,对于中小型AI相关企业来说,这是一个足以推动企业快速发展的决策。

文心4.5系列开源模型共10款,涵盖了激活参数规模分别为47B和3B的混合专家(MoE)模型(最大的模型总参数量为424B),以及0.3B的稠密参数模型。

文心一言4.5开源部署指南及文学领域测评

 开源模型分为两类:MoE模型以及稠密型模型。

混合专家模型(Mixed Expert Models,简称 MoEs) ,最早是随着 Mixtral 8x7B 的推出而逐渐引起人们的广泛关注。这个概念与集成学习方法相似,旨在为由多个单独网络组成的系统建立一个监管机制。在这种系统中,每个网络 (被称为“专家”) 处理训练样本的不同子集,专注于输入空间的特定区域。

混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。MoE的核心思想用多个 “专家网络(FFNN 1~4)”+“路由器(Router)” 替代传统的单一大 FFNN,让 不同输入由最擅长的 “专家” 处理,实现 “分工协作”。

文心一言4.5开源部署指南及文学领域测评

文心一言4.5开源部署指南及文学领域测评

针对 MoE 架构,文心一言提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。此架构非常适用于从大语言模型向多模态模型的持续预训练范式,在保持甚至提升文本任务性能的基础上,显著增强多模态理解能力。

文心一言4.5开源部署指南及文学领域测评

来看一下官方对于文心一言MoE架构的解释。

多模态混合专家模型预训练 

文心4.5通过在文本和视觉两种模态上进行联合训练,更好地捕捉多模态信息中的细微差别,提升在文本生成、图像理解以及多模态推理等任务中的表现。为了让两种模态学习时互相提升,我们提出了一种多模态异构混合专家模型结构,结合了多维旋转位置编码,并且在损失函数计算时,增强了不同专家间的正交性,同时对不同模态间的词元进行平衡优化,达到多模态相互促进提升的目的。

高效训练推理框架

为了支持文心4.5模型的高效训练,我们提出了异构混合并行和多层级负载均衡策略。通过节点内专家并行、显存友好的流水线调度、FP8混合精度训练和细粒度重计算等多项技术,显著提升了预训练吞吐。推理方面,我们提出了多专家并行协同量化方法和卷积编码量化算法,实现了效果接近无损的4-bit量化和2-bit量化。此外,我们还实现了动态角色转换的预填充、解码分离部署技术,可以更充分地利用资源,提升文心4.5 MoE模型的推理性能。基于飞桨框架,文心4.5在多种硬件平台均表现出优异的推理性能。

针对模态的后训练

为了满足实际场景的不同要求,我们对预训练模型进行了针对模态的精调。其中,大语言模型针对通用语言理解和生成进行了优化,多模态大模型侧重于视觉语言理解,支持思考和非思考模式。每个模型采用了SFT、DPO或UPO(UnifiedPreferenceOptimization,统一偏好优化技术)的多阶段后训练。

我理解的文心一言MoE架构设计: 

对比项 传统 Transformer decoder 的 MoE ERNIE 多模态异构 MoE 目标 优化单模态文本任务的效率 构建多模态融合能力,兼容文本 + 图像等 结构复杂度 局部模块替换(单流) 多流分支 + 跨模态共享(复杂系统) 处理模态 纯文本 文本 + 图像(多模态) 训练重点 文本预训练 多阶段(文本→多模态→任务微调)+ 持续学习 典型应用 文本生成、对话(单模态) 图文检索、图像描述、多模态问答(跨模态)

文心4.5系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型FLOPs利用率(MFU)达到47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。模型权重按照Apache 2.0协议开源,支持开展学术研究和产业应用。此外,基于飞桨提供开源的产业级开发套件,广泛兼容多种芯片,降低后训练和部署门槛。 

文心一言4.5开源部署指南及文学领域测评

为方便个人学习,博主部署了 “paddlepaddle/ERNIE-4.5-0.3B-Paddle”模型,这里记录一下部署的流程,详细的模型请参考网站:https://ai.gitcode.com/theme/?pId=3037

个人学习上,我采购了一张4090卡进行部署,具体配置如下。

硬件信息 详情 GPU 型号 NVIDIA – GeForce – RTX – 4090 显存 24GB 最高支持 CUDA 版本 12.4 CPU 核心数 11 核 内存 123GB
组件 版本 操作系统 Ubuntu 22.04 CUDA 驱动 12.0 Python 3.12.11 PaddlePaddle 2.6.0 FastDeploy 1.1.0

我在这里选购了一台包含CUDA驱动的服务器,现在的价格不贵,有活动优惠,0.99/h,感兴趣可以自行了解一下,丹摩DAMODEL|让AI开发更简单!算力租赁上丹摩!

文心一言4.5开源部署指南及文学领域测评

 在选择镜像时,直接选择现有的镜像,这里我踩过坑,选择基础的ubuntu部署会有很多错误。

文心一言4.5开源部署指南及文学领域测评

采购好后可通过SSH方式登录服务器。

文心一言4.5开源部署指南及文学领域测评 现在来配置部署所需环境。

安装python3.12之前,首先执行指令更新核心依赖否则会报错。


文心一言4.5开源部署指南及文学领域测评


 安装完成。

文心一言4.5开源部署指南及文学领域测评

由于下方还有不少踩坑的点,这里还需要再去安装一些其他东西。因为我们的环境中是有python3.10的。


参考PaddlePaddle官方命令,我们这里安装适配CUDA12.6版本的PaddlePaddle-GPU。文心一言4.5开源部署指南及文学领域测评


文心一言4.5开源部署指南及文学领域测评

输入代码验证 。


出现下方输出证明我们成功的安装了适配当前CUDA版本的PaddlePaddle-GPU。文心一言4.5开源部署指南及文学领域测评

官方给出的安装流程要区别于GPU的架构,不同架构的GPU有不同的安装指令。

For SM80/90 architecture GPUs(e.g A30/A100/H100/):


For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):


 在这里我们输入下方指令安装。


输入下方的命令,当页面中出现端口证明我们成功的部署了模型


文心一言4.5开源部署指南及文学领域测评

首先对于文心一言进行基础的请求测试,看看文心一言会不会正常的返回数据给我们。

来看一个典型的逻辑问题吧,3.11和3.8哪个大。


哈哈,从结果来看文心一言确实给出了答案,不过是错误的,因为我部署的是参数最小的模型,可以理解。基本的沟通是没有问题的

现在让我们调整代码,连续问答。


文心一言4.5开源部署指南及文学领域测评

 可以,连续问答的功能都有。不过我部署的是小参数模型,这些不重要。

我们在官方访问AI时,有时候我们连续询问AI问题,AI的回复会有卡顿,现在我们模拟多次请求测试,检测文心一言模型的回答情况。这里准备了多个问题。



 针对于给出的测评思路,我们主要在中文处理方向进行测评。

文心一言4.5开源部署指南及文学领域测评

4.4.1 文学文本理解能力(基础核心)

测试案例 问题示例 预期能力 经典小说细节理解 「《红楼梦》中,黛玉葬花时所葬的花主要是什么品种?这一行为与她的人物性格有何关联?」 准确提取文本细节(桃花为主),并关联人物悲剧性特质(敏感、孤傲、对美好事物易逝的感伤)。 诗歌隐喻解读 「分析李商隐《锦瑟》中『庄生晓梦迷蝴蝶,望帝春心托杜鹃』两句的隐喻意义,涉及哪些典故?」 识别庄周梦蝶(虚实难辨的人生困惑)、望帝化鹃(哀情寄托)的典故,解读诗人对逝去时光与情感的怅惘。 叙事结构分析 「莫言《红高粱家族》采用『非线性叙事』,请举例说明这种结构如何增强作品的历史厚重感?」 结合具体章节(如过去与现在的时空交错),分析碎片化叙事对展现家族记忆、战争创伤的强化作用。

文心一言4.5开源部署指南及文学领域测评

文心一言4.5开源部署指南及文学领域测评文心一言4.5开源部署指南及文学领域测评

从结果来看,对文学有一定的理解。

4.4.2 文学知识储备(专业基础)

测试案例 问题示例 预期能力 作家与代表作匹配 「下列作家与其代表作对应错误的是哪一项?A. 卡夫卡 -《变形记》 B. 沈从文 -《边城》 C. 卡尔维诺 -《百年孤独》 D. 铁凝 -《哦,香雪》」 准确识别错误项(C,《百年孤独》作者是马尔克斯),并补充其他选项的正确关联。 文学流派特征 「什么是『魔幻现实主义』?除了《百年孤独》,再列举 3 部该流派的拉美文学作品。」 定义核心特征(现实与魔幻融合),列举《佩德罗・巴拉莫》《家长的没落》等作品。 文学史事件影响 「1919 年胡适《尝试集》出版对中国现代文学的意义是什么?它引发了哪些文学论争?」 说明其为中国第一部白话诗集,推动白话文运动,关联与保守派的 “文白之争”。

这里我对结果进行省略了。 

文心一言4.5开源部署指南及文学领域测评

4.4.3 文学创作能力(核心应用)

这里才是真正的测试,我们一般都是要靠大模型写作的,看看0.3B的模型效果如何。

测试案例 任务要求 预期能力 仿写经典风格 「模仿鲁迅《呐喊》的语言风格(冷峻、讽刺、口语化),写一段 100 字左右的街头场景描写。」 语言简练带批判性,如 “巷口的剃头摊前,老陈的剪子在光头上划拉,像割田埂上的枯草。穿长衫的人从旁过,鼻子里哼出半声,仿佛这摊儿的油腻玷污了他的鞋底。” 续写经典作品 「假设《阿 Q 正传》中阿 Q 未被处死,续写一段他参加北伐后的经历(200 字),需符合人物性格(精神胜利法、愚昧)。」 延续阿 Q 的核心特质,如 “阿 Q 见了穿军装的,便挺直腰板喊‘同志’,被推搡了也笑‘儿子打老子’。后来抢了地主家的米,还逢人说‘这是革命的胜利’。” 原创特定体裁 「以『秋夜归乡』为主题,写一首七言绝句,要求押韵(平水韵‘尤’部),包含‘月’‘霜’两个意象。」 符合格律,如 “冷月疏星照客舟,寒霜沾袖入村头。柴门犬吠惊残梦,犹记儿时绕膝游。”

看来结果还是不错的。 

文心一言4.5开源部署指南及文学领域测评

本人测试了“paddlepaddle/ERNIE-4.5-0.3B-Paddle”模型,该模型对于文学领域的处理是十分不错的,由于模型参数量较小,没有对逻辑分析领域进行测评,至于3.11和3.8谁大的问题,对于0.3B的模型来说是可以接受的,毕竟当初GPT那么大的参数还会出错。本人测评水平有限,如有更好的测评思路,还请各位大佬指正。

文章来源于互联网:文心一言4.5开源部署指南及文学领域测评

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/265117.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午8:13
下一篇 2026年3月12日 下午8:13


相关推荐

关注全栈程序员社区公众号