「源力觉醒 创作者计划」_文心开源模型(ERNIE-4.5-VL-28B-A3B-PT)使用心得

「源力觉醒 创作者计划」_文心开源模型(ERNIE-4.5-VL-28B-A3B-PT)使用心得

文章目录

  • 背景
  • 操作流程
    • 开源模型选择
    • 算力服务器平台开通
    • 部署一个算力服务器
    • 登录GPU算力服务器进行模型的部署
    • [FastDeploy 快速部署服务](#FastDeploy 快速部署服务)
      • 安装paddlepaddle-gpu
        • [1. 降级冲突的库版本](#1. 降级冲突的库版本)
      • 安装fastdeploy
    • 直接部署模型(此处大约花费15分钟时间)
      • 放行服务端口供公网访问
      • 最后一个错误,马上部署成功
        • [1. 手动配置 `/etc/hosts` 文件](#1. 手动配置 文件)
    • 调用大模型服务
      • 官方demo调用
      • 文字交互demo
      • 文+图+连续对话版本(python代码)
      • openai的接口调用方式
  • 总结

文心大模型全面开源!

作为备受关注的文心大模型,历经发展与积淀,如今迎来重要一步——全面开源并免费开放下载体验!

我们相信,开放协作、集思广益,是推动大模型技术长远发展和释放其真正价值的关键。此次开源,正是迈出了坚实的一步。

我亲身体验后,整体感受超出预期!现将详细的体验流程整理如下,供大家参考:

ERNIE-4.5-VL-28B-A3B 是一个多模态 MoE 聊天模型,拥有 28B 总参数和每个标记激活的 3B 参数。

操作文档在这里:

咱们使用单卡部署,至少需要80G的内存,咱们直接使用A100,那么哪里可以搞到物美价廉的A100呢?

经过我的多方折腾,发现有个地方还是很不错的,推荐给大家:

猛戳这里!——优云智算

没错,就是这个平台,上去实名认证之后,就可以获得10元券,然后就可以跑咱们这次要搞的文心一言的开源大模型ERNIE-4.5-VL-28B-A3B-PT 啦

在优云智算平台上,点击部署GPU实例,选择平台镜像,然后选择pytorch + ubutu ,然后在实例配置中的更多型号里,选择A100,我们选择豪华的A100(正好80G显存)来跑今天的模型,具体的配置参照下图,PyTouch的相关版本选择如下,大家别搞错了「源力觉醒 创作者计划」_文心开源模型(ERNIE-4.5-VL-28B-A3B-PT)使用心得

选好之后,点击立即部署,服务器就会将相应的环境部署好。

这里的状态变为已运行的时候,就说明已经部署好了,就可以进行登录使用了。

现在已经是运行中了,代表服务器环境已经部署好了!

咱们点击登录,进入到这个服务器中开始部署模型(或者直接复制相应的ssh代码和密码,自己进入终端或者其他工具中进行登录都可以)。

复制这里的密码,然后进行远程登录

咱们这次主要使用官方推荐的FastDeploy 快速部署服务

咱们这次用的A100的部署,详细部署文心一言 ERNIE Bot 教程信息可以查看:

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/get_started/installation/nvidia_gpu.md

如果不想看文档嫌麻烦的,也可以直接按照本文进行操作即可。

咱们本次实际的操作步骤总结如下图:

安装paddlepaddle-gpu

1.先运行安装 paddlepaddle-gpu(此处大约花费15分钟时间)

这是因为:

  1. 版本不匹配 :PyTorch 2.4.0+cu124 明确要求特定版本的 CUDA 工具链(如 nvidia-cublas-cu1212.4.2.65、nvidia-cudnn-cu129.1.0.70 等),但你的环境中安装的是更新的版本(如 12.6.4.1、9.5.1.17 等)。
  2. 依赖解析限制:pip 的依赖解析器在安装时可能未考虑所有已安装包的兼容性,导致不兼容的版本被安装。

然后进行解决

1. 降级冲突的库版本

根据 PyTorch 的要求,手动降级所有 CUDA 相关库至指定版本:

解决完毕后验证环境:

安装fastdeploy

此处花费时间不超过1分钟。

注意,此处咱们只安装这个 stable release即可,不用按照教程安装latest Nightly build

这是安装完毕的图片,看起来好像有一些报错,咱们先不管,继续往下执行即可。

报错了

报错的原因显示:

表明 Python 在尝试加载 PaddlePaddle 的核心库时,找不到 GCC 的 OpenMP 运行时库。

既然缺失了,那咱们马上就安装,安排,解决!

执行以下代码进行解决:

解决完毕之后,继续执行部署模型:

可以看到,已经开始部署了,说明环境已经正常了,等待模型部署完毕,我们进行调用即可。

放行服务端口供公网访问

此处需要将8180的端口在防火墙放行,这样在公网才能访问我们部署好的模型:

放行成功后效果如下

最后一个错误,马上部署成功

这个错误是由于系统无法解析主机名(hostname)对应的 IP 地址 导致的,具体来说,这行代码尝试通过主机名获取 IP 地址时失败了(错误 表示名称解析失败)。

解决方案:

1. 手动配置 文件

通过修改 ,将主机名映射到本地 IP(通常是 或内网 IP):

步骤:

  1. 查看当前主机名:bash
  1. 编辑 文件:bash
  1. 在文件中添加一行,将主机名映射到 :

(如果已有 ,直接在后面加上主机名即可)

  1. 保存退出(vi 中按 ,输入 回车)。

然后又重新跑一下(跑一次大概15分钟左右)

出现图中显示的的时候就代表服务已经部署成功了!咱们现在就将文心一言开源大模型 拥有 28B 总参数的多模态 MoE 聊天模型ERNIE-4.5-VL-28B-A3B 在自己的服务器上部署成功了!

接下来可以进行相关的调用来试一下模型的表现了。

官方demo调用

以下是官方给的demo,是让模型识别一个图片链接,然后输出图片描述的。

我改造了一个python调用的版本,代码如下:

使用python代码访问已经部署的模型:

注意使用的时候把你的服务器公网IP替换进去

可以看到模型已经可以正常返回了。

文字交互demo

接下来,咱们给他发送文字,让模型进行正常的回复:

代码如下:

文+图+连续对话版本(python代码)

好吧,合并在一起,并且可以连续对话的版本应运而生:

openai的接口调用方式

当然,咱们这种部署方式同样也兼容openai的接口调用方式,如:

这就提供了很多思路,可以直接把这个接口对接到dify等工具上,然后打造自己的专属工作流,知识库等,这绝不亚于市面上的那些大模型。

并且如果感觉回复的内容不是很符合自己的要求,还可以针对模型进行微调,比其他非开源只能调用api-key的模型想象空间大了很多!!!

本文详细介绍了如何使用FastDeploy快速部署大模型服务的全过程,涵盖了从选择开源模型到在GPU算力服务器上完成部署并开放公网访问的各个步骤。首先,我们回顾了相关的背景信息,并介绍了操作流程。接着,文章通过具体的部署实例,逐步展示了如何解决可能出现的库版本冲突问题、安装必要的软件包以及如何配置系统文件(如/etc/hosts)来确保模型服务的顺利运行。

通过使用FastDeploy,用户能够更加高效地部署大规模机器学习模型,并能够方便地进行文字、图像及连续对话版本的交互测试。此外,文章还分享了官方demo和openai接口的调用方式,帮助读者更好地理解和应用模型服务。

本文不仅为读者提供了清晰的操作指南,还解决了在模型部署过程中常见的技术难题,使读者能够轻松搭建和使用高效的AI服务。

文心大模型的开源标志着技术权力从巨头垄断向全民共创的转移。然而,开源的本质不是慈善,而是通过开放降低生态摩擦,让创新在自由流动中爆发更大价值。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/267568.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午5:56
下一篇 2026年3月12日 下午5:56


相关推荐

关注全栈程序员社区公众号