【PyTorch实战】多模态图片生成(文心一言大模型)

【PyTorch实战】多模态图片生成(文心一言大模型)

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏:PyTorch入门宝典_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

🏀 专栏持续更新中~~~

目录

1. 前言

2. 文心大模型(ERNIE-ViLG)

2.1 ERNIE-ViLG模型代码

2.2 ERNIE-ViLG模型代码讲解

2.2.1 模型加载 

2.2.2 模型输入输出

2.2.3 Prompt 设计原则

3. 基于文心大模型的AI作画

3.1 进入百度开发者社区

3.2 开通AI作画应用

3.3 选择相应API开通

3.4 Api调用方法

4. data(payload)写法

4.1具体要求

4.2 举例子 


大家好,我是十二月的猫。

【PyTorch实战】系列包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。

同时猫猫也将在讲解过程中,连同环境配置一起讲解,真正做到无门槛、无基础也能独立完成项目

项目环境:

  • 平台:Windows11
  • 语言环境:python3.8
  • 编译器:PyCharm
  • PyTorch版本:2.4.1(CUDA版本)
pip安装方法如下: pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 

【PyTorch实战】多模态图片生成(文心一言大模型)

这里大家一定要对应上自己的CUDA版本、GPU版本等 (具体问题具体分析)

ERNIE-ViLG模型本质上是一种AIGC模型

AIGC(Artificial Intelligence Generated Content)登上舞台,以高效、精准、定制化等能力特征,重新定义了内容生产方式。

想要更详细了解AIGC模型,可以看我的另一篇文章【人工智能绪论】一次性搞懂什么是AIGC!_aigc的技术-CSDN博客

可惜:文心一言的ERNIE-ViLG模型已经不开放API计量使用
因此在CSDN上看到的大部分利用
ERNIE-ViLG模型来进行文生图的方法已经不再适用

但是这里我仍然提供一下核心代码,如果有友友之前购买过ERNIE-ViLG模型的API仍然可以使用

因为ERNIE-ViLG模型本身已经不对外开放,所以这里我不提供完整可以运行的代码

后面的AI作画-基础版(基于文心大模型)我会提供完整代码


代码核心包括两个部分:

  • 模型加载
  • 模型输入输出

2.2.1 模型加载 

文心ERNIE-ViLG参数规模达到,是目前为止全球最大规模,在文本生成图像、图像描述等跨模态生成任务上效果全球领先,在图文生成领域等数据集上取得最好效果。你可以输入一段文本描述以及生成风格,模型就会根据输入的内容自动创作出符合要求的图像。


2.2.2 模型输入输出

模型输入就是给模型提供的提示词(Prompt)

这个提示词需要有固定的格式以及固定的写法

模型输出就是模型输出图片的数量、图片的保存路径、图片的分辨率

代码如下:


参数

  • text_prompts(str): 输入的语句,描述想要生成的。
  • style(Optional[str]): 生成,当前支持’油画’,‘水彩’,‘粉笔画’,‘卡通’,‘儿童画’,‘蜡笔画’。
  • topk(Optional[int]): 保存前多少张图,最多保存10张。
  • output_dir(Optional[str]): 保存输出图像的目录,默认为”ernievilg_output”。

返回

  • images(List(PIL.Image)): 返回生成的所有图像列表,PIL的Image格式。文心一言 ERNIE Bot 教程

2.2.3 Prompt 设计原则

  • text_prompts:图像生成内容
  • style:图像风格

|||||||||||||||

【PyTorch实战】多模态图片生成(文心一言大模型)

【PyTorch实战】多模态图片生成(文心一言大模型)

【PyTorch实战】多模态图片生成(文心一言大模型)

至此,我们就获得了有作图权限的两个Key:

Secret Key

Api Key

后面通过这两个Key,我们要获取access_token用来访问模型所在页面(登录Token应用)

使用Ai作画包括两个步骤:

  1. 请求发送
  2. 结果查询

请求发送后,获得task_id,利用task_id在结果查询中获得结果

请求发送:


查询结果:

参数 是否必选 类型 描述 text 是 string 输入内容,长度不超过190个字(操作指南详见文档) resolution 是 string 图片分辨率,可支持512*512、640*360、360*640、1024*1024、720*1280、1280*720 style 否 string 目前支持风格有:二次元、写实风格、古风、赛博朋克、水彩画、油画、卡通画,更多风格可自行探索 num 否 int 图片生成数量,支持1-6张 text_content 否 string 1~50个字符,支持英文、数字及常用特殊字符。若不传该参数则默认为Text-to-Image-内容ID-AI,示例:Text-to-Image-_0_finaI.png-Al;若传该参数,则相应水印内容自动添加至Text-to-Image后方,示例:Text-to-Image-ABCD-_0_finaI.png-Al text_check 否 integer 模型侧的提示词检测开关,仅支持输入0和1。0:关闭,1:开启(默认值)。开启时,如果提示词未通过模型侧提示词检测则子任务的sub_task_error_code会返回501,无法生成图片。

写实风格,女生,半身照,都市背景,真实拍摄,8k:【PyTorch实战】多模态图片生成(文心一言大模型)

写实风格,一只小老虎,细节精致,实景拍摄,色彩明亮:

【PyTorch实战】多模态图片生成(文心一言大模型)

 摄影风格,阳光灿烂的春天,一只草编篮子放置在白色毯子上,里面装着水果和花。整个场景简洁,野餐氛围,公园绿色草坪,温暖阳光,自然光线,近景,整体温暖色调,逼真,专业拍摄,清晰细节:【PyTorch实战】多模态图片生成(文心一言大模型)

卡通插画,可爱小熊,蘑菇,萤火虫,童话森林,精美细节,8K,CG,梦幻:【PyTorch实战】多模态图片生成(文心一言大模型)

如果想要学习更多pyTorch实战的知识,大家可以点个关注并订阅,持续学习、天天进步

你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

文章来源于互联网:【PyTorch实战】多模态图片生成(文心一言大模型)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/264492.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午8:46
下一篇 2026年3月12日 下午8:47


相关推荐

关注全栈程序员社区公众号