阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型,也是目前在复杂文本(尤其是中文)渲染方面表现最好的开源文生图大模型之一。

性能表现上,在多个公开基准上的对 Qwen-Image 的全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了 Qwen-Image 作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。

主要特性包括:

  • 卓越的文本渲染能力 : Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
  • 一致性的图像编辑能力 : 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
  • 强大的跨基准性能表现 : 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA,是一个强大的图像生成基础模型。
    阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
    更多详情请见:Qwen-Image · 模型库

基础环境最低配置推荐

环境名称 版本信息 Ubuntu 22.04.4 LTS Python 3.12 CUDA 12.6 NVIDIA Corporation RTX 4090 * 3

注:该模型支持多卡并行而不支持多卡推理,若显卡配置较高,可先用A100;较低,则可选用3张4090显卡配置,不过需要对原代码进行修改。

查看系统版本信息

更新软件包列表

配置国内镜像源(阿里云)

具体而言,vim 指令编辑文件

按 进入编辑模式,将如下内容插入至 文件中

创建虚拟环境

阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
千问 Qwen 教程阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

激活虚拟环境

创建Qwen-Image文件夹

阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

github(QwenLM/Qwen-Image:Qwen-Image 是一个强大的图像生成基础模型,能够进行复杂的文本渲染和精确的图像编辑。)中克隆项目代码文件至该目录

requirements.txt 文件

文件内容:

使用命令行下载完整模型库

阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

注:该模型支持多卡并行但不支持多卡推理,若要进行多卡推理,解决方案如1所示;若配置较高,显卡为A100,则可选用方案2,速度更快。

官方文档中并没有具体给出多卡推理的实现代码,如下的app.py可用于实现多卡推理。

app.py:

运行app.py文件

若采用A100显卡,则可使用如下的demo.py文件运行模型。

demo.py:

运行demo.py

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/263064.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午10:02
下一篇 2026年3月12日 下午10:03


相关推荐

关注全栈程序员社区公众号