阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，中文渲染能力刷新SOTA

Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型，也是目前在复杂文本（尤其是中文）渲染方面表现最好的开源文生图大模型之一。

性能表现上，在多个公开基准上的对 Qwen-Image 的全面评估，包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench，以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。此外，在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明，Qwen-Image 在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。这凸显了 Qwen-Image 作为先进图像生成模型的独特地位，兼具广泛的通用能力与卓越的文本渲染精度。

主要特性包括：

卓越的文本渲染能力 : Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。
一致性的图像编辑能力 : 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现 : 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得 SOTA，是一个强大的图像生成基础模型。

更多详情请见：Qwen-Image · 模型库