8月19日,通义千问宣布,推出 Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进一步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。这个超强模型不仅能对图片中的文字进行精准编辑,还支持元素的添加(inpainting)、删除(outpainting)、修改、IP 创作、物体旋转和风格迁移等炫酷功能。最实用的是它能自动修复图片上的错别字,简直是设计师和内容创作者的福音!也可以在 [Qwen 官网] (文末入口)选择「图像编辑」功能直接体验。
一、Qwen-Image-Edit介绍
Qwen-Image-Edit 是 Qwen-Image 的图像编辑版本。它基于20B的Qwen-Image模型进一步训练,成功将Qwen-Image的文本渲染特色能力拓展到编辑任务上,以支持精准的文字编辑。此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(获取视觉语义控制)和VAE Encoder(获得视觉外观控制),以同时获得语义/外观双重编辑能力。模型特性特性包括:
- 精准文字编辑: Qwen-Image-Edit支持中英双语文字编辑,可以在保留文字大小/字体/风格的前提下,直接编辑图片中文字,进行增删改。
- 语义/外观 双重编辑: Qwen-Image-Edit不仅支持low-level的视觉外观编辑(例如风格迁移,增删改等),也支持high-level的视觉语义编辑(例如IP制作,物体旋转等)
- 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
二、相关模型与安装(文末网盘有合集)
模型(模型大小20GB+):
- qwen_image_edit_bf16.safetensors
- qwen_image_edit_fp8_e4m3fn.safetensors
comfyUI-GGUF暂时应该还没更新,所以加载GGUF版本对应的clip模型会出错。等节点作者更新就好。
Diffusion model
- qwen_image_edit_fp8_e4m3fn.safetensors
- Qwen-Image-Lightning-4steps-V1.0.safetensors
Text encoder
- qwen_2.5_vl_7b_fp8_scaled.safetensors
VAE
- qwen_image_vae.safetensors
模型安装路径:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_edit_fp8_e4m3fn.safetensors
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
工作流示例与体验
输入一张人物的图片,并输入“在黑板上已经写了“Comfyui资源网:www.comfyorg.cn”,将人物放置在画板前,仿佛正在写黑板报。”的提示词。
Qwen-Image-Edit准确生成了这幅画面,且保持了小兔子形象的特点,延续了风格可爱活泼风格,柔光下毛发甚至更加细腻。
一、水豚为例,在输入对应文字后,Qwen-Image-Edit输出了不同场景的水豚图片。
虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了完美保留。语义编辑功能可以让原创IP内容创作变得轻松便捷,且内容丰富多样。

新颖的视图合成是语义编辑的另一个关键应用场景:
如下面的两个示例图所示,Qwen-Image-Edit不仅可以将物体旋转90度,还可以进行完整的180度旋转,让用户能够直接看到物体的背面。


语义编辑的另一个典型应用是风格转换:
例如,给定一幅输入肖像,Qwen-Image-Edit可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值。

二、增删改特定元素,虚拟传达、模拟场景一键完成
除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。开篇提到的案例展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit不仅成功插入了招牌,还生成了相应的反射。
下面这个例子演示了如何从图像中去除细发丝和其他小物体。

此外,图像中特定字母“n”的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。

外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。


三、精准文本编辑,链式修改书法错误
Qwen-Image-Edit的另一大亮点在于其精准的文本编辑能力,这源于Qwen-Image在文本渲染方面的功底。
以下两个案例生动地展现了Qwen-Image-Edit在英文文本编辑方面的性能:


Qwen-Image-Edit还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。

最后,通过一个具体的图像编辑示例,通义团队演示了如何使用链式编辑方法逐步纠正Qwen-Image生成的书法作品中的错误:

在这幅作品中,几个汉字存在生成错误,Qwen-Image-Edit可以逐步纠正这些错误。例如,用户可以在原始图像上绘制边界框来标记需要校正的区域,并指示Qwen-Image-Edit修复这些特定区域。在这里,演示者希望“稽”字能够正确地写在红色框内,而“亭”字能够准确地呈现在蓝色区域内。

然而,在实际操作中,“稽”字相对模糊,模型未能一次性将其正确纠正。“稽”字的右下角部分应该是“旨”,而不是“日”。此时,演示员进一步用红框突出显示“日”部分,指示Qwen-Image-Edit微调此细节,将其替换为“旨”。

通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。





总结
综上,我们希望Qwen-Image-Edit能够进一步推动在图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用的可能