扔掉ps吧,阿里开源超越gpt4o图片编辑模型Qwen-Image-Edit

8 月 20 日,阿里通义千问团队正式开源 20B 参数级的 Qwen-Image-Edit,把中文图像编辑能力一次性拉到“商用水准”。
模型采用“语义-外观”双通路架构:Qwen2.5-VL 提炼高层语义,VAE 锁定纹理颜色,既能执行“人物牵狗”级语义重绘,也能“只改头发丝”而保留其余像素。最炸裂的是文本渲染:在 3500 个常用汉字基准上,单字准确率 97.29%,远超 GPT-4o 的 68%,支持竖排、对联、书法等复杂排版。
看看具体的应用场景例子吧:

















功能上,Qwen-Image-Edit 提供两类编辑:low-level 外观级(增删元素、像素级无痕修改)与 high-level 语义级(风格迁移、物体旋转、IP 创作),并支持中英双语“链式”文字增删改,设计师可在海报或 UI 原型中直接替换文案而字体风格不变。
性能方面,模型在 GEdit、ImgEdit、GSO 三大公开基准均夺 SOTA,综合评分 7.56(英)/7.52(中),超越 GPT Image1 与 FLUX.1 Kontext。
python代码使用,我们使用diffusers
pip install git+https://g...
点击查看剩余70%
网友评论