AI大模型平台AI视觉大模型

Qwen Image

首个开源图像生成基础模型,依托 20B 参数规模的 MMDiT 架构,具备强大的图像生成和编辑能力,为创作者、开发者和企业提供了丰富的创作可能。

标签:
d.design
jimeng
Qwen Image是通义千问系列首个开源图像生成基础模型,依托 20B 参数规模的 MMDiT 架构,具备强大的图像生成和编辑能力,为创作者、开发者和企业提供了丰富的创作可能。
Qwen Image
  1. 核心技术与架构优势:采用 MMDiT 架构,通过多模态输入训练优化文字渲染、图像生成和编辑任务。训练时采用逐级提升策略,从非文字图片到短句、段落排版进行训练,配合复杂字体合成与仿文档结构布局的样本,使模型具备段落级文字理解与生成能力。引入 MSRoPE 位置编码,将文字作为二维 patch 融入图像 latent token 中,实现文字与图像空间对齐,提升修改时的结构连贯性。采用 Qwen2.5-VL(语义编码)+VAE(视觉细节编码)双通路机制,分别提取输入图像的语义和视觉结构,保持语义一致性和局部细节不失真。
  2. 主要功能与特性
    • 文本渲染能力卓越:支持 26 种以上语言的复杂文本渲染,在中文文字清晰度、排版一致性与语义准确性上,超越闭源模型 Seedream 3.0 和 GPT Image 1。能实现多行布局、段落级文本生成以及细粒度细节呈现,满足多种语言的创作需求。
    • 图像生成高效且多样:基于优化的 20B 模型,可快速生成图像。支持多种艺术风格,如写实、动漫、油画、简笔等,能灵活控制图像主体、构图、色调等,还可生成不同长宽比的图像,满足不同平台和使用场景需求。在多个公开基准测试(如 GenEval、DPG、OneIG-Bench、TIIF)中多项得分领先。
    • 精确的图像编辑功能:支持风格迁移、物体操作(插入 / 删除)、细节增强、人物姿态调整等。在编辑过程中,编辑区域精准可控,非目标区域稳定不变。语义编辑可实现 IP 创作、物体旋转、风格迁移等;外观编辑能进行元素的添加、删除、修改,且保持图片其他区域不变。
  3. 使用方式与应用场景
    • 在线免费试用:用户无需安装和注册,可在浏览器中直接使用在线演示功能,快速体验图像生成和编辑。
    • API 集成:便于与 Diffusers、Transformers 等流行框架集成,开发者可将其融入自己的应用程序中,实现个性化的功能开发。
    • 本地安装:可通过 ComfyUI 或 diffusers 下载模型在本地运行,适合对数据隐私和定制化有较高要求的用户。
  4. 应用场景广泛:在商业领域,可用于制作广告海报、产品宣传图、营销资料等,其商业友好的 Apache 2.0 许可,让企业可无限制地用于商业项目;在游戏开发中,助力生成游戏场景、角色、道具等美术资源;对个人创作者而言,无论是设计插画、制作表情包,还是进行摄影后期创意处理,Qwen Image 都能提供强大支持。
  5. 社区与生态支持:拥有活跃的社区,在 GitHub、Hugging Face、Discord 等平台,用户可获取帮助、分享创作成果、交流使用经验,促进共同成长和创新。

相关导航