MagicQuill – 革新图像编辑体验的智能交互系统

MagicQuill是一个智能交互式图像编辑系统，具备用户友好界面、AI驱动的智能建议和精准局部编辑等特点，帮助用户快速实现创意图像编辑。

一、MagicQuill概述

MagicQuill是由香港科技大学、蚂蚁集团、浙江大学和香港大学共同开发的一款AI互动式图像编辑工具。它旨在解决当前图像编辑工具在精确、高效、细粒度编辑方面面临的挑战，是一个集成多种功能的综合性图像编辑系统，而非单一功能的工具。

（一）功能集成性

MagicQuill将多种图像编辑相关的功能融合在一个系统中。这种集成性体现在它不仅仅能够进行简单的图像修改，如插入元素、擦除物体或者改变颜色等基础操作，还能够在更高层次上实现精准、细粒度的编辑。例如，在其项目演示中，实现了商用级的精确画笔+提示词编辑体验，这表明它在整合多种编辑功能的同时，还能保证编辑的精确性和专业性，为用户提供全面而强大的图像编辑能力。

（二）背后的技术支撑

MagicQuill主要依赖SDv1.5 + BrushNet + LLaVA + ControlNet来实现其功能。这些技术元素为MagicQuill的各个方面提供支持，从理解用户的输入到实现精确的图像编辑控制等。例如，ControlNet可以在编辑操作中加入条件控制，保证图像编辑的精确性和一致性；而LLaVA等技术有助于对用户的编辑意图进行理解和分析，从而将用户的简单操作转化为有效的编辑指令。

二、MagicQuill的特点

（一）直观的交互界面

MagicQuill为用户提供了直观的交互界面，这大大降低了学习门槛。在这个界面上，用户通过简单的笔触操作就能进行编辑工作。例如，用户无需复杂的菜单操作，只需像在纸上绘画一样使用画笔进行绘制，就可以开始编辑图像。复杂的图像编辑任务被简化为简单的笔触操作，无论是专业设计师还是普通的图像编辑初学者都能轻松上手。
当用户打开MagicQuill页面后，会发现有不同类型的魔法羽毛笔功能按钮。像带+号的魔法羽毛笔可用于添加由提示词指导的元素，每画一笔，上方的空白框会自动识别画的内容并给予指导；带 – 号的魔法羽毛笔用来删除多余的细节或根据提示重新绘制区域，并且+号羽毛笔和 – 号羽毛笔还可以组合使用；带RGB标识的魔法羽毛笔（俗称色刷）则能够精确地给图片上色，颜色与笔刷颜色相匹配，不过颜色画笔和增减画笔是互斥的，不能组合使用。通过这些简单的功能按钮和直观的操作方式，用户能够方便快捷地对图像进行编辑，而且整个编辑过程还可以随时撤回、调整，用户完全没有心理负担，可以轻松进行创作或者调整。

（二）多模态大语言模型（MLLM）

MagicQuill利用多模态大语言模型（MLLM）实时监控用户交互，理解编辑意图并自动生成相应的操作提示，从而简化了编辑流程。在用户进行编辑操作时，无论是绘制线条、增减元素还是改变颜色，MLLM都会对用户的动作进行分析和理解。例如，当用户绘制一些简单的线条来表示想要添加的物体轮廓时，MLLM会实时预测用户可能想要添加的物体，并给出相应的操作提示，减少或消除了手动输入提示的需求。
这种基于MLLM的机制还体现在绘画助手（PaintingAssistor）的功能上。绘画助手通过MLLM提高系统预测和解释用户编辑意图的能力。比如在用户绘制草图时，绘画助手能实时提供反馈，其准确性取决于训练模型的有效性和数据集的质量。整个过程中，系统通过持续学习和分析用户的操作习惯以及大量的图像数据，不断提高对用户意图的理解能力，使得编辑流程更加顺畅高效。

（三）强大的扩散模型

该系统结合精心训练的插件模块，利用强大的扩散模型实现精确的图像编辑控制。扩散模型基于从数据分布中学习并生成新的数据实例的原理，为图像编辑提供强大的先验知识。在MagicQuill中，这种扩散模型通过双分支插件模块来增强其性能，实现对编辑请求的精确控制。例如在处理图像的色彩调整或者元素的精细变形等操作时，扩散模型能够根据用户的编辑意图和图像的原始数据分布，精确地生成符合要求的编辑结果，保证图像编辑的高质量与可控性。

（四）绘画与猜测（Draw&Guess）任务

MagicQuill提出了绘画与猜测（Draw&Guess）这一新颖的任务，主要是利用MLLM解释用户的绘画笔触，并自动预测相应的文本提示。这一特点在很大程度上减少了用户手动输入提示的需要，提高了编辑效率。当用户绘制一些线条或者形状时，系统会自动根据这些绘画笔触预测出可能的文本提示信息。例如，用户画了一个近似圆形和一条弧线，系统可能会猜测这是一个气球，并提供与气球编辑相关的文本提示，如改变气球颜色、添加气球绳等，这样用户无需手动输入这些提示信息就可以快速进行下一步的编辑操作。

（五）核心模块高效协作

编辑处理器（EditingProcessor）：它负责实现高质量、可控的图像编辑，确保编辑效果准确反映用户的意图。编辑处理器采用双分支架构，例如其中的内容感知修复分支利用UNet模型结合扩散网络技术，进行细致的像素级修复；结构引导分支则通过ControINet加入条件控制，这一结构不仅提高了编辑的精确性，还确保了图像的高度一致性。在处理不同类型的编辑任务时，比如对图像中的物体进行局部修改或者对整体布局进行调整时，编辑处理器能够根据用户的操作准确地在图像上进行操作，以达到满意的编辑效果。
绘画助手（PaintingAssistor）：绘画助手以多模态大型语言模型为基础，在用户进行编辑过程中实时预测和解释用户意图。当用户绘制简单的线条时，绘画助手可以通过Draw&Guess功能提供实时反馈。像前面提到的，这种反馈有助于用户更准确地表达自己的想法，比如在添加元素或者改变画面布局时能够得到系统准确的引导，从而提高编辑的准确性和效率。
想法收集器（IdeaCollector）：主要为用户提供直观的交互界面，允许用户通过多种方式来输入编辑指令，这有效地提高了编辑效率。无论是直接使用画笔在图像上进行绘制操作，还是通过输入提示词来指导编辑方向，想法收集器都能够很好地接收并将其转化为系统可执行的指令，给予用户更多的操作选择和表达创意的途径，让整个编辑过程更加灵活多样。

三、MagicQuill的应用场景

（一）日常照片编辑

对于普通用户而言，MagicQuill在日常照片编辑方面具有很大的优势。例如，当想要对旅行照片进行简单调整时，用户可以利用其精准的编辑功能，快速改变照片中的不满意之处。如插入拍摄时遗漏的元素，像蓝天白云背景下缺少一只飞翔的小鸟等，使用带+号的魔法羽毛笔，简单画几笔就可以添加进去；如果照片中有不需要的元素，可通过带 – 号的魔法羽毛笔轻松擦除；或是想改变某个物体的颜色，如将花朵颜色从红色改为粉色，使用带RGB标识的色刷就能轻松完成。并且这种操作非常简单快捷，无需专业的图像编辑知识和软件操作技能，节省了大量的时间和精力，让普通用户也能将自己的照片处理得更加完美。

（二）创意设计

在创意设计领域，MagicQuill是设计师的得力助手。设计师可以通过MagicQuill快速勾勒出设计思路并进行初步的图像构建。比如在进行海报设计时，设计师可以先使用绘画助手功能简单绘制一些线条和形状，系统自动根据这些笔触判断出设计师的大致意图，然后提供相应的操作提示或直接生成一些初步的设计元素。之后再根据需求精确调整色彩、添加细节或者进行元素的组合和布局调整。在这个过程中，设计师能够利用MagicQuill的精准编辑能力，在短时间内尝试多种创意方案，无论是调整字体颜色、添加装饰元素还是改变图像整体风格等操作都可以方便地实现，大大提高了创意设计的效率和效果，也为设计师提供了更多的创作自由度。

（三）数字艺术创作

数字艺术家可以利用MagicQuill进行各种艺术创作。由于MagicQuill能够实现精确到像素级别的图像编辑，数字艺术家可以创造出细腻、逼真的艺术作品。他们可以先用画笔自由勾勒出草图，绘画助手通过MLLM实时预测并对草图进行解读，然后按照艺术家的意图进行精准的创作。比如在创作一幅写实的风景画时，艺术家可以详细地绘制每一片树叶、每一朵云彩，利用系统的各种功能调整光影效果、色彩层次等；或者在创作抽象画时，通过随机绘制线条和形状，再依靠系统的自动提示进行扩展和变形，创作出独特而富有创意的作品。MagicQuill以其独特的技术优势，为数字艺术创作提供了新的工具和创作思路，满足了数字艺术家在艺术创作过程中的多样化需求。

四、MagicQuill的发展历程

MagicQuill是由香港科技大学、蚂蚁集团、浙江大学和香港大学共同研发的成果。其研发背景是伴随着人工智能技术，特别是深度学习和自然语言处理技术的飞速发展而出现的。近年来，AI绘画工具在创作领域逐渐受到关注，MagicQuill的研发团队紧跟这一趋势，并看到了现有图像编辑工具在精确、高效、细粒度编辑方面存在的不足，于是投入资源进行研发。
在研发过程中，团队重点构建了其核心的技术架构，包括编辑处理器、绘画助手和创意收集器等模块。编辑处理器采用双分支架构，结合不同的模型来确保图像编辑的精确性；绘画助手基于多模态大语言模型（MLLM），通过持续的模型训练和数据集优化来提高对用户意图的预测能力；而创意收集器则从用户体验出发，设计出简单直观的交互界面。这些组件的研发经过多次迭代和优化，以确保MagicQuill能够达到预期的图像编辑效果。
从推出后的表现来看，MagicQuill已经引起了广泛关注，并与其他主流的AI绘画工具如SmartEdit、SketchEdit等进行了对比。在多项性能验证实验中，MagicQuill在编辑处理器的可控生成能力、绘画助手的预测准确性以及创意收集器的整体用户体验上均表现出色，特别是在边缘对齐和颜色保真度等方面优于其他工具。用户在使用过程中也给予了积极反馈，许多人表示MagicQuill让他们的创作效率大幅提升，创意表现更加自由。目前，MagicQuill团队仍然在不断探索和发展，针对未来规划了更多的功能扩展，例如分层图像的生成以及处理文本元素的能力等，以进一步提升工具的适用范围和灵活性，不断满足用户日益增长的图像编辑需求。

五、如何使用MagicQuill

（一）环境部署与准备

如果要使用MagicQuill项目，首先需要进行环境部署。计算机需要满足一定的要求，例如你的PC或笔记本电脑必须具有GPU（图形处理单元），并且最小RAM应该为8GB（推荐16GB或更多）。如果在本地（Windows11）部署MagicQuill项目，需要先下载依赖的权重模型。权重模型的压缩包地址为：https://hkustconnect – my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download = 1，推荐使用某雷进行下载，速度会比较快一点。注意，权重解压后大约需要30G的硬盘空间，请预留好相应的磁盘空间。随后，要克隆官方的最新代码，执行命令：git clone –recursive https://github.com/magic – quill/MagicQuill.git ，再进入到MagicQuill目录（cd MagicQuill）。

（二）熟悉交互界面

部署完成后访问gradio页面（由gradio构建的网页）就可以直接使用MagicQuill。打开MagicQuill页面后，需要先熟悉其界面。页面上有三种主要的魔法羽毛笔功能按钮，分别有不同的作用：
- 带+号的魔法羽毛笔：主要用于添加由提示词指导的元素。当使用此画笔进行绘画时，每画一笔，上方的空白框便会自动识别所画的具体内容，并给予相应的指导。例如你画一笔可能像花朵的形状，系统就会提示与花朵添加相关的内容，按照提示可以继续完善添加的花朵内容，如花瓣数量、颜色等。
- 带 – 号的魔法羽毛笔：用于删除多余的细节或根据提示重新绘制区域。比如在一幅图像中给人物画了一顶帽子，后来觉得不满意，可以使用带 – 号的羽毛笔将帽子去掉；或者如果某个区域的绘制不符合预期，可以根据提示进行重新绘制。并且+号羽毛笔和 – 号羽毛笔可以组合使用，方便进行连续的编辑操作。
- 带RGB标识的魔法羽毛笔（色刷）：能够精准地给图片上色，可以精确匹配笔刷的颜色进行绘画。例如，当想要给一幅黑白的花朵图像上色时，可以选择合适的颜色，在需要上色的部位进行涂抹，系统会按照笔刷颜色准确地为花朵上色。需要注意的是，颜色画笔和增减画笔是互斥的，不能组合使用。
此外，MagicQuill界面还有参数调整按钮，支持用户调整生成结果的参数，如基础模型选择、负提示、边缘控制等。如果对这些参数不太了解，初级用户可以默认设置，有一定基础的用户可以根据自己的需求进行调整，如根据想要的风格选择不同的基础模型，或者根据特定编辑需求设置负提示等内容。

（三）编辑操作示例

以一个简单的图像编辑为例，假设要对一张风景照片进行编辑。如果想在天空中添加一只飞翔的小鸟，可以选择带+号的魔法羽毛笔，简单画一个小鸟的形状，此时上方空白框可能会提示小鸟的细节补充，如羽毛颜色、飞行方向等，按照提示完善小鸟的添加。如果照片中远处有一些不需要的电线杆干扰画面，可以使用带 – 号的魔法羽毛笔将其轻松擦除。若觉得照片整体偏暗，想要调整天空的颜色使画面更明亮，可以使用带RGB标识的魔法羽毛笔来调整天空的颜色，比如从灰色改为浅蓝色。在整个编辑过程中，如果对某个步骤的效果不满意，可以随时使用撤回按钮进行调整，并且所有的操作都比较简单直观，无需专业的图像编辑知识。在编辑完成后，可以查看最终的编辑效果并根据需求保存或者继续进行其他编辑操作。