中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

AIGC系列深度研究报告：《AIGC专题：中国AIGC文生图产业白皮书》

（报告出品方：中国 AIGC 产业联盟 x 无界 AI）

人工智能生成内容（AIGC）风靡全球

AIGC，即 Artificial Intelligence Generated Content，人工智能生成内容。它是生成式 AI（Generative AI）技术所激发的新一轮内容创作者经济浪潮；让人人都可以简易、便捷、低成本地借助 AI 的力量完成文本、图片、视频、音频等多媒体内容的高效高质量生产；是对以短视频、自媒体等为代表的大规模 UGC（用户生成内容）经济的进一步范式升级，故称“AIGC”。AIGC 擅长制造和传播爆款内容，尤以图片、视频等视觉形态最为突出。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

AIGC 就在身边：新西湖、古良渚、古温州

 AI“新西湖”全名为《新西湖繁盛全景图》，由人类画师与 AIGC 共同参与完成。主要用到三项主流的 AI 绘画技术：线稿上色（ControlNet Lineart）、无限拓展（Outpainting）、建筑模型训练（Dreambooth & Lora）等。创作方将该作品的使用权无偿捐赠给杭州市贸易促进会、中国国际动漫节执行委员会、杭州西湖风景名胜区管委会、杭州万事利丝绸文化股份有限公司、杭州灵伴科技有限公司（Rokid）等多家单位和企业以共创、推广杭州文化，共享 AI 作品版权。

 AI“古温州”，则以温州朔门古港遗址的资料为基础，以“千年商港，未来温州”为主题，借助 AI 工具为古港遗址勾勒出了一幅“东方威尼斯”繁华景象。2023 年 3 月 29 日，这幅图片刊登在温州日报，成为温州日报“商周刊·文博”板块元宇宙主题报道的靓丽一笔。

 案例虽小，管中窥豹，可见一斑。从 2022 年至 2023 年，国内 AI 绘画产业正是从这样微小的案例开始了举世瞩目的产业应用浪潮，从最初的静态图片走向复杂、交互式的 AIGC 产业应用场景。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

2022 遇见 AIGC 的序章：AI 文生图

2022 年春，国内掀起的 AI 艺术热潮源于海外 A 技术在图像生成领域的革命性进步，以 DiscoDiffusion、Stable Diffusion、Midjourney 等为头部代表的扩散模型(Diffusion Model)开始在数字艺术领域大放异彩!这一关键节点要早于随后大火的 ChatGPT 以及大模型(LLM)风口。因此可以认为，国内第一批全民级大规模参与 AIGC 活动的用户群来自 AI 绘(即文生图)领域。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

AI 文生图的艺术质量呈现出指数级进化速度

故事始于 2022 年春天，Disco Diffusion 的开源打开了 AI 绘画的浪潮之门——

 2022 年 4、5 月份：AI 绘画只擅长抽象之美或者色彩美学，以令人“眼花缭乱”的色彩涂抹构图向世人展示出 AI 艺术的别样魅力。这段时期人们常用的工具是 Disco Diffusion 以及 Midjourney 初代版本。

 2022 年 6、7、8 月份：AI 绘画开始集中突破绘画的逻辑性和质量，可以逐步写实、产出具有艺术性的作品。这段时期以 Midjourney 为主要工具代表。

 2022 年 9 月份：AI 绘画最重要开源力量 Stable Diffusion 成为社区大热门，且凭借成本低、高质量、高逻辑性、更强的通用绘制能力以及快速生成等优势迅速占领市场，AI 绘画的艺术质量和逻辑能力开始进入“飞轮式”发展，且 Midjourney 也开始引入其开源技术。

 2022 年 10、11 月份：AI 绘画的第一个现象级潮流“二次元模型”横空出世，以 NovelAI 等开源产品和力量为突出代表，进一步蔓延到整个 Stable Diffusion 社区，更多的开源模型和产品加入到这个队伍中，生态力量开始形成。二次元模型的高质量性和现实影响力也令世人展开了对 AI 绘画版权的争议。11 月份，国内 AI 绘画第一波大浪潮启动，抖音迅速推出的“抖音 AI 绘画（二次元）”流量成功辐射数以千万计网民，国内第一波千万级 AI 绘画用户群形成。  2022 年 12 月份：紧接着二次元浪潮，人们仿佛打开了“通往异次元的大门”，开始让三次元、2.5 次元照进 AI 绘画，于是新一波浪潮“ AI 真人模型”形成。传统互联网上充斥着大量由 AI 生成的“美女”、“真实场景”、“平行时空新闻”等新形态内容。与此同时，闭源力量 Midjourney 也几近 AI 绘画的艺术巅峰，各行业的大量设计师与内容工作者群体开始用 Midjourney 生成极高质量且满足现实生产需求的 AI 图片。

 2023 年至今：AI 绘画在极高质量、通用逻辑能力、细节完美度以及精准控制层面已经开始大范围“侵蚀”各行各业的生产与消费过程，各产业以及互联网都到处充斥着 AI 生成的内容。第一波 AI 大范围赋能产业的共识正逐步形成。Stable Diffusion 生态力量和 Midjourney 产品力成为当下人们唯二选择。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

2023 年 AI 文生图“侵蚀”的商业版图：实用性 AI 绘画时代到来

 我们在 2022 年曾预测，2023 年数以亿计的 AIGC 内容将充斥着整个互联网，绝大多数网民在刷抖音或者小红书时都会在不知不觉中浏览到 AIGC 内容，占比可能达到 5～10%；以小红书平台为例，都会将疑似 AI 生成的内容打上“疑似包含 AI 创作信息，请注意甄别真实度”的标签以供用户警惕。一时间，泛娱乐场景成为 AI 文生图商业化的“第一阵地”。

 面对 AI 绘画一年来指数级的进化速度，2023 年 AI 绘画正式开启“全面商用”时刻。从多样性的艺术维度冲击多样性的行业商业，在流量平台等虚拟内容经济的加持下，数以千万甚至上亿计的互联网用户群深受其影响。其中以“摄影模型”和“真人模型”等为代表的“真实世界模型”对现实世界的冲击最为显著，包含商业应用、泛娱乐消费甚至诸多负面影响。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

AI 文生图模型阵营及简史

 一切都始于 CLIP 开源，CLIP 是一个通过自然语言监督有效地学习视觉概念的神经网络。通过使用 CLIP 可将文本和图像连接在一起。

 CLIP（Contrastive Language–Image Pre-training）是文本和图像对照的预训练模型，数据集使用的是 LAION-400M，包含 4 亿组从互联网上收集的文本图像对。文本编码器提取文本特征，图像编码器提取图像特征，两个放到一起对比相似度，从而让 AI“掌握”文本图像的匹配关系。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

开源之王中国 AIGC 文生图产业白皮书 Stable Diffusion 的模型风格化细分及其生态占比

 2022 年 8 月，AI 绘画最为重要的开源力量 Stable Diffusion 正式向全世界开放其模型代码、训练数据集、生产内容的版权归属协议。完全自由的开源运动激起了全世界开发者、创业者、产业公司和普通爱好者的热忱，在短短半个月时间内，SD 的谷歌搜索趋势彻底超越大名鼎鼎的 DALL·E，成为人们谈论 AI 绘画不可规避的话题。SD 的开源也令 AI 巨头们倍感震惊。

 2022 年，Stable Diffusion 的开源发布由两大公司实体驱动，分别是 Stability.Ai 和 RunwayML。二者共同促进了 SD 大版本的成功。

 截止 2023 年 7 月份，Stability.Ai 已将 SD 开源版本迭代至 Stable Diffusion XL 1.0（SDXL 1.0）。

 SD 所基于的开创性的“潜在空间”（Latent Space）技术将扩散模型（Diffusion Model）再次推上新的台阶，是 AI 绘画走向大规模商用化的关键一步（如 latent 空间让快速生成高分辨率图像成为可能，对比之下，过往的 DALL-E2 和 Google Imagen 则是基于传统的 pixel 空间）。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

Stable Diffusion 重要开源技术路线：全民训练，无尽的模型生态

仅依靠 SD 官方基础版本大模型并不足以产生五彩缤纷的 AI 绘画体验，它只是一个基础的“通用底子”，需要更多开发者在其之上进行更多样化、更高质量的风格化训练。便有了以模型广场、精准控制、训练框架为代表的开源模型生态的繁荣。可以适配千行百业的垂直模型开始涌现，同时也造就了行业应用 AI 的场景涌现。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

实现 AIGC 精准创作的“利刃”：ControlNet

 2023 年初，Stable Diffusion 生态重要控制组件 ControlNet 横空出世，给出了一条完美解决 AI 绘画发展进程中“精准控制”难题的道路。

 该开源技术使用了一种称为 “Conditional Generative Adversarial Networks”（条件生成对抗网络）的技术来生成图像，与传统的生成对抗网络不同，ControlNet 允许用户对生成的图像进行精细的控制。

 例如它将传统意义上的【设计】抽象分解为 AI 或者计算机视野下的【线/轮廓】、【深度】、【语义】、【姿势】等众多基础原子操作。根据应用场景，随心所欲地组合这些基本原子和元素，实现绘制的整体可控性和对大千世界通用场景的绘制。

 腾讯 AI 实验室开源推出的 IP-Adapter 模型为 Controlnet 生态做出了突出贡献，可识别参考图的风格和内容，然后生成相似的作品，且可搭配其他控制器使用。

中国AIGC产业联盟 x 无界AI：中国AIGC文生图产业白皮书

报告共计：48页