AIGC产品版权争议的症状，如何解毒？

AIGC行业资讯3年前 (2023)更新管理员

AIGC领域创新产品频出的当下，与之伴随的争议和担忧也正在同步升温。

　　一个月前，微软宣布旗下代码托管平台 GitHub 的AI生成代码辅助工具Copilot已集成了最新的GPT-4模型，开发者可以通过与机器人对话完成诸多日常工作。但这款大热的代码工具，目前正面临着内容使用版权方面的两起诉讼。

　　3月末，意大利成为首个明确禁用ChatGPT的国家；伊隆·马斯克等一千多名业界、学界人士则联署发表公开信，呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统，暂停时间至少6个月。

　　上述公开信还建议，AI开发人员应与政策制定者合作，共同推出更强大的AI监管治理系统，包括内容出处与水印系统，帮助鉴别区分AI合成内容和真实内容，并追踪模型的数据来源。

　　的确，大模型以“黑盒”形式迅速迭代发展，其智能程度惊艳世人，但数据内容版权保护以及由此带来的信息安全、隐私保护等问题，都未得到清晰解释。

　　01训练和输出阶段的版权争议

　　Copilot在2022年6月上线之初就因版权问题遭到抵制，有试用者称Copilot会直接复制粘贴大段开发者的代码。德州农工大学计算机教授 Tim Davis 在推特上发文称，Copilot 在没有标注归属信息的情况下，输出了大段其所有的受版权保护的代码。

　　程序员兼律师Matthew Butterick就旗帜鲜明地反对Copilot。2022年11月，他联合美国Joseph Saveri律师事务所的3位律师，正式对GitHub Copilot 及其背后的微软和OpenAI公司提起诉讼。这是美国第一起关于生成式人工智能的集体诉讼。

　　来源：Matthew Butterick博客

　　Butterick称，Copilot违反了开源许可协议，在模型训练阶段，使用了Github社区中的开源代码作为训练数据，但抹去了代码的归属信息。代码的原作者信息无法在输出结果中被看到，开源社区的开发者可能会因此失去获得客户的机会。

　　GitHub称Copilot生成代码的所有权和责任属于操作者。Butterick和律师团队的诉状已提交至美国加州北区地方法院，要求批准 90 亿美元的法定赔偿金。后来，该团队以类似的理由代表两名匿名软件开发者发起了第二起集体诉讼，被告方分别为GitHub和OpenAI。

　　在今年1月提交给旧金山联邦法院的法庭文件中，两家被告公司称，原告依靠假设事件来提出索赔，并未指出其个人如何切实地受到Copilot的伤害。GitHub表示，Copilot在工作原理上，不会夺走开源代码中的任何东西，相反，它根据从公开代码中学到的知识生成建议，帮助开发人员编写代码。

　　这起诉讼的相关法庭听证会将在今年5月举行。而AIGC领域的诉讼不止关于AI代码工具。

　　今年1月，Butterick和团队还代理了三位艺术家起诉AI艺术创作工具Stability Al、DeviantArt和Midjourney的案件，指控Stable Diffusion等工具是21世纪的“拼贴把戏”，它们在未经授权的情况下使用了大量艺术作品。今年1月到2月，美国盖蒂图片社（Getty Images）也加入起诉行列，先后在英国和美国对Stability AI提起诉讼，称其知识产权受到侵犯，被诉公司从Getty Images的数据库中复制了超过1200万张图像。

　　02“合理使用”定义模糊

　　这些站在被告席的AI技术公司，如果能证明在AI训练对数据的爬取中，模型训练的用途可以构成“合理使用”免责，就有可能免除内容侵权的诉讼风险。

　　但是关于“合理使用”的判断，美国的版权法采取“四要素”分析法，即使用目的和性质、版权作品的性质、所使用部分的量和对作品市场的影响。依据此标准，Copilot 对于现有代码的使用很难被纳入“合理使用”范畴。

　　在使用性质方面，自2022年7月，Copilot已正式开启收费模式，具有了盈利的目的；市场影响方面，当前各种类型的AI产品生成的内容会挤压原作者的生存空间，甚至会替代原有市场。

　　AI技术公司能拿出的一个对其有利的“先例”是Google Books对书籍文本的使用因具有变革性而获得“合理使用”免责。Copilot对代码的使用方式似乎也是具有变革性的，有律师认为，它的“合理使用”辩护可能因此得到支持。

　　对于监管机构来说，“合理使用”认定困境主要在于，如果训练AI模型的数据不属于该范围，那么科技公司就必须向数据所有者支付版权费用，这会阻碍该新兴领域的发展；但如果认定属于“合理使用”，可能导致科技公司肆意使用人类劳动成果。目前，英国知识产权局为促进人工智能发展，已允许出于任何目的的文本和数据挖掘行为。

　　03AIGC作品享有版权吗

　　今年3月，美国版权局（USCO）发布了一份关于AIGC作品版权的新指南，对AI作品的版权条件进行了说明。指南中提到，通过ChatGPT等AI工具直接生成的作品不受版权法保护，仅以AI作为辅助工具的人类创作的作品可以予以版权支持。

　　这份指南特别指出，版权只能保护人类创作的作品，宪法和版权法中使用的术语“作者”排除了非人类。

　　针对艺术家卡什塔诺娃（Kris Kashtanova）的作品《黎明的曙光》的版权认定问题，美国版权局今年2月指出，由艺术家本人撰写和编排的文字部分受版权保护，但使用Midjourney制作的图像不享有版权，理由是这些图像“并非人类创作的产物”。

　　《黎明的曙光》封面和扉页。| 来源：美国版权局

　　对于美国版权局的这一主张，计算科学家斯蒂芬·泰勒（Stephen Thaler）并不同意。他用自己发明的AI程序DABUS制作了一款塑料食品容器和一款闪烁的信标灯，从2018年开始向全球很多国家申请专利。截至目前，除了南非，其他国家均对泰勒的版权申请予以否决，理由是：机器人不具备“发明人”地位。

　　泰勒认为，版权法没有理由将作者限制为自然人，不应将专利所有者限制为人类。他还称，AI正被用于医学、能源等领域的创新，拒绝AI生成作品专利认证会削弱专利系统的能力，且不利于推动创新和技术进步。

　　基于现有的法律边界，由AIGC引发的争议和诉讼将会越来越多。

　　斯坦福法学院教授Mark Lemley和Bryan Casey提出，AI训练所使用的是版权作品中的思想、事实和功能要素，但这些要素并不受版权法保护，因此应该允许AI公司爬取学习这些不受版权保护的内容，实现所谓的“合理学习”。

　　但是，在推行“合理学习 ”的提议之前，人工智能算法“黑箱”带来的信息不透明的问题亟待解决。如果版权持有者无法获得个人作品如何被AI平台使用的信息，他们难免会假设最坏的情况。

　　为了规避内容版权风险，AI初创公司ServiceNow Research和HuggingFace创建的AI训练数据集“The Stack”，只包含开源许可要求宽松的代码等安全数据，并为开发人员提供了简单方便的数据删除机制，但目前使用这种方法的公司并不多。

　　去年10月，付费图库网站Shutterstock宣布与OpenAI建立长期合作关系，同时宣布启动“贡献者基金”计划，当创作者上传到Shutterstock的作品被用于训练AI模型时，Shutterstock会补偿给创作者一笔资金。艺术社区DeviantArt则在网站上提供了选项，艺术家可以选择阻止第三方以AI训练目的抓取他们的内容。

　　Shutterstock与OpenAI的合作方案，很容易让人联想到过去20年数字音乐版权之争最终各方握手合作的场景。

　　4月18日，社交新闻网站Reddit发布博客表示，计划以收费模式，为需要额外功能、更高的使用限制和更广泛的使用权的第三方推出一个新的高级访问。“Reddit的数据库真的很有价值……我们不需要将所有这些价值免费提供给世界上最大的一些公司。”Reddit联合创始人兼首席执行官Steve Huffman 对媒体表示。早在2016年就有新闻报道提及openAI利用Reddit的海量新闻数据训练聊天机器人。

　　每一项新技术在推广之初几乎都会因没有成文法或判例法可以覆盖而面临法律挑战，但争议最终都会在立法修订、诉讼案例的丰富与利益相关方长期谈判的推进中得到解决。在本世纪初的音乐盗版争议中，因牵涉的版权持有人、中介机构和许可类型众多，音乐内容的版权问题十分棘手，但通过利益相关者的谈判及Napster案等经典判例的推动，在线音乐平台与唱片公司最终达成许可交易，实现了版权内容的合法引入。AI技术在内容版权上的纠葛，背后的技术复杂性远远高于数字音乐的使用场景。机器智慧的最终目标当然是让人类受益，但实现这个目标还有一段距离。