版权与生成式人工智能:版权作品在AI应用中的最新进展
十月 13, 2025
原文发布于2025年9月2日
生成式人工智能(Generative AI)模型依赖数十亿受版权保护的作品作为训练数据。这些作品不仅是“数据”,更是受版权法保护的创造性表达。2025年5月,美国版权局(United States Copyright Office)针对生成式AI系统开发与部署中对版权作品使用的问题,发布了一份预发布报告(“报告”)。美国McGuireWoods LLP律师事务所近日撰文指出,该报告回应了国会质询和利益相关者关切,为评估AI训练引发的版权问题提供了分析框架,尤其关注合理使用与授权许可问题。
生成式AI的训练
生成式AI模型(如大语言模型和图像生成器)通过多阶段迭代训练开发,需要海量数据集,其中常包含受版权保护的作品。报告指出,训练数据的质量与多样性对模型性能至关重要,而数据通常通过网络爬取、第三方数据集获取,有时甚至来源于未经授权的渠道。开发流程可以暂停,并在恢复时使用不同数据集、调整目标或更换参与方。例如,Meta发布的生成式AI模型Llama 3被第三方用于创建和训练新模型(如Perplexity的Sonar和英伟达的Nemotron)。因此,关于“训练”模型的表述往往模糊了具体的数据来源、使用方式及使用主体。
版权关注要点
美国版权局指出AI开发过程中可能产生侵权风险的关键阶段包括:
- 数据收集与整理:下载、复制或修改作品以纳入训练数据集;
- 训练过程:使用作品调整模型参数,可能记忆受保护的表达内容;
- 部署应用:使用训练完成的模型生成可能类似或源自版权作品的内容;
- 检索增强生成(Retrieval-Augmented Generation, RAG):检索并整合外部内容,可能在输出中再现版权材料。
报告强调,如果缺乏授权许可或合法抗辩理由,上述行为可能构成对复制权、演绎作品权、公开展示权或公开表演权的侵权。
合理使用分析
报告提及的核心法律问题在于:在AI训练中使用版权作品是否可依据《版权法》第107条构成合理使用。合理使用分析涵盖四大要素:
- 使用目的与特征
核心争议在于AI训练是否具备“转换性(transformative)”。报告认为,生成式AI模型训练通常可能具备转换性,尤其用于研究、分析或非替代性任务时。但若训练或部署目的是生成与版权作品竞争或高度相似的内容,其转换性认定可能降低。美国版权局不认可“AI训练可类比人类学习”的观点,并指出AI训练涉及超大规模的复制与分析。 - 版权作品性质
高度创意作品受更强保护,一般不易认定为合理使用;事实性或功能性作品则可能更容易被认定为合理使用。生成式AI模型通常同时基于表达性与事实性内容进行训练。 - 使用部分的数量与实质性
AI训练通常涉及大规模复制整个作品,这通常不被认为合理使用。但如果复制为实现转换性目的所必需,且几乎不向公众提供复制内容,该因素的重要性可能降低。 - 市场损害
报告列举多种潜在市场损害,包括销售额损失、市场稀释(AI输出与原作品类型或风格竞争)、及许可机会损失。
美国版权局指出,合理使用认定高度依赖具体事实。非商业研究或分析等不涉及复制版权作品的使用可能构成合理使用;反之,为生成竞争性内容而大规模复制创意作品的商业用途,尤其在存在授权渠道时,不太可能被认定为合理使用。
随着生成式AI持续颠覆创意产业,美国法院正在界定算法时代合理使用的边界。在Bartz v. PBC案中,联邦法官的即席判决认定Anthropic使用合法购买和盗版书籍训练聊天机器人Claude构成合理使用。训练行为被认为具有转换性,类似于作者进行研究而非单纯复制。但在处理Anthropic为创建中央图书馆而保留的合法购买书籍数字化副本与盗版书籍时,法院对合法与非法获取作了区分。法院认为保留合法获取书籍的数字副本可能受保护,但保留超700万册盗版书籍不受保护。关于包含盗版书籍的中央图书馆,法院拒绝即席裁判,认定该行为不自动豁免Anthropic的盗版责任。该判决是首例认可大规模图书训练可能构成合理使用,但远非全面豁免。类似案件仍在进行中,这些诉讼检验转换性使用与公共利益是否能超越商业性质与复制规模。
AI训练授权许可方案
美国版权局同时评估了现有及提议的授权模式,以应对训练数据需求的增长。在版权集中且货币化成熟的领域,如摄影图片库和音乐,自愿许可被视为可行方案。但对于文学、新闻或公开网络内容,若缺乏基础设施支持,自愿许可可能不实际。版权局强调集体管理组织在降低交易成本和推动批量许可方面的潜力,同时考虑反垄断问题及进一步指导需求。报告还讨论法定途径,如强制许可、扩展集体许可及退出机制,作为市场方案不足时的备选。法律框架必须在可行性、公平性和创新性之间取得平衡,避免给开发者和版权所有者带来过度负担。
国际实践
报告考察了国际做法,包括欧盟的文本与数据挖掘例外、日本的机器学习版权豁免及以色列的合理使用框架。这些制度显示了对AI训练的不同开放程度,为跨境数据训练带来挑战。美国版权局建议可能需要统一版权标准以支持全球AI研究与商业。
政策建议
美国版权局建议允许自愿许可市场在无政府干预下发展;若特定领域出现市场失灵,可采用扩展集体许可等针对性方案。报告强调需在技术创新与创作者权利激励间取得平衡,并承诺随着法律与技术演变持续监督并向国会提供建议。
报告核心要点
- 生成式AI训练中使用版权作品引发重大法律与政策问题,尤其在合理使用与授权方面;
- 合理使用认定需基于具体事实,取决于使用目的、性质、数量及市场影响;
- AI训练自愿授权市场正在形成,但大规模授权许可仍面临挑战;
- 政府干预为时过早,建议继续推动市场发展,并针对市场失灵采取针对性解决方案;
- 美国版权局将持续监测进展并适时提供指导。
如果您需要针对特定情况或问题的法律建议,应咨询专业律师,或垂询
刘毅 律师,富杰律师事务所,leo.liu@fujae.com。
本法律时评文章由美国McGuireWoods LLP律师事务所原创,并由上海富杰律师事务所获得许可转载并摘要发布。本评论文章旨在面向一般受众,提供观察性质的信息和不具特别目的的评论,并不针对特定情况或问题提供任何性质的法律建议。美国McGuireWoods LLP律师事务所不会因提供此等不具特别目的的信息而与任何对方建立律师-客户关系。若有任何人依赖本评论文章中的信息行事,也不与美国McGuireWoods LLP律师事务所形成此类律师-客户关系。
原文是英文文件,原载于: Copyright and Generative AI: Recent Developments on the Use of Copyrighted Works in AI – McGuireWoods,由上海富杰律师事务所以中文摘录。
©2025 McGuireWoods LLP,保留所有权利。禁止复制本文章内容。
返回
