美国首例AI训练数据版权案：从汤森路透诉罗斯案看AI训练数据的“合理使用”

随着人工智能（AI）技术的快速发展和广泛应用，复杂的版权问题也随之而来。2025年2月11日，美国特拉华州联邦地区法院对汤森路透（Thomson Reuters）诉罗斯（Ross）案作出部分简易判决，认定被告罗斯公司未经授权使用受版权保护的作品训练AI法律检索工具的行为构成版权侵权，且不属于合理使用。[1]这是美国首个就AI训练数据作出实质性判决的案件。本文将重点分析其合理使用论述中对于“转换性目的（Transformative Purpose）”以及“市场替代（Market Substitute）”的认定，并探讨该判决对AI产业的启示。

一、案件背景
汤森路透（“原告”）是全球知名法律信息服务商，其Westlaw数据库包含法律文献、案头批注和关键编码系统。罗斯公司（“被告”）是一家开发AI法律检索工具的公司。其在申请使用Westlaw数据被原告拒绝后，通过第三方LegalEase获取了25,000份基于Westlaw案头批注编写的批量备忘录，并用于训练其AI法律搜索引擎。随后原告以被告构成版权侵权为由提起诉讼，被告则以合理使用等理由抗辩，称其使用具有转换性，且复制仅为开发新型工具的“中间步骤”，故不构成侵权。

2023年，美国特拉华州联邦地区法院驳回了原告的简易判决动议，认为案头批注及关键编码系统的原创性和合理使用问题需由陪审团审理。但是两年后的2025年2月11日，法院修正了其之前的判决，认定原告诉由部分胜诉，并明确被告未经授权使用Westlaw的2243个案头批注进行AI训练的行为构成版权侵权，且不属于合理使用。

二、案件争议焦点
在美国版权法框架下，原告在提起版权侵权之诉时，需证明以下几点：第一，原告是其受版权保护作品的所有者；第二，被告未经授权侵犯了原告的版权（如未经授权复制了原告受版权保护的内容）。

原告的案头批注和关键编码系统是否受版权保护
本案中，在认定原告是否对于“案头批注和关键编码系统”享有版权时，法院认为：虽然司法判决书不受版权保护，但是原告基于司法判决书所整理的案头批注体现了其对判决书的选择、提炼和编排，属于汇编作品，具有原创性。另，其中的关键编码系统虽由计算机程序主导且主题与常见法律原则一致，但因由原告独立创建，故也具有原创性。综上，法院认为原告的案头批注和关键编码系统满足了“最低限度的创造性”，可受到版权保护。[2]
被告是否抄袭了原告受版权保护的内容
法院进一步分析了被告是否抄袭了原告受版权保护的内容并构成实质性相似（Substantial Similarity）。在实质性相似分析中，法院指出，判断标准在于被控侵权作品是否“实质性地使用（materially misappropriates）”了受保护作品的原创表达，且需根据可保护表达的强度调整相似性要求（即作品中可受保护的表达越少，被控侵权作品与其相似性要求就越高）。对于2243个案头批注，法院认为其与“批量备忘录”问题在语言上明显构成实质性相似。
合理使用之抗辩分析
合理使用是美国版权法中的重要抗辩机制，旨在平衡版权保护与社会利益。对于被告提出的合理使用抗辩，法院认为要素一和要素四的判定最为关键：

要素一：使用的目的和性质
法院认为被告对案头批注的使用具有商业性质，且与原告的产品存在直接竞争关系，并缺乏“转换性目的（Transformative Purpose）”，因此要素一更有利于原告。

本案中，要素一的真正难点在于对转换性的判断。法官参考了美国联邦最高法院于2023年在Andy Warhol Foundation for the Visual Arts诉Goldsmith一案中对合理使用要素一的分析标准[3]，认为被告对案头批注的使用目的与原告并无本质不同，是专门用于开发与Westlaw直接竞争的同类法律检索工具（即通过输入法律问题，输出已公开的相关司法意见），从而认定被告对案头批注的商业使用不具有转换性。

此外，法院对中间复制（Intermediate Copying）进行了详细分析。被告主张其对案头批注的使用属于中间复制，因为这些案头批注仅作为训练其AI模型的中间步骤，并未直接出现在其最终产品中。法院指出，被告的AI模型并非生成新内容的生成式AI，而是直接检索输出已有的司法意见。法院在分析被告援引的相关案例[4]时提出了两点区分：首先，这些案例涉及的是计算机代码，与其他类型的受版权保护内容不同；其次，这些案例中的复制行为是严格必要的，目的是获取代码背后的思想和功能。法院认为上述两点在本案中均不适用，因为被告复制Westlaw编辑们的创造性表达用于其AI训练，并非提炼案头批注所必需，而是为了更便利地开发一个与Westlaw竞争的法律检索工具。综上，法院认为要素一有利于原告。

要素四：市场影响
法院认为被告的复制行为对原告的原作品市场（包括现有市场和潜在的衍生市场）均产生了不利影响，因此要素四更有利于原告。法院强调其认为要素四是合理使用中最重要的单一要素。本案中，一方面，法院认为被告的工具旨在提供与Westlaw功能相同的法律检索工具，属于市场替代（Market Substitute），构成直接竞争，可能对其现有市场造成不利影响（例如减少Westlaw的订阅用户量）；另一方面，法院分析，即使原告尚未或者暂无计划使用Westlaw的相关数据训练自行开发的AI工具，被告的复制行为也可能影响到其与其他第三方的潜在AI训练数据许可市场。因被告未能提供足够证据证明这些市场不存在或不受影响，法院认定其未满足举证责任。

对于要素二（作品的性质），法院认为案头批注虽然具有一定的创造性，但总体上属于对事实的汇编作品，相应的保护程度较低，因此该要素有利于被告。对于要素三（使用的数量和质量），法院认为虽然被告可能使用了大量案头批注，但由于被告的最终输出中并未展示任何案头批注，这一要素对被告较为有利。

综上，法院认为支持原告的因素一和因素四更具决定性，因此驳回了被告的合理使用抗辩。

三、案件启示
这份判决是美国首例涉及AI与版权法交叉问题的实质性裁决，其在合理使用问题上的讨论值得关注。正如法官在判决中所称，这不是一个典型意义的生成式AI的版权案例。本案中，被告的AI法律检索工具并不会像生成式AI一样生成“新的内容”，而仅是显示“已存在的司法判决意见”。因此，法院认定被告使用原告受版权保护作品的目的与原告相同——即帮助法律研究者查找相关司法意见，缺乏“转换性”使用目的，故驳回了被告合理使用的抗辩。对此，产业界不禁要问，如果本案是一个典型的生成式AI版权侵权案例——即被告AI公司未经授权抓取复制原告受版权保护的作品的目的是作为训练AI数据之目的，而其AIGC生成内容又属于新的内容，那么AI公司的这种训练AI数据之目的是否就满足了“转换性使用”的分析，从而有可能被判定为不侵权呢？

目前，中美两国都有若干起针对AI公司未经授权使用受版权保护作品的相关侵权之诉，[5]我们对各国法院就此类AI训练数据侵权案的判决拭目以待。

美国首例AI训练数据版权案：从汤森路透诉罗斯案看AI训练数据的“合理使用”

睿智的篮球_lHiLC

引用和评论

Dify vs Langchain：AI应用开发的全面分析

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？