研究：元 AI 模型可以复制《哈利·波特》书籍的近一半内容

主要观点：近年来众多原告起诉 AI 公司用版权材料训练模型，关键问题是 AI 模型是否易复制原告版权内容。研究发现不同规模的 Meta 模型对《哈利·波特与魔法石》的记忆程度不同，Llama 3.1 70B 记忆了 42%，Llama 1 65B 仅为 4.4%，且更易复制热门书籍。研究通过计算概率来测量记忆，表明生成特定 50 令牌序列的概率极小，若模型生成则可能来自训练数据。研究虽证明《哈利·波特与魔法石》部分内容被复制进模型，但不知原因。关于训练模型使用版权作品侵权有三种理论，Llama 3.1 70B 记忆大量《哈利·波特》内容可能影响版权案中公平使用的考量，且开放权重模型可能比封闭权重模型面临更大法律风险，法官对开放权重模型的态度存在分歧。

关键信息：

原告包括书籍、报纸等出版商，起诉 AI 公司用版权材料训练模型。
研究以 Books3 数据集训练的五个流行开放权重模型为对象，测试其复制文本能力。
不同 Meta 模型对《哈利·波特与魔法石》的记忆程度差异大，Llama 3.1 70B 记忆最多。
通过计算概率测量记忆，模型生成特定序列概率极小，若生成则可能来自训练数据。
研究证明《哈利·波特与魔法石》部分内容被复制进模型，但不知原因及方式。
关于训练模型使用版权作品侵权有三种理论，Llama 3.1 70B 记忆大量内容影响公平使用考量。
开放权重模型比封闭权重模型面临更大法律风险，法官对开放权重模型态度分歧。

重要细节：

《纽约时报》对 OpenAI 提起诉讼，OpenAI 称其为“边缘行为”并努力解决。
研究由斯坦福、康奈尔和西弗吉尼亚大学的团队进行，发表于上月。
以《哈利·波特与魔法石》为例说明模型复制文本的情况，不同模型复制能力不同。
介绍测量记忆的方法，通过计算每个令牌的概率并相乘来估计特定响应的概率。
研究中对《哈利·波特与魔法石》的定义严格，仅计算精确匹配的情况。
关于训练模型使用版权作品侵权的三种理论及各自影响。
谷歌在书籍案中的先例及对 Meta 的影响。
开放权重模型和封闭权重模型在法律风险上的差异及法官的态度。