研究：Meta AI 模型可以重现《哈利·波特》书籍的近一半内容

发布于 6 月 20 日

主要观点：近年来众多原告起诉 AI 公司使用其版权材料训练模型，关键问题是 AI 模型是否易生成原告版权内容的逐字摘录。研究发现不同规模的 Meta 模型对《哈利·波特与魔法石》等书籍的记忆程度不同，Llama 3.1 70B 记忆了 42%的该书内容，且更易生成流行书籍的摘录，这引发了关于 AI 版权的讨论。
关键信息：

多家原告起诉 AI 公司，如《纽约时报》起诉 OpenAI。
研究以 Books3 数据集训练的五个流行开放权重模型为对象，发现不同模型对书籍的记忆程度差异大。
通过计算概率来估计模型生成特定文本的可能性，以此衡量记忆程度。
研究表明 Llama 3.1 70B 对《哈利·波特与魔法石》记忆深刻，且对流行书籍记忆多于冷门书籍。
存在三种关于在版权作品上训练模型侵犯版权的理论。
新研究使 AI 版权辩论更复杂，开放权重模型可能面临更大法律风险。
重要细节：
在《纽约时报》对 OpenAI 的诉讼中，GPT-4 复制了《纽约时报》的故事。OpenAI 称其为“边缘行为”并努力解决。
研究中计算概率的方法，如通过多个提示和查找概率值相乘来估计模型生成特定文本的概率。
对“记忆”的定义严格，仅计算模型逐字复制的情况，若考虑部分匹配，记忆量会更高。
关于 Llama 模型中《哈利·波特》内容的来源，推测可能是训练数据量大或包含第三方来源。
三种版权侵权理论，目前讨论多集中于训练过程本身侵权的理论，而新研究使情况更复杂。
开放权重模型因可研究性等问题面临更大法律风险，而封闭权重模型则有一定优势。

阅读 26