主要观点:近年来众多原告起诉 AI 公司使用其版权材料训练模型,关键问题是 AI 模型是否易生成原告版权内容的逐字摘录。研究发现不同规模的 Meta 模型对《哈利·波特与魔法石》等书籍的记忆程度不同,Llama 3.1 70B 记忆了 42%的该书内容,且更易生成流行书籍的摘录,这引发了关于 AI 版权的讨论。
关键信息:
- 多家原告起诉 AI 公司,如《纽约时报》起诉 OpenAI。
- 研究以 Books3 数据集训练的五个流行开放权重模型为对象,发现不同模型对书籍的记忆程度差异大。
- 通过计算概率来估计模型生成特定文本的可能性,以此衡量记忆程度。
- 研究表明 Llama 3.1 70B 对《哈利·波特与魔法石》记忆深刻,且对流行书籍记忆多于冷门书籍。
- 存在三种关于在版权作品上训练模型侵犯版权的理论。
- 新研究使 AI 版权辩论更复杂,开放权重模型可能面临更大法律风险。
重要细节: - 在《纽约时报》对 OpenAI 的诉讼中,GPT-4 复制了《纽约时报》的故事。OpenAI 称其为“边缘行为”并努力解决。
- 研究中计算概率的方法,如通过多个提示和查找概率值相乘来估计模型生成特定文本的概率。
- 对“记忆”的定义严格,仅计算模型逐字复制的情况,若考虑部分匹配,记忆量会更高。
- 关于 Llama 模型中《哈利·波特》内容的来源,推测可能是训练数据量大或包含第三方来源。
- 三种版权侵权理论,目前讨论多集中于训练过程本身侵权的理论,而新研究使情况更复杂。
- 开放权重模型因可研究性等问题面临更大法律风险,而封闭权重模型则有一定优势。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。