主要观点:近年来众多原告起诉 AI 公司用版权材料训练模型,关键问题是 AI 模型是否易复制原告版权内容。研究发现不同规模的 Meta 模型对《哈利·波特与魔法石》的记忆程度不同,Llama 3.1 70B 记忆了 42%,Llama 1 65B 仅为 4.4%,且更易复制热门书籍。研究通过计算概率来测量记忆,表明生成特定 50 令牌序列的概率极小,若模型生成则可能来自训练数据。研究虽证明《哈利·波特与魔法石》部分内容被复制进模型,但不知原因。关于训练模型使用版权作品侵权有三种理论,Llama 3.1 70B 记忆大量《哈利·波特》内容可能影响版权案中公平使用的考量,且开放权重模型可能比封闭权重模型面临更大法律风险,法官对开放权重模型的态度存在分歧。
关键信息:
- 原告包括书籍、报纸等出版商,起诉 AI 公司用版权材料训练模型。
- 研究以 Books3 数据集训练的五个流行开放权重模型为对象,测试其复制文本能力。
- 不同 Meta 模型对《哈利·波特与魔法石》的记忆程度差异大,Llama 3.1 70B 记忆最多。
- 通过计算概率测量记忆,模型生成特定序列概率极小,若生成则可能来自训练数据。
- 研究证明《哈利·波特与魔法石》部分内容被复制进模型,但不知原因及方式。
- 关于训练模型使用版权作品侵权有三种理论,Llama 3.1 70B 记忆大量内容影响公平使用考量。
- 开放权重模型比封闭权重模型面临更大法律风险,法官对开放权重模型态度分歧。
重要细节:
- 《纽约时报》对 OpenAI 提起诉讼,OpenAI 称其为“边缘行为”并努力解决。
- 研究由斯坦福、康奈尔和西弗吉尼亚大学的团队进行,发表于上月。
- 以《哈利·波特与魔法石》为例说明模型复制文本的情况,不同模型复制能力不同。
- 介绍测量记忆的方法,通过计算每个令牌的概率并相乘来估计特定响应的概率。
- 研究中对《哈利·波特与魔法石》的定义严格,仅计算精确匹配的情况。
- 关于训练模型使用版权作品侵权的三种理论及各自影响。
- 谷歌在书籍案中的先例及对 Meta 的影响。
- 开放权重模型和封闭权重模型在法律风险上的差异及法官的态度。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。