主要观点:周一法院文件显示 AI 公司 Anthropic 花费数百万美元扫描印刷书籍来构建类似 ChatGPT 的 AI 助手 Claude,过程中切割并扫描书籍,仅为训练 AI 而丢弃原件,此行为细节被埋于版权裁决中。Anthropic 雇谷歌图书项目前负责人复制其成功书数字化方法,虽破坏性扫描常见但规模较大较特殊,法官裁定其为合理使用但需先合法购书并内部保存数字文件。背后原因是 AI 行业对高质量文本的渴望,出版商控制内容但 AI 公司不愿协商许可,首次销售原则提供 workaround,Anthic 起初选盗版书数字化,后因法律原因改用合法购买的旧印刷书进行破坏性扫描,虽法院文件未提及稀有书籍,但有其他非破坏性扫描方法,Harvard 正与微软合作用 100 万公共领域书籍训练 AI 且保存完好,而数百万被丢弃书籍曾教 Claude 提升。
关键信息:
- Anthropic 花费数百万美元扫描书籍构建 Claude。
- 切割并扫描书籍后丢弃原件。
- 雇谷歌图书项目前负责人复制其方法。
- 破坏性扫描常见但 Anthropic 规模大。
- 法官裁定其为合理使用的条件。
- AI 行业对高质量文本的需求。
- 首次销售原则提供的 workaround。
- Anthropic 起初选盗版书后改用合法购买的旧书。
- 有其他非破坏性扫描方法。
- Harvard 与微软合作训练 AI 并保存书籍。
重要细节: - 2024 年 2 月 Anthropic 雇 Tom Turvey 获“世界上所有书籍”。
- 购买旧印刷书可避开许可提供高质量文本且破坏性扫描快。
- 公司花费“许多数百万美元”购买和扫描旧书。
- 法院文件未提及稀有书籍被销毁。
- The Internet Archive 开创非破坏性扫描方法。
- OpenAI 和微软与 Harvard 合作训练 AI 。
- Claude 对自身构建过程的回应。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。