人类创造公司（Anthropic）销毁了数百万本印刷书籍来构建其人工智能模型

主要观点：周一法院文件显示 AI 公司 Anthropic 花费数百万美元扫描印刷书籍来构建类似 ChatGPT 的 AI 助手 Claude，过程中切割并扫描书籍，仅为训练 AI 而丢弃原件，此行为细节被埋于版权裁决中。Anthropic 雇谷歌图书项目前负责人复制其成功书数字化方法，虽破坏性扫描常见但规模较大较特殊，法官裁定其为合理使用但需先合法购书并内部保存数字文件。背后原因是 AI 行业对高质量文本的渴望，出版商控制内容但 AI 公司不愿协商许可，首次销售原则提供 workaround，Anthic 起初选盗版书数字化，后因法律原因改用合法购买的旧印刷书进行破坏性扫描，虽法院文件未提及稀有书籍，但有其他非破坏性扫描方法，Harvard 正与微软合作用 100 万公共领域书籍训练 AI 且保存完好，而数百万被丢弃书籍曾教 Claude 提升。
关键信息：

Anthropic 花费数百万美元扫描书籍构建 Claude。
切割并扫描书籍后丢弃原件。
雇谷歌图书项目前负责人复制其方法。
破坏性扫描常见但 Anthropic 规模大。
法官裁定其为合理使用的条件。
AI 行业对高质量文本的需求。
首次销售原则提供的 workaround。
Anthropic 起初选盗版书后改用合法购买的旧书。
有其他非破坏性扫描方法。
Harvard 与微软合作训练 AI 并保存书籍。
重要细节：
2024 年 2 月 Anthropic 雇 Tom Turvey 获“世界上所有书籍”。
购买旧印刷书可避开许可提供高质量文本且破坏性扫描快。
公司花费“许多数百万美元”购买和扫描旧书。
法院文件未提及稀有书籍被销毁。
The Internet Archive 开创非破坏性扫描方法。
OpenAI 和微软与 Harvard 合作训练 AI 。
Claude 对自身构建过程的回应。