人类创造公司(Anthropic)销毁了数百万本印刷书籍来构建其人工智能模型

主要观点:周一法院文件显示 AI 公司 Anthropic 花费数百万美元扫描印刷书籍来构建类似 ChatGPT 的 AI 助手 Claude,过程中切割并扫描书籍,仅为训练 AI 而丢弃原件,此行为细节被埋于版权裁决中。Anthropic 雇谷歌图书项目前负责人复制其成功书数字化方法,虽破坏性扫描常见但规模较大较特殊,法官裁定其为合理使用但需先合法购书并内部保存数字文件。背后原因是 AI 行业对高质量文本的渴望,出版商控制内容但 AI 公司不愿协商许可,首次销售原则提供 workaround,Anthic 起初选盗版书数字化,后因法律原因改用合法购买的旧印刷书进行破坏性扫描,虽法院文件未提及稀有书籍,但有其他非破坏性扫描方法,Harvard 正与微软合作用 100 万公共领域书籍训练 AI 且保存完好,而数百万被丢弃书籍曾教 Claude 提升。
关键信息

  • Anthropic 花费数百万美元扫描书籍构建 Claude。
  • 切割并扫描书籍后丢弃原件。
  • 雇谷歌图书项目前负责人复制其方法。
  • 破坏性扫描常见但 Anthropic 规模大。
  • 法官裁定其为合理使用的条件。
  • AI 行业对高质量文本的需求。
  • 首次销售原则提供的 workaround。
  • Anthropic 起初选盗版书后改用合法购买的旧书。
  • 有其他非破坏性扫描方法。
  • Harvard 与微软合作训练 AI 并保存书籍。
    重要细节
  • 2024 年 2 月 Anthropic 雇 Tom Turvey 获“世界上所有书籍”。
  • 购买旧印刷书可避开许可提供高质量文本且破坏性扫描快。
  • 公司花费“许多数百万美元”购买和扫描旧书。
  • 法院文件未提及稀有书籍被销毁。
  • The Internet Archive 开创非破坏性扫描方法。
  • OpenAI 和微软与 Harvard 合作训练 AI 。
  • Claude 对自身构建过程的回应。
阅读 591
0 条评论