科学家曾经囤积前核时代的钢铁,而现在我们正在囤积前人工智能内容

主要观点:Former Cloudflare 高管 John Graham-Cumming 推出 lowbackgroundsteel.ai 网站,将预 AI 时代人类创造的内容视为珍贵商品,旨在指向 AI 生成内容爆发前创建的文本、图像和视频源,以保存非 AI 媒体的独特人类特质。该网站名字源于冷战时期的科学现象“低背景钢”,随着 2022 年生成 AI 模型的出现,研究人员难以确保互联网上的媒体是由人类创建而未使用 AI 工具,如 wordfreq 项目因 AI 生成内容而停止更新。一些研究担心 AI 模型在自身输出上训练会导致质量下降,但证据表明在一定条件下这种担忧可能被夸大,适当整合合成数据和真实数据可辅助训练新模型。Graham-Cumming 热衷于技术保存工作,他的预 AI 网站于 2023 年 3 月创建,指向多个预 AI 内容存档,接受其他预 AI 内容源的提交,旨在记录 AI 时代前的人类创造力,保护人类创造力的来源。

关键信息

  • John Graham-Cumming 推出 lowbackgroundsteel.ai 网站。
  • 网站旨在指向 AI 爆发前的内容源以保存人类特质。
  • 名字源于冷战“低背景钢”现象。
  • 2022 年生成 AI 模型出现使研究人员难确保媒体为人类创作。
  • wordfreq 项目因 AI 污染停止更新。
  • 担心 AI 模型在自身输出上训练致质量下降但证据表明在一定条件下可避免。
  • Graham-Cumming 热衷于技术保存工作,其网站于 2023 年 3 月创建,指向多个预 AI 内容存档并接受提交。

重要细节

  • 网站指向 2022 年 8 月的 Wikipedia 转储、Project Gutenberg 的公共领域书籍、Library of Congress 照片存档、GitHub 的 Arctic Code Vault 等。
  • wordfreq 项目曾通过分析数百万来源追踪 40 多种语言的单词频率使用情况,因互联网被大语言模型生成的内容污染而停止更新。
  • Gerstgrasser 等人的研究表明在合成数据与真实数据并存时可避免模型崩溃,且合成数据可辅助训练新模型。
  • Graham-Cumming 曾创建 POPFile 并成功请愿英国政府为迫害密码破译者 Alan Turing 道歉。
  • 网站通过 Tumblr 页面接受其他预 AI 内容源的提交,旨在记录 AI 时代前的人类创造力,其可能成为有价值的数字考古项目。
阅读 264
0 条评论