通用性·亚历克斯·盖纳

主要观点:

  • 两组科学家构建的机器学习模型在实际应用中失败,原因是模型缺乏通用性,是训练数据中的相关性导致,而非研究者所预期。
  • 让语言模型(LLM)做不同任务表现不同,如生成 HTML 单文件 MP3 播放器表现完美,修改 Rust 库则失败,其缺乏通用性的原因比分类模型更复杂。
  • 讨论模型能力时不应以人类发展阶段类比,而应具体说明在哪些任务上有用,同时需要更严格地评估模型在具体任务上的表现,避免数据集污染。

关键信息:

  • 两组科学家构建的模型在实际应用中无用,分别是检测放射扫描中的尺子和根据 TCP 数据包的 MTU 分类。
  • LLM 在不同任务上表现差异大,如前端 JavaScript 好而 proc-macro Rust 差。
  • 讨论模型能力时以人类发展类比是错误的,应具体说明任务。
  • 评估模型需更严格,避免数据集污染。

重要细节:

  • 科学家训练模型时用随机标记数据,测试保留数据,模型表现良好但实际应用失败。
  • LLM 构建过程及在不同任务上的具体表现情况。
  • 人类对自身解决问题的通用性直觉与线性代数无关,LLM 也不同。
  • 评估机器学习系统时常见数据集污染问题影响评估结果。
阅读 8
0 条评论