Google DeepMind发布新算法JEST,用于优化AI训练数据集
Google DeepMind最近发布了一种名为JEST(Multimodal Contrastive Learning with Joint Example Selection)的新算法,用于优化AI训练数据集。该算法通过使用预训练模型对数据批次的可学习性进行评分,从而自动化数据集的筛选过程。实验表明,使用JEST筛选的数据集训练的图像-文本模型,所需的计算量比基线方法少10倍。
JEST的核心思想
JEST的主要目标是解决训练数据集的筛选问题,即从数据集中选择对模型训练最有效的样本。传统的手动筛选方法耗时且效率低,JEST通过以下方式自动化这一过程:
- 可学习性评分:JEST使用预训练的参考模型和学习模型来计算数据批次的可学习性评分。该评分结合了参考模型和学习模型的损失值。
- 筛选标准:JEST选择那些对学习模型损失高但对参考模型损失低的数据批次,这些数据被定义为“未学习但可学习”的样本。
- 数据分布引导:JEST能够将筛选过程引导至较小、精心策划的数据集的分布,从而实现数据质量的提升。
JEST的工作流程
JEST在训练过程中应用,具体步骤如下:
- 数据批次选择:给定一个大型数据集,JEST通过迭代计算先前采样子批次的联合可学习性来选择新的子批次。
- 高效评分:为了减少计算成本,JEST使用模型近似方法进行评分,例如在视觉组件中减少层数或图像块。
- 分辨率调整:研究人员通过在不同图像分辨率下训练学习模型,进一步提高了效率。
实验结果
DeepMind团队进行了多项实验来评估JEST的性能:
- 参考模型训练:团队基于Web Language Image (WebLI)数据集训练了一个图像-文本参考模型。
- 学习模型训练:使用JEST和基线方法(均匀批次选择)分别训练学习模型。
- 性能对比:使用JEST训练的模型在基准测试中表现与基线模型相当,但所需的训练FLOPS减少了10倍。
社区反应
在Hacker News的讨论中,多个用户对DeepMind的工作表示赞赏:
- 方法论重要性:用户认为JEST的方法论具有重要意义,尤其是在使用高质量数据训练小型模型作为评分模型方面。
- 类似技术对比:有用户指出JEST与另一种名为Cappy的方法类似,两者都使用了预训练的小型评分模型。此外,RHO-LOSS也是JEST的灵感来源之一,并且是开源的。
总结
JEST通过自动化数据集筛选过程,显著减少了训练AI模型所需的计算量,并提升了模型性能。尽管Google尚未开源JEST,但其相关技术(如RHO-LOSS)已可供公开使用。这一进展为AI训练数据的优化提供了新的思路和方法。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。