谷歌的JEST算法自动进行AI训练数据集筛选并减少训练计算

Google DeepMind发布新算法JEST，用于优化AI训练数据集

Google DeepMind最近发布了一种名为JEST（Multimodal Contrastive Learning with Joint Example Selection）的新算法，用于优化AI训练数据集。该算法通过使用预训练模型对数据批次的可学习性进行评分，从而自动化数据集的筛选过程。实验表明，使用JEST筛选的数据集训练的图像-文本模型，所需的计算量比基线方法少10倍。

JEST的核心思想

JEST的主要目标是解决训练数据集的筛选问题，即从数据集中选择对模型训练最有效的样本。传统的手动筛选方法耗时且效率低，JEST通过以下方式自动化这一过程：

可学习性评分：JEST使用预训练的参考模型和学习模型来计算数据批次的可学习性评分。该评分结合了参考模型和学习模型的损失值。
筛选标准：JEST选择那些对学习模型损失高但对参考模型损失低的数据批次，这些数据被定义为“未学习但可学习”的样本。
数据分布引导：JEST能够将筛选过程引导至较小、精心策划的数据集的分布，从而实现数据质量的提升。

JEST的工作流程

JEST在训练过程中应用，具体步骤如下：

数据批次选择：给定一个大型数据集，JEST通过迭代计算先前采样子批次的联合可学习性来选择新的子批次。
高效评分：为了减少计算成本，JEST使用模型近似方法进行评分，例如在视觉组件中减少层数或图像块。
分辨率调整：研究人员通过在不同图像分辨率下训练学习模型，进一步提高了效率。

实验结果

DeepMind团队进行了多项实验来评估JEST的性能：

参考模型训练：团队基于Web Language Image (WebLI)数据集训练了一个图像-文本参考模型。
学习模型训练：使用JEST和基线方法（均匀批次选择）分别训练学习模型。
性能对比：使用JEST训练的模型在基准测试中表现与基线模型相当，但所需的训练FLOPS减少了10倍。

社区反应

在Hacker News的讨论中，多个用户对DeepMind的工作表示赞赏：

方法论重要性：用户认为JEST的方法论具有重要意义，尤其是在使用高质量数据训练小型模型作为评分模型方面。
类似技术对比：有用户指出JEST与另一种名为Cappy的方法类似，两者都使用了预训练的小型评分模型。此外，RHO-LOSS也是JEST的灵感来源之一，并且是开源的。

总结

JEST通过自动化数据集筛选过程，显著减少了训练AI模型所需的计算量，并提升了模型性能。尽管Google尚未开源JEST，但其相关技术（如RHO-LOSS）已可供公开使用。这一进展为AI训练数据的优化提供了新的思路和方法。