在过去几年中,主动学习 (AL) 策略已被证明可用于降低标签成本。但是当涉及现实世界的数据集时,当前的方法效果并不理想,现实世界的些数据集存在缺陷和许多特征,使得从中学习具有更大挑战性:

真实世界的数据集场景:(a) 稀有类:数字 5 和 8 很少见;(b) 冗余:数字 0 和 1 是冗余的;© 分布外 (OOD):数字分类中的字母 A、R、B、F。

首先,现实世界的数据集是不平衡的有些类别非常罕见。这种不平衡的一些例子来自医学成像领域;例如,在癌症成像数据集中,癌细胞的图像通常比它们的良性对应物更罕见。另一个例子是在自动驾驶汽车领域,我们希望准确地检测所有物体。但是由于某些情况下的某些对象是罕见的,像下图中黑暗中的行人,一般模型经常无法检测和分类稀有类别。

左:Realistic 数据集中的稀有类 右:Uber自动驾驶汽车在亚利桑那州坦佩市发生车祸

其次,现实世界的数据有很多冗余。这种冗余在通过从视频中采样帧创建的数据集中更为突出(高速公路上行驶的汽车的镜头或监控摄像头的镜头)。

现实中冗余的数据——来自自动驾驶汽车(KITTI 数据集)的镜头的帧样本

第三,有分布外(OOD)数据是很常见的,其中一些未标记的数据与手头的任务无关。例如,在医学成像领域,数据集中的一些x射线图像并不是正常获取得到的数据,从而导致分布不均匀。

该论文的工作是解决以下问题:

是否可以有适用于广泛现实场景的单一并且统一的主动学习框架来训练机器学习模型?

论文提出了SIMILAR(一个统一的主动学习框架),并且说可以作为前面讨论的许多现实场景的一站式解决方案。该框架的主要思想是通过适当选择一个查询集Q和一个私有集p,利用子模块信息测量度(SIM:submodular information measures)之间的关系,论文中说其统一性来自于子模块条件互信息(SCMI:submodular conditional mutual informatio)丰富的建模能力。我们从SCMI中得到了子模块互信息(SMI:submodular mutual informatio)和子模块条件增益(SCG:submodular conditional gain)公式,并将它们应用于不同的现实场景中。

上图为通过Q和P选择SIM及其在现实场景中的应用关系

论文中的模型最后使用线性层获得标签来表示每个数据点,将每个数据点的假设标签值表示分类的最大概率。为了实例化基于SIM的函数,使用从主动学习当前轮次获得模型的梯度来计算一个相似度核。最后利用贪心策略对子模块函数进行优化,获得需要(可用于)标记的未标记数据的子集。一旦这些子集标记完成,我们将其添加到标记的训练数据集中,并继续进行下一次迭代。

在上面的数字分类的真实数据集场景示例中,我们可以应用如下的SIMILAR框架。

适当选择查询集和条件集:

a) 通过优化SMI函数,以R包含5,8作为查询,找到罕见数字5,8∈U;

b) 通过优化f(A|L),从U中选取不同的样本,这些样本在当前标记集 L 中也不同(这里我们要避免数字0,1∈U,因为它们都存在于L中);

c) 通过优化I_f(A;I|O)在U中选择数字(分布内的),避免字母(分布外的),其中 I 是到目前为止在主动学习中选择的分布内标记点,O 是分布外点 。

根据测试,在CIFAR-10、MNIST和ImageNet等几种图像分类任务中,SIMILAR算法的性能显著优于现有的主动学习算法,在稀有类情况下的性能达到≈5% - 18%,在分布外数据情况下的性能达到≈5% - 10%。

CIFAR-10稀有类上,SMI函数(特别是LOGDETMI, FLQMI)的表现比其他基线高出10%以上。

OOD数据的未标记集。i) SCMI函数始终优于基线5% - 10%,ii) SCMI还优于相应的SMI

CIFAR-10在10倍冗余条件下。CG函数LOGDETCG, FLCG)选择了更多独特的点,并优于现有的算法,包括BADGE。

SIMILAR是向主动学习现实场景方向迈出的有希望的一步。

论文: https://proceedings.neurips.c...

代码:https://github.com/decile-tea...

如果你想测试一下效果,论文的作者还提供了上面这些案例的源代码:

  1. Rare Classes Tutorial on CIFAR-10 https://github.com/decile-tea...
  2. Rare Classes Tutorial on Medical Data https://github.com/decile-tea...
  3. Redundancy Tutorial https://github.com/decile-tea...
  4. Out-of-distribution data Tutorial https://github.com/decile-tea...

本文作者:Suraj Kothawade


deephub
119 声望92 粉丝