图片

1、文章介绍

小样本类增量学习(Few-shot Class Incremental Learning, FSCIL)代表了机器学习领域中一个高度挑战性的议题,其核心目标在于能够在仅有限的数据支持下识别新类别,同时保留对已学习类别的认知,而无须重新训练整个模型。这一目标在模型需适应新类别的同时使用有限训练数据的情况下尤为艰巨。

针对上述挑战,我们提出了一种创新性策略,称为多重混合自蒸馏(Multiple Mixing Self-Distillation, M2SD)。该策略特别设计了一种双分支架构,旨在有效扩展特征空间,以纳入新的类别。更进一步,我们引入了一种特征增强机制,通过自蒸馏过程将增强的特征反馈给基础网络,从而在引入新类别的同时,显著提升模型的分类性能。训练阶段完成后,系统将仅保留主网络部分,用于对新类别实例进行准确分类,这一策略确保了在不损害模型效率的条件下,实现对新旧类别的高效识别。
图片

2、出发点

小样本类增量学习任务核心面临的挑战是如何同时应对小样本学习中的过拟合问题(Overfitting)以及类增量学习中的灾难性遗忘问题(Catastrophic forgetting),这两个问题相互交织,共同影响模型的学习效率和最终性能。

小样本学习场景下,由于数据极度有限,模型更易学习到样本的特异性,增加了过拟合的风险。引入类增量学习需求时,即模型需不断学习新类别数据,使过拟合问题更加复杂,因模型既要从少量数据中学习新知识,又要保持对旧知识的记忆,这在有限数据情境下易导致新数据过拟合,忽略旧知识的泛化和记忆。同时,类增量学习中的灾难性遗忘问题也特别明显。尝试学习新类别少量数据时,新信息可能干扰存储的旧类别信息,导致先前学习知识的遗忘。因此,即便模型在新类别数据上适应良好,过拟合和灾难性遗忘的双重影响下,其整体性能可能下降,无法保持多类别识别的一致性。

针对以上的挑战,大量现有研究通过在类增量过程中引入更加严格的正则化,致力于微调新模型参数以最小化对原始模型的影响,从而在学习新类知识的同时,最大程度保留旧类知识。然而,与这些传统正则化方法不同的是,FACT[1]理念提出了一种前瞻性的解决方案,即通过为新数据的到来做好准备,类似于软件更新中的向前兼容性,着重于在小样本类增量学习的基础学习阶段(Base Session)构建一个适用于后续增量学习阶段(Incremental Sessions)的特征空间。
受到FACT理念的启发,我们提出了一种创新的方法——多重混合自蒸馏(Multiple Mixing Self-Distillation for Few-shot Class-Incremental Learning, M2SD),旨在为类增量学习阶段准备一个具有高度可扩展性和包容性的特征空间。整体思想可以参考图-2。
图片

M2SD方法通过利用多尺度特征提取和融合技术,为每个数据实例提取并合成不同尺度的特征,以全面捕捉实例的多维特征。这种特征的综合相较于以往研究中单一尺度的特征,使得特征模块能够更深入地理解实例的多方面特性,进而提高模型的包容性。进一步地,我们引入了一种双分支“虚拟类”机制,以增强特征提取模块的可扩展性。通过对双分支“虚拟类”的优化,模型能够预见并适应潜在的新类别,从而提前为未来可能加入的新类别预留特征空间。这一策略不仅提高了模型对新类别的适应能力,也为持续的类增量学习提供了坚实的基础,确保了模型在面对新旧知识的挑战时的鲁棒性和灵活性。

3、算法框架

方法的整体框架如图-3所示。我们提出的方法分为三个关键阶段,其中前两个阶段集中于Base Session,而第三个阶段则专注于Incremental Sessions。本方法的核心在于第二阶段,它是整个学习过程的关键环节。本文将着重介绍这一阶段的细节和实现,展示其在整个学习框架中扮演的核心角色。
图片

3.1 多分支虚拟类别混合蒸馏(Multi Branch Virtual Classes Mixing Distillation)

受到以往研究的启发,我们采用了一种创新的方法,通过引入多实例构建来自不同集成视角的“虚拟类”,旨在为未来新类别的加入预留特征空间。在我们的多分支框架中,使用的是Mixup[2]和CutMix[3],以实现不同的目标。
Mixup通过对配对实例进行线性插值,生成“虚拟”实例,重点在于创造较大的多样性,这一点对于“虚拟类”的构建至关重要(公式-1)。此方法通过混合不同实例的特征,促进模型学习到更泛化的特征表示,为新类别的接入提供了灵活的特征空间。与Mixup相辅相成,CutMix采用了剪切和粘贴配对图像的方式,更加注重于生成具有现实感的实例。这种方法通过在图像中直接融合不同类别的局部区域,模拟了更加复杂的现实世界场景,从而增强了模型对于真实性的捕捉能力(公式-2)。
图片

图片

图片
通过这种方式,我们确保了模型在处理由Mixup和CutMix等技术生成的复杂“虚拟类”时,能够以一种一致的方式理解和适应这些“虚拟类”的分布。KL散度的使用,不仅帮助模型在“虚拟类”空间中维持分布的一致性,还促进了模型在遇到新的、未知的类别时,能够更加平滑和有效地进行适应和学习。这种方法的引入,进一步提升了我们模型的泛化能力和稳定性,为处理增量学习中的新类别挑战提供了强有力的支持

3.2 自蒸馏与注意力增强(Self-Distillation with Attention Enhancement

图片

图片

图片

图片

图片

4 实验

4.1 分类实验

在我们的研究中,我们主要将基于知识蒸馏的方法与其他领先技术(SOTA)进行了对比分析。我们的实验结果涵盖了三个主要数据集,结果汇总展示在图-1中。这些结果明显表明,我们提出的方法在性能上超越了当前的SOTA方法。具体而言,对于CUB200数据集,我们的方法在各个阶段的平均性能提升超过了2.0%。在CIFAR100数据集上,我们实现了平均超过2.1%的性能提升。特别是在miniImageNet数据集上,我们的方法以平均超过SOTA方法3.2%的显著优势表现最为突出。
图片

4.2 可视化分析

图片

在我们的分析中,我们采用了t-SNE[12]来可视化特征空间的分布,确保了两个t-SNE图的距离坐标尺度保持一致。具体地:

  • 在Part(a)中,我们展示了采用基线方法的增量学习结果。该基线方法在整个Base session中使用交叉熵损失进行训练,并在随后的Incremental Sessions中采用了与我们方法相同的分类器更新策略。
  • Part(b)则展示了我们方法的增量学习结果,提供了一个直观的对比,展现了我们的方法如何优化和改进特征空间的分布。

通过这种对比,我们能够清楚地展示我们的方法相较于传统基线方法在增量学习任务上的优势,特别是在特征表示和类别分离方面的显著提升。这不仅证明了我们方法的有效性,也强调了其在处理复杂学习任务时的实用价值。
图片
在基于特征向量的分析中,我们的方法相较于基线方法实现了显著的性能改善:平均类内距离降低了27%,同时平均类间距离提高了22%。这一结果不仅展示了我们方法在增强模型区分不同类别能力方面的有效性,也突出了其在优化特征表示以促进更好的类别分隔上的优势。通过减少类内差异同时扩大类间差异,我们的方法显著提升了模型的泛化能力和分类性能,证明了其在处理高度挑战性的学习任务中的实用价值和优越性。

4.3 消融实验

图片

5 总结与展望

为了有效应对小样本类增量学习问题,我们的方法首先引入了双分支虚拟类蒸馏策略,旨在扩展特征空间,以便它能够同时容纳现有的类别及未来可能加入的类别。我们通过数值分析和视觉化手段验证了这一策略的有效性。进一步地,我们采纳了特征增强和自我蒸馏技术,以充分挖掘“虚拟类”特征的潜力并提升特征空间的兼容性。这些技术共同作用,使我们能够构建出适应FSCIL挑战的特征空间。


  • 论文标题:M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning●
  • 论文作者:林今豪、吴梓恒、林炜丰、黄俊、罗荣华


阿里云大数据AI
4 声望7 粉丝

分享阿里云计算平台的大数据和AI方向的技术创新、实战案例、经验总结。