本文来自OPPO互联网技术团队,转载请注名作者。同时欢迎关注我们的公众号:OPPO_tech,与你分享OPPO前沿互联网技术及活动。
零样本学习方法是学术界重要的前沿研究分支之一。
尽管大量科研相关人员已经标注了很多标准数据集。但就算著名如ImageNet,在其千万级数据集中也不过分为21841 个类别,现实世界中已经标注的数据仍然只占少数,且有诸多场景如疾病图像的数据难以大量获取。
故研究在目标域无标注数据的情况下,如何进行有效的学习并进行预测将非常有意义。
以及由于此范式演进的单样本学习&小样本学习(一种解决方案)可在工业界得到有效应用,OPPO互联网技术团队在本文中介绍了一种基于迁移学习范式的零样本学习方法(ZSL),并结合前沿具体介绍若干方法。
- 零样本学习方法:Zero-shot Learning,ZSL下同;
- 单样本学习:One-shot Learning,OSL 下同;
- 小样本学习:Few-shot Learning,FSL 下同。
1. 综述介绍
1.1 ZSL 问题定义
零样本学习方法(ZSL),其定义是:基于可见标注数据集&可见标签集合(seen),学习并预测不可见(unseen,无标注)数据集结果。其中unseen 标签集合是可获得的,seen 标签集合与unseen 标签集合交集为空。
如下图所示流程:
1.2 知识介绍
W Wang, VW Zheng, H Yu et al.(2019)[1]一文中总结将ZSL 研究分为三种模式:CIII、CTII、CTIT三类。
CIII
Class-Inductive Instance-Inductive setting,是指只使用训练实例和seen标签集合来训练模型。
CTII
Class-Transductive Instance-Inductive setting,是指使用训练实例和seen标签集合,外加unseen 标签集合来训练模型;
CTIT
Class-Transductive Instance-Inductive setting,是指使用训练实例和seen标签集合,外加unseen 标签集合,对应未标注的测试集合来训练模型;
实际上,上述3 类只是对应三种数据选择操作模式,每类下面根据映射的语义空间和具体选用基于模型还是实例又可有多种方式来构建模型。
如下图:
另外值得一提的是,本文涉及的ZSL 解决范式,可以视为一类特殊的迁移学习。(关于迁移学习的基本背景知识请读者自行查阅,本文不与赘述)
2. 方法&数据
2.1 基于语义embedding—DeViSE方法
Frome, A. , Corrado, G. S. , Shlens, J. et al.(2013)[2]提出DeViSE 方法,是一个基于度量学习解决ZSL 问题的基线方法,如下图所示:
图中展示该方法是:通过embedding 匹配的方式完成unseen 图像与标签的匹配,也就是分类结果。
对于图像,进行普通的分类模型训练,对测试集图片输出其embedding 表示。
对于标签,由于是文本可以利用语言模型训练来获取标签文本对应的embedding,通过通过相似性匹配方法获取任意图片的对应标签,其损失函数设计为hinge rank loss:
之所以称之为基线模型,是因为这篇文章提供了一个很好的思路-就是-embedding 表示匹配的思路。但与此同时,这种方法的缺陷很明显:方法中交互即匹配,图像-标签域特征空间差异在结果中表现显著。
2.2 基于语义自编码方法—SAE:Semantic Autoencoder
为解决上述不同域特征空间不同造成的严重问题,Kodirov, E. , Xiang, T. , &Gong, S. .(2017)[3]提出此自编码方法:即自实例空间学习至语义空间,再从语义空间学回至实例空间,缓解了两种不同特征空间的差异性。
方案如下图:
如此便可以建立优化目标:
这种硬约束方程实际由于统计概念很难保障,故求解困难,可以按照Lagrange 思想变为软约束:
而至此,假设A=SST, B=λXXT,C=(1+λ)SXT, 公式可以转化Sylvester 公式,利用现有数学算法是可以直接计算矩阵的。如此求解出参数W,模型自然就可以用于推理匹配。
2.3 基于构建属性语义空间(attribute semantic space)
Li, Y. , Zhang, J. , Zhang, J. , & Huang, K.(2018)[4]也提出了一种改进方案:通过人工构建一个描述图像的属性集合构建属性语义空间。不但能提供更细致准确的语义表示,而且缩小了实例域和标签域的空间差异,一举两得。
如下图所示:
方案中有两个模型,分别对应属性集合和标签集合,学习到的增广矩阵分为两部分:
- user-defined attributes (UA)
- latent discriminative attributes (LA)
每个模型分别学习匹配实例和标签编码,实例和便签的潜在语义,结果拼接为一个矩阵,属性子阵部分计算对数loss,潜在语义子阵按照hinge rank loss 计算。
由于有两个模型,最终loss 设计是:
2.4 小结
图像ZSL 问题中由于特征空间显著差异,一般都会采用中间语义空间的方式。在NLP 领域尽管特征空间一样,但实践表明增加语义空间仍然有效。
对SUN、CUB、AWA1、AWA2、aPY 表示5 个标准数据集进行测试,2017 年以后普通ZSL 的SOTA 模型在部分数据集上表现已经不错。
如下图,其中SS、PS 表示两种不同的已知、未知类别划分方式。
3. 结语&展望
3.1 小结
尽管当前SOTA 模型在标准数据集中表现不错,但实际业务数据中表现仍然很差。
现有方法的假设也有诸多缺陷:
(1) 源域和目标域的标注无错假设,实际即使是人工标注也仍然有可能出现错误;
(2) 目标域标签无强相关性假设;
(3) 源域数据易获得(大量)假设(实际往往长尾分布)等,都会带来诸多问题。
3.2 应用
单样本(OSL)和小样本(FSL)本质上是可以视为特殊的零样本学习(ZSL)问题的,而实际问题中是可以人工标注少量数据的(也就是ZSL 问题),故解决小样本(FSL)问题的其中一种范式就是基于零样本学习(ZSL)方法演进。
也就是在ZSL 基础上,能够增加对部分标注数据的充分学习,融合两部分方法的融合算法以达到显著提升效果的目的,就是其演进解决范式。
3.3 展望
此外,有学者提出通用型的ZSL 模型研究,以期望不拘泥于源数据形式来构建模型进行推理。如使用图像/音频构建模型推理文本,代表一个研究方向。
参考文献
[1] Wei Wang, Vincent W. Zheng, Han Yu, and Chunyan Miao.(2019). A Survey of Zero-Shot Learning: Settings, Methods, and Applications. ACM Trans. Intell. Syst. Technol.10, 2, Article 13, (January 2019), 37 pages.
[2] Frome, A. , Corrado, G. S. , Shlens, J. , Bengio, S. , Dean, J. , & Ranzato, M. , et al. (2013). DeViSE: a deep visual-semantic embedding model. Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. Curran Associates Inc.
[3] Kodirov, E. , Xiang, T. , & Gong, S. . (2017). Semantic autoencoder for zero-shot learning.
[4] Li, Y. , Zhang, J. , Zhang, J. , & Huang, K. . (2018). Discriminative learning of latent features for zero-shot recognition.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。