目前推广应用的机器学习方法或模型主要解决分类问题, 即给定一组数据 (文本, 图像, 视频等), 判断数据类别或将同类数据归类等, 训练过程依赖于已标注类别的训练数据集. 在实验条件下, 这些方法或模型可以通过大规模的训练集获得较好的处理效果. 然而在应用场景下, 能够得到的数据实际上都没有进行人工标注处理, 对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大. 在一些专门的应用领域, 例如医学图像处理, 只有专门学科的专业医生能够完成对医学影像图像的数据标注. 显然, 在这种情况下必须依赖大规模训练集才能使用的方法或模型都不再适用. 为了减少对已标注数据的依赖, 研究人员提出了主动学习(Active Learning) 方法. 主动学习通过某种策略找到未进行类别标注的样本数据中最有价值的数据, 交由专家进行人工标注后, 将标注数据及其类别标签纳入到训练集中迭代优化分类模型, 改进模型的处理效果.
根据最有价值样本数据的获取方式区分, 当前主动学习方法主要包括基于池的 查询获取方法 (query-acquiring/pool-based)和 查询合成方法 (query-synthesizing)两种. 近年来提出的主动学习主要都是查询获取方法, 即通过设计查询策略 (抽样规则) 来选择最具有价值信息的样本数据. 与查询获取方法「选择 (select)」样本的处理方式不同, 查询合成方法「生成(generate)」样本. 查询合成方法利用生成模型, 例如生成式对抗网络(GAN, Generative Adversarial Networks) 等, 直接生成样本数据用于模型训练.
我们从 2019 年机器学习会议中选出三篇关于主动学习方法的文章进行针对性的分析, 这三篇文章为:
- Learning loss for active learning(CVPR 2019,oral)
- Variational Adversarial Active Learning (ICCV 2019,oral)
- Bayesian Generative Active Deep Learning (ICML 2019)
其中, 前两篇提出基于池的查询获取方法:《Learning loss for active learning》通过添加损失函数设计一种任务不可知的主动学习方法,《Variational Adversarial Active Learning》设计了一种利用 VAE 和对抗网络来学习潜在空间中已标注数据分布情况的查询策略. 第三篇 ICML 的文章《Bayesian Generative Active Deep Learning》介绍了一种利用对抗性网络的查询合成方法.
1. Learning Loss for Active Learning(CVPR 2019)
来源: http://www.tuicool.com/articles/qeeUJjR