雷锋网 AI 科技评论按: 对于机器学习而言, 区分异常数据或有显著差异数据至关重要. 谷歌在 NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集, 进而提出一种基于似然比的解决方案, 可显著提高 OOD 检测的准确性. AI 科技评论将谷歌对该方法的官方解读编译如下.
深度学习科学家要成功部署机器学习系统, 需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据.
由于深度神经网络分类器可能会将 以高置信度将分布外 (ODD) 的输入分类到分布内的类别中, 因此区分异常数据或有显著差异数据是十分重要的. 当我们利用这些预测为现实决策提供依据时, 异常数据检测将尤为重要.
例如, 将机器学习模型应用于基于基因组序列的细菌检测, 就是一项具有挑战性的现实应用. 细菌检测对于败血症等传染病的诊断和治疗, 以及食源性病原体的鉴定都非常关键.
近些年来, 随着新细菌种类不断被发现, 虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性, 但部署模型仍具有高的挑战性, 因为现实数据在不断进化发展, 并且将不可避免地包含以往训练数据中从未出现过的基因组(OOD 输入).
图 1 近些年来, 随着新的细菌种类逐渐地被发现. 将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性, 这是因为输入的分类数据是已知的, 但它可能将已知分类数据中混合了未知分类数据 (如: ODD 数据) 的输入进行错误的分类, 并且具有很高的置信度.
在 NeurIPS 2019 发表的论文《分布外检测的似然比》(Likelihood Ratios for Out-of-Distribution Detection) 中, 谷歌受到上述新细菌种类检测这类现实问题的启发, 提出并发布了针对基因组序列 OOD 检测的现实基准数据集.
论文地址: https://arxiv.org/abs/1906.02845
实现代码 GitHub 地址:
他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法, 发现似然值 -- 即输入来自使用分布不均数据进行估算的分布数据的模型概率 -- 通常是错误的. 在最近的图像深度生成模型研究工作中, 他们也观察到了这种现象, 并通过统计背景影响来解释这种现象, 进而提出一种基于似然比的解决方案, 可以显著地提高 OOD 检测的准确性.
一, 为什么密度模型无法应用于 OOD 检测?
为了模拟实际问题并系统地评估不同的方法, 他们建立了一个新的细菌数据集, 使用的数据来自 美国国家生物技术信息中心 (NCBI ) 对外开放的原核生物目录基因组序列数据.
为了模拟测序数据, 他们将基因组片段化为当前测序技术通常使用的 250 个短序列长度的碱基对. 然后, 其将分布内和分布外的数据按发现日期进行分离, 以便截止时间之前被发现的细菌种类被定义在分布内, 在之后发现的被定义为分布外(OOD) .
然后, 他们基于分布内的基因组序列训练深度生成模型, 通过绘制似然值曲线, 检验模型辨别输入的分布内和分布外数据的能力. OOD 序列似然值的直方图与分布内序列似然值高度重合, 则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果.
来源: http://www.tuicool.com/articles/bYRVF3Z