前言: 每天至少读 2-3 篇文章, 有精有泛;
1 多数文章看摘要, 少数文章看全文;
2 最重要的是: 自己要概括这篇文献到底说了什么, 做好笔记和记录, 否则等于白读!
3 看过的文章千万不可放置一旁再不过问, 记得温故而知新
4 阅读顺序:
先看 abstractintroduction--->然后看 discussion--->最后看 resultmethod(结合图表来看, 效率高)
国外泛读! title(1):A Classification Refinement Strategy for Semantic Segmentation(一种用于语义分割的分类细化策略)---20180123(发布在 arxiv 的时间)
abstract: 基于语义分割误差部分可预测的观察结果, 我们提出了一种使用训练分类器的混淆统计的精简公式来改进 (重新估计) 初始像素标签假设 所提出的策略取决于计算给定数据集的分类器混淆概率并且估计待分类图像中存在的对象类别的相关先验 我们提供了一个程序来鲁棒地估计混淆概率并探索多个先前的定义实验使用不同的先验来比较多个具有挑战性的数据集上的性能以改进最先进的语义分割分类器的性能 这项研究表明, 本文算法可以显著提高语义标签的潜力, 并对从图像中获得可靠的标签预先估计的未来研究工作有着促进作用
主旨: 本文提出了一个贝叶斯框架来融合由混淆概率和标签先验所形成的上下文, 用以实现像素级决策
国外泛读! title(2):Classification and Disease Localization in Histopathology(组织病理学) Using Only Global Labels(仅使用全局标签进行组织病理学中的分类和疾病定位):A Weakly-Supervised Approach---20180201
abstract:
分析组织病理学的幻灯片是许多诊断的关键步骤, 特别是在肿瘤学界定义黄金标准在进行数字组织病理学分析的情况下, 训练有素的病理学家必须在多个缩放级别中查看极端数字分辨率 (100,000 2 像素) 的巨大整幅幻灯片图像, 以确定单元的正常区域, 或者单个单元格, 超过数百万个单元格深度学习在这个问题上的应用不仅受到小样本量的阻碍, 因为典型的数据集只包含几百个样本, 而且还通过生成用于训练可解释分类和分割模型的 ground-truth 本地化注释我们提出了一种弱监督学习的疾病定位方法, 其中只有图像级别的标签在训练期间可用即使没有像素级注释, 我们也能够证明性能可与 Camelyon-16 淋巴结转移检测挑战中强注释训练的模型相媲美我们通过使用预先训练的深度卷积网络, 特征嵌入以及通过顶级实例和负面证据进行学习, 从语义分割和对象检测领域实施多实例学习技术来实现这一目标
国内精读! title(3):Decoupled Spatial Neural Attention for Weakly Supervised Semantic Segmentation(弱监督语义分割的解耦空间神经注意?)---20180307
abstract: 弱监督语义分割得到了很多研究的关注, 因为它减轻了为训练图像获得大量密集的像素 ground-truth 注释的需要 与其他形式的弱监督相比, 图像标签非常有效 在我们的工作中, 我们主要关注带有图像标注注释的弱监督语义分割 这项任务的最近进展主要取决于生成的伪标注的质量 在这项受空间神经注意力影响的图像标题的作品中, 我们提出了一个用于生成伪注释的解耦空间神经关注网络 我们的解耦关注结构可以同时识别对象区域并定位在一条正向路径中生成高质量伪标注的区分性部分 通过生成的伪标注实现的分割结果, 达到了弱监督语义分割的最先进水平
1 introduction: 语义分割是将语义标签分配给图像内的每个像素的任务 近年来, 深度卷积神经网络 (DCNNs)[1] - [3] 在语义分割性能方面有了很大的提高 使用像素级 ground-truth 注释在完全监督环境中训练 DCNN 可实现最先进的语义分割精确度 然而, 这种完全监督设置的主要局限性在于为训练图像获得大量准确的像素级注释需要大量劳动力 另一方面, 只有图像级注释的数据集更容易获得 因此, 仅受图像标签监督的弱监督语义分割已受到很多关注
通过引入高效的局部化提示, 显着提高了图像级注释的弱监督语义分割性能 [4] - [6] 在弱监督语义分割中使用最广泛的 pipeline 是首先基于定位线索估计训练图像的伪标注, 然后利用伪标注作为 ground-truth 来训练分割 DCNN 很明显, 伪注释的质量直接影响最终的分割性能在我们的工作中, 我们遵循相同的流程, 主要关注第一步, 即仅为图像级标签生成训练图像的高质量伪标注近年来, 自顶向下的神经显著性 [7] - [9] 在弱监督定位任务中表现良好, 因此被广泛应用于生成用于监督图像级标签的语义分割的伪注释然而, 在以前的研究中 [6], 这种自顶向下的神经显着性能很好地识别物体中最具区分性的区域, 而不是物体的整个范围因此, 这些方法产生的伪注释远离地面真实注释为了缓解这个问题, 一些工作由多个临时处理步骤(例如迭代训练) 组成, 这些难以实施有些工作引入了外部信息 (如网页数据) 来指导监督, 极大地增加了数据和计算负担相反, 我们的工作提出了一条简单而有效实施的主要途径
我们的目标是高效和有效地生成弱监督语义分割的伪注释受广泛用于 VQA [10]和图像字幕 [11] 的空间神经注意机制的启发, 我们将空间神经注意引入到我们的伪注释生成 pipeline, 并提出了一个解耦空间神经关注结构, 该结构同时在一个端到端框架中定位可区分部分并估计对象区域 这样的结构有助于在一次正向传播中产生有效的伪标注 图 1 为我们的解耦关注结构的简要描述
图片说明: 它同时生成两张关注地图, 即展开关注地图和区分性关注地图 Expantive 注意图是识别对象区域, 而 Discriminative 注意图是挖掘可区分的部分
我们的主要贡献可概括如下:
我们引入空间神经注意力, 并提出一种解耦的注意力结构, 用于为弱监督语义分割生成伪注释
我们的解耦关注模型输出两个注意图, 重点分别是识别对象区域和挖掘判别性部分 这两张关注地图互相补充以生成高质量的伪标注
我们采用简单而有效的 pipeline, 没有启发式多步迭代训练步骤, 这与现有的大多数弱监督语义分割方法不同
我们执行详细的消融实验来验证我们的解耦关注结构的有效性 在 Pascal VOC 2012 图像分割基准测试中实现了最先进的弱监督语义分割结果
2 related work:
A 弱监督语义分割
近年来, 借助深度卷积神经网络(DCNN)[1],[3],[12] - [18], 语义分割的性能得到了极大的提高 在完全监督的 pipeline 中训练用于语义分割的 DCNN 需要像素级的 ground-truth 注释, 这是非常耗时的
因此, 弱监督语义分割受到研究和关注, 用以减轻训练数据的像素注释的工作量 在弱监督设置中, 图像级标签是最容易获得的注释 至于用图像级标签进行语义分割, 一些早期的工作 [19,20] 将这个问题作为多实例学习 (MIL) 问题来解决, 如果其中至少有一个像素 / 超像素是正的, 则为正; 如果所有像素均为负数, 则为负其他早期工作 [21] 应用期望最大化 (EM) 处理过程, 该过程在预测像素标签和优化 DCNN 参数之间交替进行 但由于缺乏有效的定位线索, 早期工作的表现不尽如人意
在引入位置信息以生成用于分割 DCNN 的本地化种子 / 伪注释之后, 具有图像级别标签的语义分割的性能显著改善伪注释的质量直接影响分割结果有几种方法可以估计伪标注第一类是简单到复杂 (STC) 策略 [22] - [24] 该类别中的方法假定可以通过显著性检测 [22] 或共分割 [24] 准确地估计简单图像 (例如网页图像) 的伪标注然后利用在简单图像上训练的分割模型来生成复杂图像的伪标注这一类的方法通常需要大量的外部数据, 从而增加了数据和计算负担第二类是基于区域挖掘的方法这一类的方法依靠区域挖掘方法 [7] - [9] 来生成区分性种子的区分性区域由于这些本地化种子主要稀疏地位于区分的部分, 而不是远离 ground-truth 标注的物体的全部范围, 因此许多工作试图通过将定位种子扩大到物体的大小来缓解这个问题科列斯尼科夫等人 [4] 通过按照全局加权排序池汇总像素分数来扩大种子魏等人 [6] 应用一种对抗 - 擦除方法, 该方法在抑制最具区分性的图像区域和训练区域挖掘模型之间进行迭代它通过多次迭代逐渐本地化下一个最具有区分性的区域, 并将所有挖掘出的区分区域合并为最终的伪标注 Similarly Two-phase[25]通过两个阶段抑制和挖掘处理来捕获对象的全部范围有些工作 [5],[23] 利用外部依赖性, 如完全监督显著性方法 [26] 对附加显著性数据集进行训练, 以便于估计对象尺度
为了生成高质量的伪标注, 第一类关注于训练数据的质量, 而第二类关注于后处理与区域挖掘模型结构无关的定位种子与以前的方法不同, 我们将注意力放在设计一个可能突出目标区域的区域挖掘模型结构 我们的目标是为了效率和简单性的目的, 在没有外部数据或外部事先考虑的情况下为单一前向路径中的弱监督语义分割生成伪注释
B 挖掘判别区域
在本节中, 我们介绍一些区域挖掘方法, 这些方法已被广泛用于生成具有图像级标签的语义分割的伪注释最近的自顶向下神经显著性 [7] - [9] 在弱监督定位任务中表现良好这工作基于图像分类 DCNN 识别对每个个体类别进行区域判别 Zhang 等人 [8] 提出激励 Backprop 在网络层次中反向传播以识别判别区域 Zhou 等人 [7] 提出了一种称为类激活映射 (CAM) 的技术, 通过用卷积层和全局平均池化替换图像分类 CNN 中的全连接层来识别判别区域 Grad-CAM [9]是 CAM [7]的一个严格推广, 不需要修改 DCNN 结构在上述方法中, CAM [7]是弱监督语义分割 [4],[6],[25] 中应用最广泛的一种, 用于生成伪标注
C 空间注意机制
空间神经关注是一种根据特征内容为不同特征空间区域分配不同权重的机制 它自动预测加权热图, 以增强相关特征, 并在特定任务的训练过程中阻止不相关特征直观地说, 这种加权热图可以应用于我们的伪注释生成
空间神经关注机制已被证明对于许多任务都是有益的, 比如图像字幕 [11],[27], 机器翻译[28], 多标签分类[29], 人体姿态估计[30] 和显著性检测[31] 与以前的工作不同, 据我们所知, 我们是第一个将注意力机制应用于弱监督语义分割
3 approach
来源: http://www.bubuko.com/infodetail-2523979.html