MURA: 斯坦福 ML 团队开放的大型放射影像数据集与挑战赛

什么是 MURA?

MURA(肌骨骼放射影像)是骨骼 X 射线的大型数据集, 算法的任务是确定一张 X 射线影像是正常还是异常.

肌骨骼 (Musculoskeletal) 疾病在全世界上影响了 1.7 亿人, 是严重长期疼痛与疾病的最常见成因, 且每年有 3 千万的急诊部就诊. 研究者希望该数据集能帮助医疗影像技术取得显著的进步, 且能达到人类专家的诊断水平, 从而提升放射科医生的工作效率与放射科的医疗条件.

MURA 是最大的开放放射影像数据集之一, 研究者将该数据集提供给社区来举办对应的竞赛, 因而能了解模型在医学影像上能不能做得更好.

MURA 使用一个隐藏的测试数据集以官方评估模型的性能. 参赛团队可在 Codalab 上提交可执行代码, 并在非公开的测试数据集上运行, 这样的流程基本能保证测试结果的公平性. 下面地址展示了 MURA 的提交与评估过程, 只要模型经过官方的评估, 测试分数就会显示在排行榜中.

MURA 提交教程: https://worksheets.codalab.org/worksheets/0x42dda565716a4ee08d61f0a23656d8c0/

MURA 是如何收集数据的?

MURA 是肌骨骼放射照片的数据集, 它包含了 12173 名患者共计 14863 份研究, 共有 40561 份多视图放射影像. 每一份都属于 7 种标准上肢放射学研究类型之一, 即手指, 手肘, 前臂, 手, 肱骨, 肩膀和手腕. 每一份研究都由斯坦福医学院董事会认证的放射科医生手动标记为正常或异常, 这些标注都是 2001 年到 2012 年根据放射诊断学对临床医学影像的解释而完成的.

为了评估模型并获得放射科医生水平的鲁棒性估计, 研究者从 6 名经认证的斯坦福放射科医生收集额外的标签, 其中包括 207 份肌骨骼研究. 放射科医生平均有 8.32 年的从业经验, 从业年限的范围从 2 到 25. 研究者随机选择 3 个放射科医生构建黄金准则, 该准则定义为大多数放射科医生投票的标签.

基线模型是什么?

MURA 的基线使用一个 169 层的卷积神经网络来检测和定位异常症状. 模型取某项研究中的上肢的一个或多个视图的照片为输入. 在每个视图中, 该网络对异常概率进行预测. 研究者通过取每张照片的网络输出异常概率的算术平均来计算该研究中的总体异常概率. 当该研究中的异常概率超过 0.5 时, 模型做出异常的二值预测.

网络使用密集连接卷积神经网络架构, 其中每个层和其它所有层都有前向连接, 从而使深度网络优化更容易进行. 研究者将应用一个 sigmoid 非线性层之后的单个输出替换了最后的全连接层. 他们使用类别激活图 (Class Activation Map) 来可视化放射照片的对模型异常预测贡献最大的部分.

该基线表现如何?

研究者在 Cohen 的 Kappa 统计上评估了该基线, Kappa 统计表达了模型和黄金标准的匹配程度. 基线将和放射专家在手指, 手腕研究的异常检测上进行性能对比. 然而, 基线在检测手肘, 前臂, 手, 肱骨, 肩膀的异常检测中的性能要稍微低于最好的放射专家, 表明该任务为未来研究提供了很好的挑战性问题.

论文: MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.

摘要: 我们在本文中介绍 MURA, 这是一个肌肉骨骼射线照片的大规模数据集, 包含 40895 张来自 14982 项研究的照片, 其中每项研究的照片都是由放射专家手动标记(正常或异常). 在这个数据集上, 我们训练了一个 169 层的密集连接的卷积网络来检测和定位异常症状. 六位有专科医师资格的放射专家为 209 项研究构成的测试集提供了额外标记, 我们在其上对比了模型和放射专家的诊断表现, 发现我们的模型能达到和那些放射专家相当的性能. 在对于手指, 手和手腕的研究照片上, 我们模型的 F1 分数要稍微高于放射专家, 但在统计上并不显著; 在对于手肘, 前臂, 肱骨和肩膀的研究照片上, 我们模型的 F1 分数要稍微低于放射专家, 但在统计上也不显著; 预示着该数据集为未来研究提供了很好的挑战性问题.

来源: http://www.tuicool.com/articles/aeam6bV

与本文相关文章

暂无,快来抢沙发吧！