由上海交通大学卢策吾团队发布的开源系统 AlphaPose 近日上线, 该开源系统在标准测试集 COCO 上较现有最好姿态估计开源系统 Mask-RCNN 相对提高 8.2%Mask-RCNN 是 2017 年以来计算机视觉领域的一个突破, 获得了 ICCV 2017 最佳论文 (马尔奖), 涵盖了物体检测, 分割, 姿态估计该系统比较的是其姿态估计部分该系统是基于卢策吾团队 ICCV 2017 发表的 RMPE 算法 [1] 开发以下为具体数据:
表格 1: 现有姿态估计开源系统在 COCO 数据集 [4] 上的结果比较
人体关键点检测对于描述人体姿态, 预测人体行为至关重要因此人体关键点检测是诸多计算机视觉任务的基础其在动作分类, 异常行为检测, 以及人机交互等领域有着很广阔的应用前景, 是计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题针对这一问题, 上海交大 MVIG 组提出 RMPE 的两步法框架 (ICCV 2017 论文), 并基于此开发了 AlphaPose 这一人体关键点检测系统
RMPE 框架采用自顶向下的方法, 先检测人, 再去做姿态估计该框架有三个主要组成部分, 首先是对称空间变换网络 (Symmetric STN), 用于解决传统两步法中的主要问题, 即 imperfect proposal 的问题对于质量较差的人体检测结果, symmetric STN 能够自动调整 proposal 的位置, 将 refine 过后的结果输入单人姿态估计网络, 并将输出映射回原空间, 从而使得在人体检测框不准确的情况下, 姿态估计网络依然能够有良好的效果
第二个组成部件为由姿态引导的样本生成器 (Pose-guided Proposals Generator), 该部件能够根据不同人体姿态生成额外的 detection proposal 用于训练姿态估计网络, 从而获得大量符合真实测试场景数据分布的训练数据
第三个组成部件为参数化的姿态非极大值抑制器 (Parametric Pose NMS) 传统的两步法中, 人体定位框会有较多的冗余检测作者通过使用新的姿态距离度量来比较姿态相似性, 来消除冗余姿态
目前, 该系统所有的训练和检测代码, 以及模型均已开源, 项目链接为: https://github.com/MVIG-SJTU/AlphaPose
应用一: 视频姿态跟踪 (Pose Tracking)
复杂场景下的多人人体姿态跟踪是 2017 年 CVPR 上刚提出的一个很有挑战性的研究课题, 能从视频中高效且稳定地提取人体姿态轨迹, 可以帮助我们更好地理解视频中人的行为以及人与周边环境的交互针对这一问题, 在前文 AlphaPose 的基础上, 卢策吾团队提出了 Pose Flow Building 以及 Pose Flow NMS 两个人体姿态跟踪模块, 充分综合空间域和时间域的信息来提升复杂场景下人体姿态跟踪的准确性 [6]
目前, 该算法在 PoseTrack dataset [7] 的测试集上达到 53.6 MOTA 的跟踪精度, 大幅度超过该数据集上最好结果 (28.2 MOTA), 而在 PoseTrack Challenge dataset[8] 的验证集上达到 58.3 MOTA 66.5 mAP, 跟踪精度超过 Facebook 最好结果 55.2 MOTA (5.6 个百分点), 人体姿态估计精度超过 Facebook 之前的最好结果 [9] 60.6 mAP (9.7 个百分点) 更重要的是我们视频姿态跟踪器 (pose tracker), 是基于 AlphaPose 在每一帧上结果的一个扩展模块, 该模块能达到 100 帧每秒
论文及代码: http://mvig.sjtu.edu.cn/research/alphapose.html
应用二: 视觉副词识别 (Visual Adverb Recognition)
计算机视觉学科在努力挖掘图像视频中的语义信息, 对应到自然语义系统, 是名词识别对应 object detection, 动词识别对应 action recognition 但我们忽略了一类重要语义 - 副词, 这是相对于名词, 动词有更为深刻的语义的描述比如我们动作识别可以识别出一个视频中的人物在拥抱, 但是不知道是离别的伤感还是重逢的喜悦因此卢策吾团队推出了一个新的研究方向而这一问题正是需要姿态估计 (AlphaPose) 的帮助, 他们提出了一个 Three-Stream Hybrid Model 三个 stream 分别是: 利用了姿势 (pose) 信息的, 使用表情信息, RGB 和光流信息同时, 他们构建了对应的数据集: ADHA, 这一数据集标注了视频中人物的位置动作和可以描述这一动作的副词, 我们还为数据用户提供了人物的 tracking 结果卢策吾团队也表示, 目前该题目刚刚开始所以, 准确率还是很低, 需要做的事情还很多
数据集中的 32 个动作及 51 个副词基本覆盖了人们表达中常见的描述项目和数据集链接如下:
主页 (包括代码):http://mvig.sjtu.edu.cn/research/adha.html
数据: http://mvig.sjtu.edu.cn/research/adha/adha.html
Reference:
[1] RMPE: Regional multi-person pose estimation
Haoshu Fang, Shuqin Xie, Yuwing Tai, Cewu Lu
ICCV 2017
Mask R-CNN
ICCV2017
[3]Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
CVPR 2017
[4] http://cocodataset.org/#keypoints-challenge2017
[5] http://human-pose.mpi-inf.mpg.de/
[6] Pose Flow: Efficient Online Pose Tracking
Yuling Xiu, Jiefeng Li, Haoyu Wang, Cewu Lu
arXiv 2018
[7] PoseTrack Joint Multi-Person Pose Estimation and Tracking
Umar Iqbal, Anton Milan, Juergen Gall
arXiv 1611.07727, 2017
[8]PoseTrack: A Benchmark for Human Pose Estimation and Tracking
Mykhaylo Andriluka, Umar Iqbal, Anton Milan, Eldar Insafutdinov, Leonid Pishchulin, Juergen Gall, Bernt Schiele
arXiv 1710.10000, 2017
[9] Detect-and-Track: Efficient Pose Estimation in Videos
Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, Du Tran
arXiv 1712.09184, 2017
[10] Human Action Adverb Recognition: ADHA Dataset and Four-Stream Hybrid Model
Bo Pang, Kaiwen Cha, Cewu Lu
arXiv 2018
来源: https://yq.aliyun.com/articles/432211