深度学习重构视觉计算

引言: 6.14 日腾讯创新日科技年技术盛宴代表腾讯各个事业群技术实力的四级专家腾讯微创新 2016 年度创意获奖团队欢聚一堂, 一起畅谈 AI 系统安全架构设计社交传播推荐模式游戏引擎等前沿科技和腾讯应用创新的台前幕后来自 TEG 的 AI Lab 计算机视觉中心的总监专家工程师刘威, 就深度学习重构视觉计算, 给大家进行了分享

近年来, 计算机视觉已经成为人工智能的研究热点而计算机视觉的研究也不断从图像 AI 转到多媒体(视频)AI 上视频 AI 不仅需要建模图像的空间域信息, 还需要建模视频帧之间的时间域信息视频 AI 技术可以对视频进行编辑, 还可以提供视频更丰富的语义信息, 进而应用于腾讯的多个产品中, 譬如: 腾讯视频, 天天快报等

在这次报告中, 主要介绍我们在视频 AI 上面研究和应用的探索首先, 以视频滤镜为例, 介绍一下视频的编辑和生成; 其次, 针对视频分析和理解, 介绍一下我们在视频分类(Youtube8M Challenge), 视频缩略, 视频明星人脸跟踪识别, 和人脸检测的探索和工作

以下为刘威演讲实录

我今天的题目是深度学习重构视觉计算, 很高兴来到腾讯这么大的创新日活动我之前在公司分享的内容多偏业务今天分享的内容可能更偏前沿的研究一点

首先讲一下我的组, 也就是计算机视觉中心, 迄今为止的研究成果我们有 9 项专利申请, 论文全部发表于 2017 年我是 2016 年 6 月份加入腾讯的, 这是我们一年的研究成果我们在计算机视觉顶级会议 CVPR 上发表 5 篇论文, 在机器学习的顶级会议 ICML 上发表 2 篇论文, 在信息检索顶级会议 SIGIR 上发表 2 篇论文, 还有 PAMITKDETIP 分别发表了 112 篇这也符合了我加盟腾讯的预期

因为前面也有一些活动, 我也做了一些演讲今天的分享主要介绍一下我们最近几个月投入的研究工作

首先讲视频编辑与生成, 二是视频分析与理解, 第三部分的 3D&AR 部分, 因为时间的原因, 今天主要分享前两个部分的工作

今天的主题是计算机视觉被深度学习重构为什么有重构? 重构肯定有摧毁, 这也是我的一个疑问, 在深度学习时代, 深度学习是否已经摧毁了计算机视觉? 我随便看了看一些论坛, 这个命题早就存在. 在其他的研究领域, 例如自然语言处理与语音识别这两个领域都被深度学习入侵研究员们在社交媒体上有一些公开论战我们是坚持传统还是拥抱深度学习呢? 这个问题是我抛出来的, 自己也没有明确的答案我的解读是, 任何一个学科存在一定有它的价值, 它被别的思想或者别的模型改造一下是非常正常的从哲学上讲, 任何在历史兴起的事物一定会在历史中消亡

但是这是好事, 说明我们的技术进步了至少深度学习很大程度上重构了计算机视觉或者视觉计算为什么讲重构? 因为迄今为止, 我们不能完全丢开传统的计算机视觉的算法模型一旦使用到了滤波器, 就还是在使用以前的东西, 但是重要性明显大打折扣十几年前, 大家还纠结于如何设计滤波器深度学习起来之后, 我们没有必要设计特殊的滤波器, 都是按照端对端的方式自动学出来的这就是重构, 我们希望把传统的技术和现代思想结合在一起, 这就是我所倡导的重构

我们就以最著名的图像识别比赛 ImageNet 为例, 上图是千类物体识别的 top-5 的错误率大家看出来在 2015 年 ResNet 已经将错误率降到 3.57%, 低于人类识别的错误率了针对这个数据集合, 现在大家都能做好, 已经变成一个玩具数据集合了在语音识别方面, 从 2011 年到 2012 年性能上也有一个很大的提升, 但是没有图像识别提升那么大物体识别这些年的巨大进展都归功于伟大的 Hinton 在 2012 年设计的 8 层卷积神经网络这也是很多科学技术发展的规律一个非常伟大的人把一个很难的东西革新到一个新的水准, 将物体识别的错误率从 20% 以上降到 20% 以内后面很多优秀的学者, 尤其是很多年轻的学者一起努力, 把这个结果无限逼近

现在物体识别的错误率已经逼近 2% 左右了所以摧毁与重建就在这个趋势里面重建的是我们基于这个思想, 基于这个模型, 基于端到端的训练模型, 全世界做这个模型都用这个套路, 这是一个非常大的进步所以说现在翻开任何一篇做图像的论文, 都会引用到 Hinton 的工作而且做法大同小异, 涉及到卷积神经网络, 现在越来越深, 设计一个足够好的神经网络, 就可以解决特定问题这不算特别激动的东西, 因为这个东西真正提出是 2012 年, 后面是把这个事情做得更加具体化一点, 更加任务驱动一点

这是卷积神经网络的突破一, 还有卷积神经网络的突破二这个二我所指的是视频分类, 不再是图像分类我也画了一个链条图, 从 2014 年开始起, 大家也都是在用卷积神经网但是针对视频, 大家使用的都是多道卷经神经网络相对于图像来说, 视频更加的困难, 不仅需要考虑图像空间域上的信息, 还需要考虑视频时间域上的信息直到 2014 年初的时候, 两道卷积神经网络分类才第一次应用到视频分类上从 2013 年到 2014 年, UCF101 的数据库上的视频分类 top-1 的错误率降低不到 2 个百分点 2015 年, 谷歌综合了前人的研究, 提出卷积神经网络加上 LSTM, 将视频分类的错误率又降低了一点点到了 2016 年, 视频分类的错误率能降低到 5% 左右说一下我们 AI Lab 的结果, 我们原创的神经网络是 PBnet, 在 UCF 101 上的错误率是 4.6%

我的组, 也就是腾讯 AI Lab 计算机视觉研究中心希望能够做一些前瞻性的研究需要从图象的 AI 进阶到多媒体 AI 我们以前处理多是静态无结构的图像大数据, 而现在的多是动态半结构 / 结构化的多媒体大数据这非常符合我们的社交多媒体网络的概念这个社交多媒体网络指的是在我们社交平台上有图像, 有视频, 有用户的点击, 有用户的推荐, 有用户的评论, 还有和朋友之间的互动转发等等, 这就形成了一个非常强大的多媒体社交网络我们希望把以前处理图像 AI 的研究经验进阶到处理多媒体的 AI 研究, 这需要新的多媒体算法对于图像来说, 主要是依需求而计算对于多媒体 AI 来说, 我们需要能够做到渗透性, 无时无刻不在计算我们希望能够构建一些新的 benchmark 数据集, 在这个上面测试, 包括邀请全世界, 国内外的各路学者专家一起在这样的数据集上进行算法研究

这三部分是我们最近的部分研究成果第一是视频编辑与生成第二是图像 / 视频分析与理解第三是 3D&AR, 这里面使用了手机里面的传感器和陀螺仪等

首先讲视频的编辑与生成以视频滤镜为例, 给定输入的一段视频和一副风格图像(如线条画抽象画等), 产生风格变换后的视频这项技术正计划在公司很多产品上线

现在主要讲视频的风格转换左边的例子是英雄片断, 风格图像是线条画, 我们渲染的视频效果还是很不错的右边的例子也是英雄那部电影, 风格图像变成了金黄色的抽象画, 体现在它的几何形状与色彩等等值得骄傲的是这项技术我们去年就做出来了, 相关的论文也已经被 CVPR2017 接收, 并且申请了专利这在工业界中是比较少见的在论文正式发表之前产品就已经做出来了接下来讨论的是视频分类我们构建了自己的深度学习网络因为视频的内容比较丰富, 所有的视频片段都经过前向网络计算, 但是在反向传播的过程中, 仅仅选择有代表性的片段进行这里有一个正向传播后向反馈, 一直在筛选, 筛选哪些片段对于最终的视频分类是有用的第二是构建不同时间长度的片断, 进行多帧率的融合我们用多尺度采样的方法构建视频片段, 然后再丢到神经网络里面以这种方式构建的视频片段, 可以更详细的捕捉视频中的各种运动信息, 进而提升视频分类的精确度目前我们构建的网络 PBnet 在 UCF101 的数据库上取得了领先的分类结果

讨论一个更加有挑战性的工作, Youtube8M 的视频分类任务这个数据集合大约包含 800 万的视频数据, 共四千多个类别标签, 每个视频下的视觉标签数是 1-31 个, 平均每个视频 3.4 个标签对于这个视频分类任务来说, 因为它的数据量非常大, 所以我们现在按照谷歌提供的技术文档, 基于视频已经提取完成的帧级别和视频级别的特征进行相应分类在我们的实验结果中, 我们发现帧级别的复杂模型比视频级别的模型性能高一些, 但不是特别的显著也就是说, 在非常复杂的有结构的视觉信息 -- 视频上, 深度学习的潜力还没有完全开发出来, 还需要我们一起努力鉴于帧级别模型与视频级别模型的性能非常接近, 我们目前对腾讯视频平台上的游戏视频使用视频级别模型进行分类做了 9 个热门游戏的分类, top1 的分类正确率高达 94%

视频缩略, 也是我们最近重点研究的一个问题任务是什么? 从长视频 (电影 / 电视剧) 中提取部分片断, 生成一段短视频需要保留主要情节, 保持剧情的流畅, 在减少观看时间的同时尽量不影响观影体验与视频分类完全不一样, 视频缩略面临的挑战有三条, 第一是定义很难, 缺乏客观的评价标准, 都是主观的第二是训练数据少, 三是理解难, 长视频的情节和视觉场景复杂, 对现有模型是很大的挑战我们现在还不知道到底怎么做好, 就是因为情节场景复杂, 而且电视剧人物非常多, 算法弄清楚人物之间的关系都是一个新的有挑战的问题

这是我们的解决方案, 右边就是概念图左边是结合业务数据首先看如果我们不用任何业务数据怎么办? 需要一个端到端的深度学习直接生成缩略的视频腾讯视频存有用户观看的历史我们找很多腾讯上大热的 IP 电视剧, 将用户观看热力图拿出来, 在这个曲线进行相应的视频缩略曲线值越高代表观看人数越多, 就应该保留这一帧是否保留就是一个目标变量视频缩略是限制条件的第一选取视频帧需要满足我预先设的比例, 例如你最多只能取得 30%50%10% 第二是选取的视频帧要足够的连贯深色就是我们选出来的帧, 其他就是没有选出来的帧后续我们需要用两个东西, 一个是明星人脸, 一个是弹幕但是弹幕的滞后性很强, 往往高达三四秒如何融合到视频缩略中也是比较挑战的另外我们要保证用户最喜欢的那些明星在缩略的视频里足够多的出现, 并且他 / 她的主力剧情连贯最后我们希望结合热力图和明星人脸, 来做端到端的深度学习

这里秀了两个视频, 是南加州大学的数据集, 都是短视频的缩略左边是一个跑酷的成员跳来跳去, 动作都是比较连贯的右边也是自拍的, 一个人在做食物的场景我们希望主要的情节可以保留, 而且还比较连贯这是长视频缩略, 是一集青云志, 我们缩略以后得到的 30% 时长的视频是比较流畅的

最后讲一下视频明星人脸跟踪识别在这里我们主要是跟踪识别视频中的明星人脸, 进而后续可以将明星的片段截取出来, 构建一个只包含明星镜头的短视频

最后讲一下我们最近的一个重要研究成果: 人脸检测我们提出了一个非常原创的模型, 叫做 FaceR-CNNCenter Loss: 引入它作为监督函数目前我们在最难的人脸检测测评库 WIDER FACE 上排名第一, 超过了 CMU 开发的模型尤其在最难的子集, 我们在验证集和测试集上都比所有其他方法要高这个难是指人脸在图象中的面积非常小我们专门对于很小的人脸做了深入的训练下图是在另一个人脸检测测评库 FDDB 上的人脸检测的结果: 我们的方法超过了一些没有公布技术文档的方法, 包括一些初创公司做的, 也包括百度的结果

来源: https://cloud.tencent.com/developer/article/1048361

与本文相关文章

暂无,快来抢沙发吧！