今天, 北京天安门城楼前庆祝新中国成立 70 周年的盛大阅兵活动如期隆重举行. 让我们再来领略一下阅兵中的精彩片段:
守候在电视机或者电脑前观看阅兵直播的你, 可能不知道的是, 在直播的同时, 由中央广播电视总台央视频, 腾讯视频剪辑团队和腾讯多媒体实验室联合研发的基于 AI 能力的智能剪辑平台也正在实时对阅兵活动进行剪辑, 力求第一时间为大家带来精彩的国庆阅兵视频片段, 而以上片段正是出于我们多媒体实验室的 AI 智能云剪辑技术.
此前 , 央视频和腾讯多媒体实验室达成一致: 致力于研发推出 "智能云剪辑" 能力, 利用 AI 技术完成多媒体内容的剪辑, 为央视频平台推送海量的高质量内容. 经过一段时间的潜心研发, 该能力正式上线央视频系统, 并成功运用于国庆大阅兵这一重要时刻. 这是我国历史上首次在阅兵直播的同时引入基于 AI 技术的实时智能剪辑能力. 央视频技术负责人表示:"此次由央视频和腾讯多媒体实验室共同研发" 智能云剪辑 "系统, 是"5G+4K/8K+AI"全新战略格局的重要创新实践, 我们在国庆阅兵大典直播的同时能做到实时剪辑, 并在第一时间推送至央视频阅兵序列产品, 是一次意义重大的尝试."
此次 "智能云剪辑" 系统算法的核心研发团队, 正是腾讯多媒体实验室杰出科学家刘杉博士所带领的多媒体团队. 该团队在多媒体内容的分析, 处理, 理解和质量评估方面已经有了相当的积累. 团队运用深度学习技术, 结合信号处理理论, 将图像, 音频, 视频等模态信息来应用于视频处理, 分析, 理解多媒体内容, 这就是目前国内外很火爆的 "多模态技术". 刘杉博士表示:"我们团队在智能剪辑这个课题上已经有一些探索和积累. 此次运用在阅兵场景, 一个难点在于可用于模型训练的内容量非常有限. 所以我们并不是依赖海量数据来" 搞定 "问题."
智能云剪辑相关技术介绍
智能剪辑流程图
按照阅兵场景的事件顺序, 智能剪辑的主干流程为: 分列式开始前推送关键事件剪辑结果 , 检测分列式开始, 分列式开始后推送拆条结果, 方队集锦, 间隔集锦.
在分列式开始前, 我们通过背景音识别, 关键词检测和目标检测等技术, 可定位出国歌, 合唱, 领导人讲话, 检阅等事件, 然后将以上精彩的关键事件视频进行后处理, 完成智能剪辑与推送.
分列式开始时刻的特点是 "特写军官发出分列式开始的口令", 在技术层面利用关键词检测技术检测 "分列式开始" 口令, 以及事件顺序限制来定位该事件.
"分列式开始" 关键词语谱图
在分列式开始后, 我们通过关键事件定位技术, 可定位出方阵间隔位置, 以此时间点可得到方阵的拆条结果以及不同方阵间隔处集锦视频. 最后将以上集锦视频进行后处理, 完成智能剪辑与推送.
陆军方队间隔的特点是 "特写军官发出口令"
人民群众方阵间隔的特点是 "方阵以特定视角首次出现在镜头中"
阅兵场景下的智能云剪辑依托于多种深度学习技术, 能准确识别视频局部的视觉, 音频等信息, 自动抓取视频内容的特征; 结合时序建模技术, 利用局部多模态信息捕捉视频全局的事件关系, 自动定位事件时域区间, 从而做到真正理解视频, 完成智能剪辑和推送.
基于多模态特征的时序建模框架
最后, 在祖国母亲 70 华诞之际, 让我们献上我们最美好的祝福, 我们将用更多更强的技术为祖国的未来添砖加瓦, 愿祖国繁荣昌盛!
视频片段没看够? 请戳 "阅读原文" 移步国家级 5G 新媒体平台, 由中央广播电视总台倾力打造的, 有品质的视频社交媒体: 央视频平台, 智能云剪辑小视频, 让你一次看个够~
来源: https://www.qcloud.com/developer/article/1517519