hi, 大家好~ 我是 shadow, 一枚设计师 / 全栈工程师 / 算法研究员, 目前主要研究方向是人工智能写作和人工智能设计, 当然偶尔也会跨界到人工智能艺术及其他各种 AI 产品.
文末了解《人工智能 Mix》
AI 不仅可以帮我们创作文章, 做设计, 还可以完成短视频创作. 本文主要从大数据分析, 视频理解, 视频创作三个方面介绍 AI 应用在视频的前沿进展.
- 大数据分析电影
这是来自于 Moviescope 数据集所介绍的方法, 作者探索了多模态电影的特征表示, 使用 CNN(VGG16) 从单个电影的图片帧中提取特征表示 (Video Representation - fastVideo), 使用词嵌入从文本中提取特征表示 ( Text Representation - fastText), 使用基于谱的特征进行音频表示, 然后使用池操作聚合这些特征. 对于元数据, 使用随机林分类器.
实验结果:
- 视频理解
主要是场景检测, 自动切割, 景深等任务.
- pyscenedetect 开源库
可以用来做视频摘要, 自动剪辑之类的.
项目地址:
https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io
- AutoFlip 开源库
谷歌开源的 AutoFlip 可以实现自动剪辑, 包括视频尺寸裁切, 精彩内容自动化提取等.
项目地址:
https://github.com/google/mediapipe
- monodepth 开源库
可以用来预测景深
项目地址:
https://github.com/nianticlabs/monodepth2
- 视频创作
- 自动插帧
2019 年, 英伟达开源了 Super SloMo, 从普通的视频 "脑补" 出高帧率的画面, 从 30fps 插帧到 240fps, 即使放慢 8 倍也不会感到卡顿. 最近, 上海交大的一个新的插帧算法 DAIN 开源. 它比英伟达的算法效果更清晰, 帧率更高.
项目地址:
https://github.com/baowenbo/DAIN
- 输入文本, 生成视频
谷歌的 VideoBERT, 不需要标注数据, 采用无监督学习的方式直接从视频中学习. 作者借鉴了 NLP 中十分成功的 BERT 模型, 在它的基础上进行改进, 从视频数据的向量化和视频语音识别输出结果分别提取视觉和语言的特征, 然后在特征序列上学习双向联合分布.
类似的研究还有 ViLBERT: 为视觉 - 语言任务训练非任务专用的视觉语言表征, 百度也有类似的论文.
以上为全文, 欢迎关注专栏, 了解更多.
来源: http://www.tuicool.com/articles/AFV3Yb6