短视频信息流产品是目前最炙手可热的互联网产品之一, 每天会有海量的 UGC 与 PGC 视频被生产出来. 如何平衡人工成本, 高效地审核视频质量, 挑出真正好的视频? 基于 AI 算法准确识别视频质量并进行机器过滤, 可以提高视频生产效率和生产质量, 并最终提升用户体验. 本专题具体介绍阿里文娱基于视频封面, 标题, 内容等多个维度的质量评价算法, 系统与平台架构, 以及业务落地与应用结果等. 本文是专题的第三篇文章.
1 背景: 从文本信息评估视频标题质量
短视频行业近年的快速发展, 生产了大量的短视频, 其中短视频质量是参差不齐的, 如果放任其中的劣质视频发布, 会给用户造成不好的体验. 一条短视频要被审核, 需要从标题, 封面, 视频内容三个维度去分析, 最后给出一个综合的评分. 目前优酷短视频内容池每日新增的短视频有数十万量级, 但是人审带宽有限, 而且审核工作量和成本均是巨大的, 必须提供算法模型对视频打分, 达到接近人审的效果. 本文从文本信息角度来评估短视频的标题质量.
2 技术框架: 规则模型, 文本二分类模型
短视频标题质量分析的技术框架分为规则模块, 文本二分类模型.
2.1 六大规则模块
规则模块的目的是提取文本统计特征, 用于业务上直接判定劣质标题, 比如某些业务需要标题字数必须大于 8, 则可直接对标题检测和过滤.
敏感词和关键词检测: 比如, 短裙美女性感热舞内内
社交信息检测: 比如, 谈判与口才系列 更多精彩 QQ153555286
标题语言检测: 比如, 中文简体, 中文繁体, 数字符号, 外文
标题字数检测: 比如,《虎踞龙盘》28 集大型剿匪抗日电视连续剧, 字数为 20
标题形态检测: 比如, 文字: 数字: 符号 =92.86%:0%:7.14%
标题错别字检测: 比如, 易洋千玺 -> 易烊千玺
2.2 文本二分类模型
标题质量分析可看成一类文本二分类问题, 开发二分类模型给标题打上概率得分 (0-1 之间, 得分越高表示标题质量越好), 最后基于业务设定阈值, 识别出差标题 (得分低). 在本次框架中, 我们采用 rnn+cnn model 和 bi-lstm with attention model 两种分类模型, 两个模型预测得分进行加权平均, 得到最后的标题得分, 用于检测差质量的短视频标题.
3 标题质量分模型
3.1 模型选择
深度学习在文本分类问题上应用越来越广泛, 分类模型也常被用于文本质量分析, 我们开始采用的是经典 TextCNN 模型, 后来通过反复尝试和实验效果对比, 最终选取了能够捕获上下文信息的 RNN + CNN 模型和 BI-LSTM with Attention 模型作为多模型融合方案.
3.2 模型细节
RNN+CNN model: 预训练 200 维的 Word embedding, 通过两层 BI-RNN, 其中一层是 hidden_size 为 64 的 BI-LSTM 和一层是 hidden_size 为 128 的 BI-GRU, 再经过一层一维卷积层和池化层 (最大和平均池化), 最后是两层全联接层.
BI-LSTM with Attention model: 预训练 200 维的 Word embedding, 通过两层 BI-RNN, 其中一层是 hidden_size 为 64 的 BI-LSTM 和一层是 hidden_size 为 128 的 BI-GRU, 对 bi-lstm 和 bi-gru 做 attention 操作, bi-gru 输出结果做最大和平均池化, 经过 concat 操作, 最后是两层全联接层.
3.3 样本集构建
从短视频内容池中, 我们选取了 520 万带有质量评级的样本, 其中正负样本比例是 7: 93(正样本表示带坏标签的视频标题, 负样本表示带非坏标签的视频标题), 通过随机采样, 我们构建出 106 万条数据, 作为训练样本集.
4 效果与结论
标题质量模型上线后, 机滤后视频标题送审低质率已经优化到 1% 左右, 结合标题文本特征 / 规则检测, 视频标题送审低质问题也基本得到了解决.
5 后续工作
目前标题质量模型还存在少许 badcase, 采用每日数据回流策略, 扩充样本集, 定期重新训练模型和更新线上标题质量模型, 目的一方面是扩充样本集, 提升模型准确率; 另一方面内容池的审核标准会随着时间而不断改善, 进而需要剔除一部分旧审核标准的样本.
模型的优化点, 一方面考虑将文本统计特征 (比如上面的规则模块的部分文本特征) 作为分类模型的输入 ; 另一方面模型融合策略的优化, 比如将多个模型的最后一层拼接起来, 再定义一个损失函数.
参考资料
[1] Convolutional Neural Networks for Sentence Classification https://arxiv.org/pdf/1408.5882.pdf Kim, Yoon. 2014. arXiv preprint arXiv:1408.5882 .
[2] A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification https://arxiv.org/pdf/1510.03820.pdf [Zhang and Wallace2015] Ye Zhang and Byron Wallace. 2015. arXiv preprint arXiv:1510.03820
[3] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm https://arxiv.org/pdf/1708.00524.pdf Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, and Sune Lehmann. 2017. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing
[4] Quora Insincere Questions classification
[5] 文本纠错
[6] 优酷 smartAI 平台介绍 https://yuque.antfin-inc.com/ke5an3/euy590
来源: http://www.tuicool.com/articles/AJB732E