分享嘉宾: 董兴华 新浪微博
文章整理: 凌铭
出品平台: DataFun
导读: 新浪微博截止 2019.9 统计的数据, 月活跃用户数为 4.97 亿, 日活跃用户数为 2.16 亿, 其中约 94% 为移动端用户, 今天会和大家分享新浪微博在 feed 流中遇到的 NLP 问题和解决思 路. 主要包括:
难点与现存问题
标签系统
物料库
多任务, 多模态探索
大规模预训练模型技术
-- 难点与现存问题 --
博文内容大多比较短
第一个问题, 微博的内容都是比较短的 ( 一般都是 100 字符以内 ), 比如右图中提到文本 "下午茶", 但是图片内容并不是美食 "下午茶", 考虑整个微博文本和图片内容应该分类到美女频道而不是美食频道更合适. 另外对于短文本使用 LDA/PLSA 等 topic model 效果都不太好.
语言表达随意化
第二个问题, 文本的随意化和口语化, 语法结构不严谨, 对于内容分析带来较大挑战.
用户搜索行为序列不能准确获取
第三个问题, 比如: 在微博搜索结果页中, 由于文本简短, 大部分的结果在页面中能看到全文, 没必要点击进入看内容 ( 除了第二条, 需要点击展开全文 ), 而从停留行为来看, 由于一页展示多条博文, 也不能准确定位用户感兴趣的是哪条微博.
用户 feed 行为序列不能准确获取
这个问题与搜索结果页相似, 用户停留在 feed 流的页面中, 不能准确区分哪条微博为用户感兴趣的. 我们对点击较高的博文分析发现, 点击较高的博文很多包含多张图片. 由于一条微博可以包含多张图片, 部分高点击的博文是由于用户想查看图片的内容才点击进入微博的正文页, 但是这样的点击不能代表用户对该博文感兴趣.
来源: http://www.tuicool.com/articles/Nz6ZNfQ