你用过 Google Trends 吗?相当酷,输入一些关键词,然后能看到它们在谷歌中的搜索趋势变化。刚好 arxiv-sanity 论文数据库在过去 5 年内有 28303 份机器学习相关论文,所以我想,为什么不做一些类似的事情,来看看机器学习研究在过去 5 年是如何进展的?结果相当有趣,所以我想我该写篇文章分享一下。
(机器学习是一个大领域。本文偏重的领域是深度学习——这是我最熟悉的一个分区。)
让我们首先看下,在 arxiv-sanity 上(cs.AI、cs.LG、cs.CV、cs.CL、cs.NE、stat.ML)的论文提交总数,见下图:
(点击查看大图)
是的, 2017 年 3 月这些领域差不多提交了 2000 份论文。峰值可能与会议(比如 NIPS/ICML)的截止日期有关。注意,这里并不能说明该领域本身论文数量规模,因为并不是所有人都会把论文提交到 arxiv ,而且研究人员对一部分论文的分类会随时间变化。但值得指出的是,这些领域有大量的论文。
把论文的总数作为分母。我们现在可以看下这部分论文包含了哪些我们感兴趣的特定关键词。
先预热下,让我们看看正在使用的那些深度学习框架。计算这个值时,在整篇论文中任何地方(包括提到的参考书目书名等)提到深度学习框架的这部分论文都被记录在内。对上传于 2017 年 3 月的这部分论文,我们得到如下结果: