LinkedIn 公司在 2018 年 8 月发布的美国劳动力报告中提到:"对数据科学家的需求空前高涨...... 具有数据科学技能的人才短缺问题几乎存在于美国的所有大城市. 在全美国范围内, 共缺少 151717 名具有数据科学技能的人, 其中纽约市 (34032 人), 旧金山湾区 (31798 人) 和洛杉矶 (12251 人) 的人才短缺尤为严重."
2011 年, 麦肯锡发布的《大数据》报告称,"仅美国就面临着 14 万至 19 万名具有分析专长的人才短缺, 以及 150 万名具备理解并基于大数据分析做出决策能力的管理人员和分析师的短缺".
2014 年, 我们调查了数据科学家的数量, 当时的估计为 50 名至 10 万名, 且当时并没有看到数据科学家大量短缺的证据. 2014 年, 我们在 indeed.com 网站上仅发现了约 1000 个 "数据科学家" 的招聘广告.
2016 年, 我们研究了德勤的一项研究. 德勤在研究中预测: 到 2018 年, 企业将需要 100 万名数据科学家.
现在已经是 2018 年了, 所以我们可以检验上述预测的准确程度, 并且尝试回答以下三个问题:
现在是否存在数据科学家的短缺?
现阶段有多少 "数据科学家"? 无论是名义上的还是实际职能上的.
数据科学家的未来前景如何?
1 数据科学家短缺吗?
第一个问题的答案似乎是肯定的.
LinkedIn 公司在 2018 年 8 月发布的美国劳动力报告中提到:"对数据科学家的需求空前高涨...... 具有数据科学技能的人才短缺问题几乎存在于美国的所有大城市. 在全美国范围内, 共缺少 151717 名具有数据科学技能的人, 其中纽约市 (34032 人), 旧金山湾区 (31798 人) 和洛杉矶 (12251 人) 的人才短缺尤为严重."
值得注意的是, LinkedIn 报告中的人才短缺是指具有 "数据科学技能" 的人, 而不一定是拥有 "数据科学家" 头衔的人.
我们可以通过两个热门的求职网站 --indeed 和 Glassdoor-- 来估计对 "数据科学家" 的需求.
在 indeed.com 网站上搜索美国的 "data scientist"(加引号), 只能找到约 4800 个工作岗位.
(注意: 在 indeed 网站上进行搜索时使用引号十分重要. 搜索没有加引号的 data scientist 可以找到约 3 万个工作岗位, 但我们不确定这些工作岗位中有多少是针对其他领域的科学家的.)
美国是数据科学家最大的市场, 却非唯一的市场. 通过在 indeed 的区域性站点 (indeed.co.uk,indeed.fr,indeed.de,indeed.co.in 等) 上进行搜索, 我们可以发现其他国家对数据科学家也有强烈的需求:
在 Glassdoor 网站上输入 "Data Scientist" 进行搜索, 可发现美国大约有 2.6 万个工作岗位 (删除引号也会得到同样的结果).
2 现阶段有多少 "数据科学家"?
谷歌搜索将数据科学家定义为:"受雇用于分析和解释复杂的数字数据 (如网站的使用统计数据) 的人, 从而协助企业做出决策."
由于数据科学是集统计学, 计算机科学, 机器学习和商业于一体的交叉学科, 因此在业界和学术界有许多人虽从事这项工作却没有正式的数据科学家头衔. 因而我们可以通过调查流行的数据科学平台来估计当前数据科学家的数量.
Kaggle(现在是 Google 的一部分) 是一个数据科学和数据分析的竞赛平台, 它声称是世界上最大的活跃数据科学家社区. 虽然并非所有数据科学家都参加过 Kaggle 比赛或拥有 Kaggle 账户, 且并非 Kaggle 上的所有人员都从事数据科学工作, 但我们可以合理地假设数据科学家群体与 Kaggle 人员群体存在大量重叠. 2017 年 6 月, Kaggle 的社区成员数量突破了 100 万. 2018 年 9 月 19 日的 Kaggle 电子邮件称, 他们的社区成员数量在 2018 年 8 月超过了 200 万. 由于并非所有 Kaggle 成员都是活跃的, 所以 Kaggle 的社区成员总数可能是全球从事数据科学的人的数量最大值.
KDnuggets 网站现在每个月有超过 50 万名独立访客, 由于网站专注于帮助数据科学家和机器学习工程师更好地完成他们的工作, 因而我们可以合理地认为网站的大多数访客都在数据科学或机器学习领域工作, 无论他们的实际头衔是什么. 但由于部分访客可能是无意中随机访问了 KDnuggets, 因而我们可以了解网站的订阅者或粉丝 -- 这个更活跃的子集.
KDnuggets 目前在 Twitter,LinkedIn,Facebook,RSS 和电子邮件上拥有约 24 万名订阅者或粉丝. 虽然不同平台的人会有一些重叠, 但对于全球众多的数据科学家来说, 大约 20 万的人数预估似乎是合理的最小值.
在 LinkedIn 上, 有许多致力于数据科学的组织. 尽管这些组织的参与度一直在下降, 但我们可以粗略地估计他们的成员数量. 以下是三个最大的数据科学组织的预估成员数量:
这些组织成员的头衔有着巨大的多样性, 这些头衔包括数据科学家, 数据分析师, 统计学家, 生物信息学家, 神经科学家, 市场营销主管, 计算机科学家等等...... 可以肯定地说, 任何从事着传统数据科学家所从事的工作的人都可被认为属于这一类别. 随着越来越多的人需要通过分析数据来获得见解或做出关键决策, 传统上职位和职责不同的人们都热衷于学习数据分析这一新技术, 以适应自己的领域. 这虽然并不能使他们从根本上成为数据科学家, 但他们确实拥有该领域的知识和才能.
我们还可以从数据科学家的 LinkedIn 个人资料中获取一些有用信息, 这些资料显示有超过 10 万人拥有数据科学家头衔.
图 1:LinkedIn 数据科学家简介 (按行业和地点分类)
在 LinkedIn 上搜索 "数据科学家"(加引号很重要), 我们发现超过 10 万人拥有该头衔. 因此, 如果全球有 20 万到 100 万人在做一些与数据科学相关的工作, 那么他们中的大多数人都没有数据科学家的头衔.
我们还可以通过查看与数据科学最相关的语言和平台 (R,Python, 机器学习库, Spark 和 Jupyter) 相关的活动来估算大型数据分析 / 可视化 / 统计社区的规模.
Apache Spark Meetups 上现有 22.5 万名成员, 而且每个月都在增长. Intel Capital 估计全球有 100 万 R 程序员. 根据 python.org 网站上的公开数据, 现在已有约 275 万次的下载量. Jupyter 项目目前拥有约 300 万用户. 这些数字可以为我们提供全球数据分析师或数据科学家数量的粗略上限.
3 数据科学家的未来前景
数据科学家近期的前景看起来很光明.
2017 年的 LinkedIn 新兴就业报告称, 2017 年的机器学习工程师比 5 年前增加了 9.8 倍. 在 LinkedIn 报告上, 机器学习工程师, 数据科学家和大数据工程师跻身新兴岗位之列. 自 2012 年以来, 数据科学家增加了 650% 以上.
图 2:LinkedIn 十大新兴职位及其增长情况 (2012 年至 2017 年).
根据美国劳工统计局的数据, 未来十年的就业增长预计将超过前十年的增长, 到 2026 年数据科学或数据分析领域将创造 1150 万个就业岗位.
IBM 最近宣称, 到 2020 年, 数据科学和分析职位的数量预计将增加近 36.4 万个, 达到约 272 万个. 因而无论目前数据专业人员的真实数量是多少, 他们的数量在不久的将来很可能会继续增长.
然而, 从长远来看, 自动化将取代业内的许多工作, 数据科学家的工作也不例外. 如今, DataRobot 和 H2O 等公司已经为数据科学问题提供了自动化的解决方案.
2015 年 KDnuggets 民意调查中的受访者认为, 大多数专家级的预测分析或数据科学任务将在 2025 年实现自动化. 为了保住工作岗位, 数据科学家应该专注于培养更难自动化的技能, 如业务理解, 解释和讲故事的能力.
来源: http://bigdata.51cto.com/art/201810/585054.htm