几个月前我写过数据工程师和数据科学家之间的差异. 我谈到了他们的不同技能和共同的知识基础.
一件有趣的事情发生了: 数据科学家开始反击, 认为他们实际上在数据工程方面, 和数据工程师一样熟练. 这很有趣, 因为数据工程师并没有拒绝承认他们是数据科学家.
因此, 过去几个月我一直在收集数据并观察数据科学家的自然行为. 本文将提供有关数据科学家不是数据工程师的原因的更多信息.
为什么这非常重要?
有些人抱怨数据科学家与数据工程师的差别就是头衔而已. 他们认为,"头衔不应该阻止人们学习或实践新事物." 我同意, 确实应该尽可能多地学习. 不过要知道, 你的学习过程只接触浅表即可, 否则, 这会导致大型数据项目失败.
这一点也为公司的管理层提供了信息. 他们正在招聘数据科学家, 期望他们成为数据工程师.
我从很多公司听过同样的故事. 故事的情节都相同: 一家公司决定使用数据科学, 因为这是获取风险投资资金, 高 ROI(投资回报率), 在商业周期中疯狂吸睛... 的方式, 当然也可能有一些其他原因. 这类决策往往是 C-level(CEO,CTO... )或 VP(副总裁)级别的人做出的. 我们姑且把这个高管成为 Alice.
这家公司进行了详尽的调研, 以寻找有史以来最好的数据科学家. 让我们称这位数据科学家为鲍勃.
鲍勃入职第一天. 爱丽丝走向鲍勃并兴奋地告诉他她脑中所规划的所有项目.
"那很棒. 这些数据管线在哪里, 以及你的 Spark 集群部署在哪?"Bob 问道.
爱丽丝回答说:"这就是我们期待你做的事情. 我们聘请你做数据科学."
"我不知道任何关于搭建基础设施的知识," 鲍勃说.
爱丽丝疑惑地看着他,"但你是一名数据科学家对吗? 这是你应该的."
"不, 我都是使用已经创建的数据管线和数据产品."
来源: http://www.jianshu.com/p/51d08882dea9