许多大数据科学家都已经离职?原因我来告诉你
是的,我是一名数据科学家,是的,你没有看错,但有人必须说出来。我们读了许多关于数据科学是21世纪最性感的工作,以及作为数据科学家可以赚到的诱人的金钱之类的故事,这看起来像是绝对的梦想工作。原因在于该领域中有大量的高技能人才,他们渴望解决复杂的问题(是的,“追求”是一件很积极的事情),对此工作无所不包。
但事实是,正如《金融时报》在这篇文章中所说,数据科学家通常“每周花费1-2小时寻找新工作”。此外,文章还指出:“机器学习专家在他们表示正在寻找新工作的开发人员中名列第一,占14.3%。数据科学家紧随其后,为13.2%。”这些数据是由Stack Overflow在其针对64,000名开发人员的调查中收集的。
我也曾担任过该职位,最近我自己也换了数据科学工作。
那么,为什么有那么多数据科学家在寻找新工作呢?
在回答这个问题之前,我需要澄清一下我仍然是一名数据科学家。总的来说,我喜欢这份工作,并且我不想阻止其他有志于成为数据科学家的人,因为它可以带来乐趣,激励和奖励。本文的目的是扮演魔鬼的拥护者,并揭露这项工作的某些负面影响。
从我的角度来看,我认为许多数据科学家对其工作不满意的原因有四个。
期望与现实不符
理想与现实
大数据就像十几岁的性行为:每个人都在谈论它,没有人真正知道如何做,每个人都认为其他人正在做,所以每个人都声称自己正在做……– Dan Ariely
这句话很贴切。我认识的许多初级数据科学家(包括我自己)都想进入数据科学领域,因为这全都在于使用很酷的新型机器学习算法解决复杂的问题,这些算法会对企业产生巨大影响。这是一个让我们感到自己所做的工作比以往任何时候都重要的机会。但是,通常并非如此。
在我看来,期望与现实不符的事实是许多数据科学家离开的最终原因。造成这种情况的原因很多,我可能无法提供详尽的清单,但是这篇文章实质上是我遇到的一些原因的清单。
每个公司都不尽相同,所以我不能一一列举,但许多公司雇用的数据科学家都没有合适的基础架构来开始从AI中获得价值。这导致了AI中的冷启动问题。再加上这些公司在雇用初级人员之前未能雇用资深/有经验的数据从业人员,您现在已经为双方的幻灭和不愉快的关系做好了准备。数据科学家可能会写出智能机器学习算法来驱动洞察力,但由于他们的第一项工作是整理数据基础结构和/或创建分析报告,因此无法做到这一点。相比之下,该公司只想要一张他们每天可以在董事会会议上展示的图表。然后,该公司感到沮丧,因为他们没有看到价值没有足够快地推动价值增长,而这一切都导致数据科学家对其角色感到不满意。
罗伯特·张(Robert Chang)在他的博客文章中提供了非常有见地的报价,为初级数据科学家提供了建议:
重要的是要评估我们的理想与我们所处环境的关键路径相符的程度。找到关键路径与您的关键路径最相符的项目,团队和公司。
这凸显了雇主与数据科学家之间的双向关系。如果公司不在正确的位置或目标与数据科学家的目标保持一致,那么数据科学家找到其他东西只是时间问题。
对于那些感兴趣的人,Samson Hu撰写了一个精彩的系列文章,介绍了Wish的分析团队的建立方式,我也发现他很有见地。
数据科学家被幻灭的另一个原因与我对学术界被幻灭的原因相似:我相信我将能够对世界各地的人们产生巨大的影响,而不仅仅是在公司内部。实际上,如果公司的核心业务不是机器学习(我的前任雇主是一家媒体出版公司),那么您从事的数据科学可能只会带来很小的增量收益。这些可能加起来非常重要,或者您可能很幸运偶然发现了一个金矿项目,但这并不常见。
追求政治正确
政治问题已经有一篇精彩的文章专门介绍它:数据科学中最困难的事情:政治,我敦促您阅读它。该文章的前几句话几乎总结了我想说的话:
当我早上6点起床学习支持向量机时,我想到:“这真的很难!但是,嘿,至少我将对我未来的雇主变得非常有价值!”。如果我能得到DeLorean,我会回到过去,自称“ Bulls ** t!”。
如果您认真地认为了解很多机器学习算法将使您成为最有价值的数据科学家,那么请回到上面我的第一点:期望与现实不符。
事实是,业务最有影响力的人需要对您有很好的了解。这可能意味着您必须不断进行特别工作,例如从数据库中获取数字以在合适的时间提供给合适的人,进行简单的项目,以便合适的人对您有正确的认识。我不得不在以前的位置上做很多事情。令人感到沮丧的是,这是工作的必要部分。
您可以亲自处理任何数据
从尽一切努力取悦合适的人之后,那些拥有全部影响力的人却常常不理解“数据科学家”的含义。这意味着您将既是分析专家又是报告专家,并且不要忘记您也将成为数据库专家。
不仅仅是非技术主管会对您的技能做出太多假设。其他技术同事假设您知道所有与数据相关的信息。您知道如何绕过Spark,Hadoop,Hive,Pig,SQL,Neo4J,MySQL,Python,R,Scala,Tensorflow,A / B测试,NLP,任何机器学习(以及您能想到的任何其他相关数据)— BTW如果您看到上面写有所有这些的工作说明,请保持清楚。这是一家不知道其数据策略是什么的公司的工作说明,他们会雇用任何人,因为他们认为雇用任何数据人将解决他们所有的数据问题)。
但这并不止于此。因为您了解所有这些信息,并且显然可以访问所有数据,所以您有望在……之前得到所有问题的答案。好吧,它应该在5分钟前落入相关人员的收件箱中。
试图告诉所有人您真正了解并控制的内容可能很困难。并不是因为任何人实际上对您的想法都不多,而是因为作为一个缺乏行业经验的初级数据科学家,您会担心人们对您的想法会更少。这可能是非常困难的情况。
在孤立的团队中工作
当我们看到成功的数据产品时,我们经常会看到经过专业设计的具有智能功能的用户界面,最重要的是,有用的输出至少可以被用户感知以解决相关问题。现在,如果数据科学家仅将时间花在学习如何编写和执行机器学习算法上,那么他们只能是团队的一小部分(尽管有必要),从而导致产生有价值产品的项目取得成功。这意味着孤立工作的数据科学团队将难以提供价值!
尽管如此,许多公司仍然拥有数据科学团队,他们会提出自己的项目并编写代码来尝试解决问题。在某些情况下,这足够了。例如,如果仅需要一个季度生成一次的静态电子表格,那么它可以提供一定的价值。另一方面,如果目标是在定制的网站构建产品中优化提供智能建议,那么这将涉及许多不同的技能,这对绝大多数数据科学家来说都是不应该的(只有真正的数据科学独角兽才能解决此问题)一)。因此,如果该项目由孤立的数据科学团队执行,则很可能失败(或花费很长时间,因为组织孤立的团队在大型企业中从事协作项目并不容易)。
因此,要想成为一名有效的行业数据科学家,仅在Kaggle竞赛中取得出色成绩并完成一些在线课程是不够的。不幸的是(取决于您对它的看法)取决于了解层次结构和政治如何在企业中发挥作用。寻找可满足您需求的数据科学工作时,寻找与您的关键路径保持一致的公司应该是一个主要目标。但是,您可能仍需要重新调整对数据科学角色的期望。
如果有人有任何其他意见,问题或反对意见,请随时发表评论,因为有建设性的讨论对于帮助有抱负的数据科学家做出有关其职业道路的明智决定是必要的。
希望我没有让你失业。