“我快毕业了,想找数据分析或者数据科学的工作,能分享下你的经验吗?”

(本文中英文夹杂,不喜误读)

这些年来,LinkedIn上总是能收到类似的站内信,累计下来和不下20个人聊过天。仔细想想,大部分人问的问题都很类似,需求也基本相同(想找工作/实习)。今天想挑几个大家都好奇的问题来说说。

先简单介绍一下我的经历。我学的是经济+统计,本科毕业后就直接工作了。第一份工作是经济咨询 (Econ Consulting),不同于管理咨询,有非常多的数据分析需求。两年后跳到了Facebook。刚开始的职位叫Operations Analyst,后来职位转成了Data Scientist。在F做了将近5年后跳到了Netflix,title叫Analytics Engineer,但和F的Data Scientist, Analytics基本做的是同类型工作。总体来说,我走的主要是Analytics Track外加一些Inference Track(下面会聊不同的Track),比较少做Modeling。

好了进入正题吧,罗列一下大家都好奇的问题 + 一些常见的误区吧。

==== 个人技能 ====

问题:“Data Scientist / Data Analyst / Business Analyst…到底有什么区别”

数据分析行业的职位名称特别多,让人非常困惑。遇到过人说只想看Data Scientist 的工作,不考虑Data Analyst。也遇到过人说担心Data Scientist的要求太高,只想关注Data Analyst的工作。然而实际上,数据分析行业对于title并没有统一的定义。举个例子,Facebook的Data Scientist, Analytics需要的技能基本等同于Google的Product Analyst,也基本等同于Netflix家的Analytics Engineer。如果一个求职者不知道这些,只是一味地去找“Data Scientist”的职位,那可能会错过很多相似的职位。为什么会出现这个情况呢?除了没有统一的定义之外,很多公司为了能吸引更多的求职者,会尽量把title写成Data Scientist —— 科学家听起来多厉害呀。这个方法亲测有效,可以吸引一大波求职者😝  那求职的时候改怎么应对这样的职位名称不统一的情况呢?有3点:

  • 依靠大体上的判断:从大体上来分,Data Scientist的Technical Skills Expectations一般还是比Analyst更高,尤其是在一个公司又有Data Scientist又有Data Analyst这两种职位上的。当然,这个说法并不一定适用于跨公司比较,比如Google的Product Analyst = Facebook的Data Scientist, Analytics
  • 看具体职位的Job Description:这是一个最靠谱的手段。Title太迷惑,但Job Description是骗不了人的。可认真读一下Job Description上面对Requirement和Responsibilities
  • 了解自己的喜好/需求:在读Job Description的时候,思考的维度不用局限于这是不是想象中的Data Scientist,而是看看自己对要做的事情感不感兴趣,自己的背景和要求匹配不匹配。真正找到喜欢又合适的岗位才是最重要的,title都是排在后面的

误区:“Data Scientist = 做Modeling的”, “厉害的Data Scientist主要是Technical特别强”

这个恐怕是对Data Scientist一个很常见的误解,也是比较狭义的定义。广义上来分析一下Data Scientist到底是做些什么的吧。

  • 从支持的部门来分,基本可以分成产品部(Product Org)和业务部(Business Org)。有一些大的公司还会有Infra Org和Research Org。根据Org的不同,Data Scientist需要解决的问题不同。比如Product Org的目标是把产品变得更好,通过改产品,改设计来增加日活用户等等。产品是核心。有一些公司也会把算法归于Product的范畴之下, 算法是核心(插一句,很多公司的核心算法是Software Engineer或者Research Scientist做的,并不是Data Scientist)。Business Org的目标是增加Revenue,Sales and Marketing是核心,也有一些Internal Products和Process来助力。Sales和Marketing要么提高Effectiveness(更多$),要么提高Efficiency(更少时间)。有些公司会把Product Org的数据分析岗叫做Product Analyst,而Business Org的数据分析岗叫做Business Analyst / Operations Analyst等。这个是部门的分法。
  • 虽然部门不同,但数据分析岗的核心技能还是处于一个大框架的范畴下的(如图)。大方向上可以分3个Track:Analytics,Inference,和Modeling。观察下来,现实中的Data Scientist基本都会主攻一个Track,然后偶尔也做其他另外两个Track的项目。比如像我这种Analytics Track的,70%的时间都在做Analytics,而30%在做Inference (Causal Inference, A/B testing)。框架的底层是不管哪个Track都需要的技能,比如数据处理能力(SQL/Python/R),包括Build Data Pipelines的能力(够用就好,不用到达data engineer的程度),Visualization的能力等等。
  • 软实力非常重要,而且是随着经验增长,越来越重要,越来越是区分出好的Data Scientist和一般的Data Scientist的标杆。当然也有一些Nuances,比如纯Modeling的领域,硬实力的“够用”要求会比其他领域的“够用”高。篇幅有限,就不一一赘述啦。

针对这个误区最后啰嗦一句,不管是哪个部门,不管是哪个Track,归根结底,知道什么是最重要的问题并且能解决问题的能力是最重要的。解决问题的手段只是工具。当然,有更多的工具可以帮你解决更多的问题。

==== 部门职能 ====

问题:“Data Science function和其他部门如何合作的?”

短的回答:在大一点的公司,Data Science是自己的一条线,和其他线合作(产品,业务),既会帮助制定方向,也会助力执行。

长的回答得先从Org Structure来说起。Product Org一般是Product Manager + Engineer + Data Scientist,外加Design,UX等等。Business Org一般是Program Manager + Engineer + Data Scientist,外加Sales,Marketing等等。还有一些大点的公司有Infra Org和Research Org,和上述的架构也类似。可能有人会认为,在这样的结构下,Product Manager定方向,Engineer执行,Data Scientist通过做AB testing来看执行的结果。但实际上并不是这样干巴巴地划分的。首先,能做好本职工作肯定是基本要求:一个写不出码的engineer和做不出分析的Data Scientist肯定不是好的合作对象。其次,everyone contributes to the strategy,而不是只做好自己的那一小块。产品经理的本职是定方向,组织大家,最后拍板,但所有人所有部门都得have a seat at the table,献计献策。很多项目的想法是data scientist driven或者engineer driven或者business driven的。比如,数据分析发现了这个机会,和大家聊聊;business有一个idea,和大家聊聊。总体来说,除了自己职能的技能过硬外,重要的是不要局限自己,而是始终有一个Thought Leader的Mindset来思考如何能把这个项目做得更好。纯执行的Data Scientist不是好的Data Scientist。

误区:“Data Scientist每天的主要工作是在屏幕后面产出”

从时间分配上来讲,初期的Data Scientist可能会有80%的时间是一个人在屏幕后面做被分配的project的。但随着经验的积累,开会的时间会越来越多,甚至达到50%以上。这是因为,做对的事比做出一点事更重要,而开会和沟通是找到什么是对的事情的重要手段。也会花很多时间分享自己的分析和帮助他人理解数据。做的东西再Fancy,合作的人不能理解或者不能落地的话,都是空谈。

==== 职业发展 ====

问题:“Data Science的Career Path是什么样的?”

可以一路爬变成越来越Senior的Data Scientist。当然,最“自然”的路是爬Corporate Ladder,变成Data Science Manager等等。Data Science Management的空缺一般比Staff/Principal Data Scientist的多,而且也更容易scale and show your impact。也有很多人发现自己更喜欢做产品,那可以变成产品经理,当一个产品经理里面最懂数据的。特别喜欢写码的,可以考虑直接转software engineer。换跑道并不容易,需要很多努力,但是是可以实现的。

误区:“小公司会学得更多成长更快,大公司的分工太细,impact和成长都会受限制”

这个并不是绝对的。大小公司各有优缺点。

  • 小公司:优点是可以接触非常广的业务面,从想法到实践需要的时间很短,可以快速地尝试和学习,也会促进很多新的思维。缺点是小公司可能没什么解决问题的体系,系统学习会困难很多。人员关系也有它的复杂层面。还有一个缺点是资源有限,体现在1)可能会被抓壮丁做一些其他活 2)受资源的限制无法做某些活 3)一直在Survival Mode,压力可能会更大。破解方法是找靠谱的小公司来确保上面说到的风险会被弱化,比如,有够靠谱的前辈来带路就能让系统学习容易很多。
  • 大公司:优点是资源很多,可以向很多不同的同事学习,许多公司也提供系统学习的方式,而且可以快速了解成熟的运作模式,也有机会了解各方各面的业务。缺点是从想法到实践流程会比小公司慢很多,所以学习速度可能会下降。还有一个缺点是在僧多粥少的情况下,产品/业务可能划分很细,每个人管辖的范围很小,这样对视野扩展不是很有利。另外,大公司真的很大,在一个地方呆久了容易被那个地方的思维所局限。破解方法是保持一颗好奇心,不断地激起自我学习的意识。

这篇就先写这么多啦。以上都是基于我个人的经历,而我个人的经历也有限,希望大家能多和不一样类型的业界人士聊聊/读读相关文章,扩充自己对行业的了解。数据分析是一个很有意思也很有弹性的行业,希望能有越来越多的人在了解这个行业之后,开心地投入进来💪