Reddit网友谈数据分析师和数据科学家的职业区别


对于那些实际上具备这两个角色所需技能的人,是什么让您决定成为数据分析师而不是数据科学家?
 
我放弃了成为数据科学家的职业梦想。现在,我使用 SQL 后端构建 .NET 报告应用程序。

我们所说的数据科学在实践中根本不是科学:
他们把所有的时间都花在学习模型上,然后什么都不做,基本上只是做些SQL 查询和仪表板报告。
数据科学DS在实践中不是一个很需要数学或统的领域,也不是任何真正擅长统计的人都应该进入的领域。

  • 现实商业世界中的数据科学通常只是实现数据存储和检索操作的代码。这可能非常令人不满意,并且感觉像是对您全部能力的完全侮辱。
  • 在任何数据科学项目中,我花在运算上的时间都比花在数学上的时间多。
  • 坦率地说,我称您的日常操作包括高级统计或手动测量贝叶斯概率,但日常任务是运行来自 Google Analytics/Adobe Analytics 的报告。
  •  5 年和 3 份工作后,我现在终于意识到,大多数 DS 角色只是美化的商业智能/产品分析工作。
  • 毫不夸张地说,10 个“数据科学”工作中有 9 个是美化的数据分析或商业智能

好的 DS 职位应该在前线,并得到公司的大力支持。

我公司的数据科学家做了一些非常棒的工作。目前在一家大型健康保险公司工作。
他们所做的工作是真正有意义的工作,专注于改善健康结果。像:

  • 预测自杀倾向以开展外展活动并减少自杀未遂
  • 改善健康措施的社会决定因素,以优化我们在服务不足地区的足迹(初级保健)
  • 用于改善治疗路径的健康结果确定性模型

还有很多更平凡的事情,例如优化 OCR 类型模型以使医疗保健系统更接近数字时代(最佳读取患者表格等以进行摄取)。
对于数据科学家来说,这绝对是有意义的工作,而且它可以在合适的公司获得丰厚的回报。

我的数据科学和分析团队在美国一家大型医疗系统工作:
我们一直在努力为医生主管和非临床管理人员工作,他们很难知道如何与我们的团队合作。
每个人都 "想要数据科学",但却要求非常不明确和变化的交付物,在确定我们可以管理的具体变量/KPI方面缺乏理解,这可以明显改善健康结果和提高病人安全。
这可能会使某些想在80%以上的时间里进行 "真正的数据科学 "的人感到愤怒,因此我们不雇用这些人,我们必须雇用那些在帮助临床研究人员、操作人员和质量改进人员定义问题陈述、理解数据可以或不可以帮助什么,然后部署我们技能的人。
对于那些要求我们提供时间的高管来说也是如此--如果他们不能定义他们的问题,不能投入时间来共同创造一个有意义的数据产品,我就不参与。
是的,我们最终做了很多描述性的分析,但我们也提供了规范性的分析,以便从一个巨大的机构中转变医疗服务的提供,而这个机构的定位是非常......非常缓慢的,这对我们的病人来说是不够好的。
 
在很多其他公司,我可能会被称为数据科学家。但我主要不是从事ML工作,所以大多数分析专家不会这样称呼我。我做一些初始建模,大量的数据库工作(数据建模,编写管道),一些仪表盘,一些特别的研究("为什么会发生这种事情? 如果我们这样做或那样做会怎么样?")。
我直接与整个公司的利益相关者合作。我通常是第一个听到他们的业务问题并确定解决方案的范围。我喜欢这部分工作,这可能是我还没有 "转型 "到一个完整的DS角色的原因。说实话,95%以上的商业问题/疑问不需要用ML来解决。我可以迅速提供洞察力并告知这些决策,这创造了很多价值。
我对预测性建模也不那么感兴趣。我喜欢老式的统计学--推理,因果关系,能够解释为什么事情会发生,或者如果做了其他事情会怎么样。
我可以把回归分析放在一起,比我们DS团队的大多数人都要好。
但只是把数据扔进一个模型以获得最低的损失分数对我没有吸引力。
当需要一个预测模型时,我可以和利益相关者一起工作,做一些有趣的部分--弄清楚业务背景,目标变量应该是什么,哪些数据应该和不应该被用作预测因素。
因此,当我把它交给DS团队的时候,剩下的就是获取数据和编码模型的繁琐工作了。
至于薪酬,一个好的高级数据分析师至少抵得上两个初级数据分析师。而且他们很难找到,因为人们宁愿选择DS职位。为了取代我,我的公司必须雇用至少两个人,而且要花几个月的时间来找到他们,再花几个月的时间来让他们适应工作。如果他们是好的,他们可能会在一年内离开,去找一个DS职位,或者要求更多的薪水来坚持下去。我并不害怕提醒我的老板这一点,并要求适当的补偿。我做得很好。
 
如今,在许多科技行业中,这种角色在产品方面有一个DS头衔(并有相应的薪酬)。
我完全同意。大多数时候,ML对于业务/产品的需求来说是一个过于复杂的解决方案。我以前也有过这样的经理,他们的目标是 "建立的模型数量",而不是他们推动的任何种类的影响,这简直是为了ML而ML。
我个人认为,找出正确的问题,从这些问题的答案中得出什么样的见解,然后通过对这些见解采取行动来推动最终的结果,这些战略方面比躲起来只是试图优化一些影响最小的无聊模型要有趣和有意义得多。
题外话,我认为行业向扩大DS头衔以包括更多的分析师角色的迁移是正确的举措--基于使用多少ML的把关是接近DS的错误方式,我认为这往往是关于理解如何使用数据来帮助企业/产品做出正确的决定,这往往需要简单的解决方案......而这是可以的。
 
建造的模型数量......这实际上是我公司设定的战略目标......
我们现在正在生产 X,他们告诉我们他们希望在今年年底前达到 4X。没有关于使用哪些或如何实施或解决哪些问题的指导(因为他们认为这会刺激我们,我猜)。当许多模型被推出并没有做好任何事情时,他们会感到震惊。
 
“数据科学”是一个广泛的领域(就像“计算机科学”是一个广泛的领域一样)。数据/分析团队应该配备很多工具(通过员工的不同技能组合),并为每个问题选择正确的解决方案。有时这是仪表板,有时是 EDA 和见解/建议,有时是用于分析或自动化的预测模型。
 
这是一个非常非常大的问题。答案:

  • 黄金标准是产生一个IV,并设计实验的其余部分以排除混淆因素。
  • 几乎所有的观察性数据(即没有产生的变量)都不能有力地推断出因果关系。
  • 如果措施1在措施2之前,或者有强大的文献显示某些变量之间存在因果关系,那么一些观察性数据集的某些元素可以给出 "弱 "因果推断。从逻辑上讲,这仍然不能给你提供因果推断,但它可以增加你对结果的因果解释的信心。
  • 在一些特定的情况下,某些类型的纯观察性数据可以通过分析产生合理有力的因果解释结果。我实际上不记得这些技术了,因为每次我读到这些技术时,都会发现它们永远不会适用于我的具体情况,但我认为这涉及到以特定方式分析方差或干扰。

 
人们并不经常要求那么具体的东西。即使他们这样做,我也会问他们需要它的原因和背景。我试图了解他们为什么需要一个模型或分析,他们更想回答什么问题,他们需要它来做什么决定。
例如,一个营销人员可能会来找我说,"我需要一个X的预测"。当我问及原因时,原来他们的老板只是想知道X的增长是由于一个活动还是由于季节性。这是一个很好的问题。但我可以把图表放在一起,显示...
  • 活动前一周的每日平均X值
  • 活动期间的每日平均X值
  • 也许是历史上每日X的最大值、中位数和最小值。
  • 也许是每日X的时间序列图

我可以在大约10分钟内把这些东西放在一起。如果运动期间的日均X相比之下大得多,那么我们可以回答这个问题:是的,增长很可能是由于运动,而不是季节性。
当然,一个模型可以给我们一个更精确的答案。但我们需要它吗?
也许不是为了回答这个一次性的问题。也许值得为未来准备好季节性预测。
如果是这样的话,我会和我们的DS团队合作,在生产中使用一个模型,将公示的X预测和范围吐到数据库中。
一般来说,我们把一次性的工作做得很低。如果我们投入更多的精力,我们坚持认为它是自动化的。
 
如果您具有非常专业的领域知识(例如流行病学或金融学),分析师的工作可能更适合您的技能组合。
从我在求职网站上看到的情况来看,分析师的就业市场似乎大于数据科学家的市场(至少在英国公共部门)。如果你不住在大城市附近,你可能很难找到任何数据科学职位。但是,可能会有更多的分析师职位申请者。
我在美国也看到了这一点。大多数公司都需要分析师。并非每家公司都需要或拥有足够的机器学习数据。此外,需要两者的公司仍然需要更多的分析师。分析工作肯定有更多机会。我认为 DS 的工作会吸引更多的申请者,因为每个人都听说这份工作有多性感以及薪水有多少,所以很多人只申请 DS 的工作。
 
通常,一家公司的分析师人数要比 DS 多得多。同样的想法是,医院的初级保健医生比专家多得多。例如,我工作的公司有一个由 5 名分析师组成的团队,只有 1 名“数据科学家”,而数据科学家实际上更多地与工程团队合作而不是分析师。
 
ML模型是产品,ML工程师所做的是,在大多数地方涉及研究和部署以及两个阶段的基础工具。通常是非常聪明、有趣和好看的。
ML模型是用来改善公司的产品/销售/运营的--数据科学,在大多数地方,这只是研究,实施只是为了研究的工具,其他人实现结论,他们通常知道更多的理论,比ML工程师更适应前沿的发展,有时会有合作。通常说的是谜语,对抛出的硬币非常痴迷
没有ML,主要是在管道之间移动/保存/加载数据,以一种成本效益高的方式,可以使公司成功或失败 - 数据工程师。通常是令人讨厌的,看起来很滑稽。
不知道什么是分析师,根据公司的不同可以有很多不同的东西,但它通常是一个 "较低 "的入门门槛,需要较少的东西(研究/工程),在较高的水平上,分析师可以与数据科学家没有区别,有几个例子是比玩强大模型的抛硬币者有更具体的影响。
 
尽管我希望有一套行业标准的职位和相关职责,但这可能因公司而异。但在我的脑海里,他们是这样分裂的。
  • 数据科学家:设计 ML 模型并在公司数据中进行研究的人。
  • ML 工程师:将负责将数据科学家制作的模型应用到“生产”环境中。
  • 数据工程师:他们构建数据管道以在公司周围移动数据。
  • 数据分析师:构建仪表板和报告以供管理层审查。经常与业务部门合作定义指标和 KPI。

没有帮助的是,这些人将一起工作,他们的职责可能会重叠(ML 和数据工程师就是一个很好的例子),这可能会使水变得浑浊。
 
在我现在的公司,DS是ML工程师。所以我们的DS实际上更多的是与我们的工程团队合作,而不是与我们的数据分析师/分析团队合作。他们基本上是建立自己的模型,然后与工程团队合作,实施/测试它们。
我们有几个数据工程师,帮助编码和管理我们的数据仓库。他们了解我们所有的报告是如何生成的,并帮助建立新的仪表盘、表格等。他们主要是每天都在使用SQL。他们与DS的技能组有很多重叠,所以他们经常合作。
分析师员为我们的客户和公司本身做任何分析员的要求(内部基准,仪表板)。我们的工作生活平衡得很好,我真的不确定这是否值得为我所在的DS职位加薪。我每天工作几个小时,同时领取工资。因为我们独立工作,所以我很容易说,啊,这个项目因为数据问题要再花一个月,最后期限就会延长。由于我们的DS与工程团队的工作非常密切,他们不可能真的叛变,在一个分析上躲上两个月,如果这有意义的话。但是,我确实认为DS能解决的问题绝对是神奇的,如果我在10年内莫名其妙地感到无聊,我可以看到自己走这条路,笑。
 
一些公司进一步将您描述数据分析师的方式分为两个角色:
  • BI(商业智能)分析师:构建利益相关者要求的仪表板,但不分析仪表板或确定其中应包含哪些 KPI。
  • 数据分析师:分析数据,无论是来自这些仪表板还是查询他们自己的数据集,并根据他们的分析提供见解和建议。

 
我的正式头衔是数据科学家,但 5 年来,我是公司(中型)唯一一个甚至从事“大数据”工作的人,所以我做了各种各样的工作,主要是分析。从来没有创建过一个模型,而是创建了一些相当复杂的分析解决方案,到目前为止它很有趣,所以我没有抱怨。如果我被要求创建 BI ML 模型以呈现给管理层,而不是在后台进行更多技术方面的分析,我可能会少很多乐趣。
 
我现在是一名 PM,但我仍然做很多分析和数据科学,因为我是一名 4 年的 PM。虽然这两个角色之间的区别不是很清楚(两者之间有一个连续统一体,而且大多数都在中间),但我也明白你的意思。
我研究了很多数据科学并做了相当多的工作。但基本分析往往更有用,尤其是当您非常了解业务和基础数据时。
我见过很多聪明的人在做数学上优雅的工作,但实际上并没有做那么多。所做的事情往往是更多的工程用例,他们正在自动化某些东西。这不是我有太多经验的地方。
 
数据科学已经成为一个过饱和的泡沫。只要薪水合适,我会接受公司给我的任何职位。当然,我会成为你每年170k美元的看门人,或者数据分析师、工程师或科学家