什么是全栈数据科学家?

22-09-19 banq

在 Shopify,我们接受了全栈数据科学的理念,并且经常被问到“成为全栈数据科学家意味着什么?”。该术语最近在数据行业中出现了激增,但似乎没有就定义达成共识。因此,我们与几位 Shopify 数据科学家聊天,分享我们的定义和经验。

什么是全栈数据科学家?
通常,数据科学团队的组织方式是让不同的数据科学家在数据科学项目的单一方面开展工作。但是,全栈数据科学家的范围涵盖了端到端的数据科学项目,包括:

  • 发现和分析:您如何收集、研究和解释来自多个不同来源的数据。此阶段包括识别业务问题。

  • 采集:将来自不同来源的数据移动到您的数据仓库中。

  • 数据建模:使用批处理、流式传输和机器学习工具转换数据的过程。


哪些技能可以造就成功的全栈数据科学家? 
全栈数据科学家是通才与专家。由于全栈数据科学家拥有端到端的项目,他们与多个利益相关者和团队合作,开发了广泛的技术和业务技能,包括:

  • 商业头脑:全栈数据科学家需要能够识别业务问题,然后提出正确的问题以构建正确的解决方案。

  • 沟通:良好的沟通——或数据讲故事——对于通常有助于影响决策的全栈数据科学家来说是一项至关重要的技能。您需要能够以您的利益相关者能够理解和实施的方式有效地传达您的发现。 

  • 编程:使用 Python 和 SQL 等语言的高效编程技能对于将代码投入生产至关重要。

  • 数据分析和探索: 探索性数据分析技能是每个全栈数据科学家的关键工具,其结果有助于回答重要的业务问题。

  • 数据工程:全栈数据科学家应该具备构建模型管道并将其部署到生产环境的工程技能。  

  • 机器学习: 机器学习是全栈数据科学家可以用来回答业务问题或解决问题的众多工具之一,尽管它不应该是默认设置。在 Shopify,我们支持从简单开始,然后以复杂的方式迭代。  


成为全栈数据科学家有什么好处?
作为一个多面手,一个全栈数据科学家是不是“无所不能”?虽然预计全栈数据科学家将在数据科学专业领域拥有广泛的经验,但每位数据科学家还将在特定领域带来额外的专业知识。在 Shopify,我们鼓励 T 型开发。强调这种类型的开发不仅使我们的数据科学家能够磨练他们擅长的技能,而且还使我们能够作为一个团队广泛工作,利用个人的深度来解决需要多种技能组合的复杂挑战。 


总而言之,全栈数据科学家是这样的数据科学家:

  • 专注于解决业务问题
  • 是投资于端到端解决方案的所有者,从识别业务问题到将解决方案交付到生产阶段
  • 培养涵盖所有数据科学的广泛技能,同时培养 T 型技能
  • 知道使用哪种工具和技术,以及何时使用