数字化时代如何为您的业务找到合适的数据科学DS使用场景? - towardsdatascience


如果您搜索“数据科学使用场景”,您将找到其中的数百个列表,每个列表都以流行语开头,例如欺诈检测,推荐系统或其他更高级的术语。接下来是一小段,试图用200个单词来解释它,勉强可以将这个流行词与AI、数据科学、机器学习、深度学习等其他流行词放在一起,而这些词都带有最高级的含义。无论如何,数据科学(或AI,机器学习或深度学习)应该使事情变得更好,否则,有什么意义呢?
这些列表是最好的灵感,但不是食谱,也不包含任何专门知识。作为(优秀)DS,我们应该能够确定潜在的用例,找到并掌握解决问题的工具,并与我们的业务同事一起发挥影响力。
 
识别哪些业务数据可以使用数据科学的步骤:

  • 在财务或非财务方面均具有重大影响
  • 数据科学和技术可以大大改善其结果
  • 主要利益相关者愿意接受新技术和变革
  • 所需的数据输入可用且质量良好
  • DS和SE团队拥有技能,可以部署所需的技术

  
大概要点:
  1. 在业务部门中绘制关键决策和后续动作(BDA)的结构,用一个节点代表拥有决策或行动的单位,用节点之间的箭头表示它们是如何相互影响的,既可以通过实在物质因素影响(工厂的生产取决于原材料等物质供应)来进行,也可以通过信息交换(仓库的库存水平很大程度上取决于工厂的需求)来实现。
  2. 然后列出用于驱动此BDA的数据。问问自己这些数据是否质量良好,或者是否可以引入任何其他数据以改善此决策制定,也请记下它们。
  3. 最后,添加有关驱动那些BDA的流程的一些信息,注意所需的时间,涉及的人员或业务部门,技术对它的支持程度以及是否有任何痛点。
  4. 缩小焦点,评估数据科学和技术是否可以大大改善结果:数据源应该可靠,并用作决策的主要输入。数据大小可能会向我们指示正确的工具(例如,当数据大小较大时应考虑使用分布式系统),并且常常是方法的倍数(例如,对于小型数据集,首选简单算法(例如线性回归或传统统计方法)以避免过度拟合);是否会对财务产生重大影响,即产生高成本或产生可观的收入?