数据科学家已死?AutoML使得数据科学更加普及化 - enterpriseai

21-02-27 banq

在过去十年中,“数据科学家”一直是最受欢迎的职位之一。但是再过十年,由于诸如自动机器学习或AutoML之类的技术,该角色将看起来非常不同。

新技术已经在帮助减少组织从头开始构建传统数据科学家的生硬AI和ML模型的需求。取而代之的是,在大多数组织中,软件开发人员甚至是非技术人员都将承担繁重的工作,并使用功能强大的软件工具来自动化数据科学家如今处理的许多任务。

这种过渡已经在进行中:根据Dice.com的一项研究,数据工程师(具有数据相关技能的开发人员)是2019年增长最快的技术工作类别,其增长速度几乎是对数据科学家的需求的两倍。随着这一趋势的继续,数据科学家将转而担任更多的咨询角色,为组织指导数据策略。

要了解这种转变,我们首先必须了解当今数据科学成熟度的范围以及它将如何发展。

 

大多数情况下,“本土” ML算法都是无法实现的

财富500强公司和其他大型企业通常具有最高水平的机器学习成熟度,因为它们拥有开发自己的专有ML应用程序所需的资源和技术人才。这些组织通常使用TensorFlow等开放源代码工具以及适用于Python的机器学习库Scikit-learn来聘请经过正式认证的数据科学家团队来构建自定义ML算法。

要成功完成这些项目,需要数据科学人才,业务直觉和对要解决的特定问题的深入了解的罕见组合。它还非常耗费人力,涉及需要高度技术技能的高度手动过程。数据科学家可以通过将数据手动导入到完全空白的Jupyter笔记本中,进行探索性数据分析,评估不同的算法和设计新功能来开始一个项目,然后通过手工仔细地调整模型来结束。

这些类型的复杂的定制项目通常可以提供比自动化工具更准确的结果。但是,考虑到所涉及的投资和风险水平以及与简单策略相比有时会获得的边际收益,毫不奇怪的是,这些项目通常是由拥有丰富历史数据存储库和大量资金来聘请熟练资源的大型企业实施的。

对于大多数组织而言,这种方法根本不经济,也不需要实现预期的业务成果。在数据科学人才,计算资源和工具方面的投资可能不值得。

相反,组织可以使用许多其他工具,其中最重要的是一组称为AutoML的机器学习自动化工具。

 

AutoML提供了灵活的,可定制的替代方案

对于缺乏资源来从头开始构建算法的组织,但比起现成的ML应用程序(如AWS Lex或Azure语言理解)所能提供的灵活性,AutoML是理想的解决方案。通过将传统机器学习工作流程的手动步骤压缩到可配置的堆栈中,AutoML使开发人员能够将数据科学元素整合到项目中,而无需进行学术性的数据科学培训。

建立自定义配置,优化输入并通常在AutoML沙箱中播放所需的全部软件工程技能集。AutoML在大型,相对通用的数据集(例如金融交易数据或来自网络媒体资源的点击流数据)中的效果特别好。

如今,许多具有学术证书的数据科学家都看不起使用AutoML构建的解决方案,因为它们通常提供的结果不如“本土”模型准确。但是,对于大多数业务任务而言,准确度略低仍然绰绰有余-AutoML的更高可访问性使其值得进行折衷。

 

数据科学的民主化

AutoML不仅仅是构建“足够好”的ML解决方案的有用工具:最终,这些类型的自动化工具将成为推动数据科学民主化的动力。

通过减少构建ML应用程序的准入门槛,AutoML工具包扩展了能够找到针对企业数据问题的创新解决方案的员工队伍。

该领域也不限于开发人员。

许多供应商还推出了足够易于非技术人员使用的AutoML产品,从而创建了“公民数据科学家”,他们有权解决他们在日常工作中遇到的数据问题。虽然它们不那么灵活,但是现成的ML应用程序还可以通过向资源较少,资源较少的组织的员工介绍基本的自动化和数据功能来帮助提高数据科学素养。未来几年,这两种技术都将促进数据素养在整个企业中的传播。

 

从数据科学家已死到数据科学家万岁

民主化的过程也将改变数据科学家的角色。尽管该角色将继续在数据成熟度各个层面上增加价值,但他们通常会处理的某些任务将实现自动化,这将促使数据科学家担当顾问的角色。数据科学家将花大量时间建议组织如何使用AutoML和其他自动化工具解决数据问题,而不是从头开始花费时间来建立模型。将来,对工具的熟悉将成为他们技能的一部分,这是当今开发人员应熟悉多种编程语言的方式。

到2030年,数据科学家的日常工作量将与今天的工作量截然不同-但这是一件好事。这将意味着可访问的工具已经变得如此强大,员工的数据素养如此之深,以至于大多数组织几乎不需要从头开始构建ML模型。

取而代之的是,数据科学家将把他们的技能和培训应用到高层次的战略任务中,从而获得更佳的业务成果,并使它们对于所服务的组织而言更加不可缺少。

 

猜你喜欢