数据科学领域2020年的一些趋势 - ODSC


由于新冠病毒已在2020年使整个世界进入范式转变,因此各个行业的趋势可能已发生变化,以适应这些瞬息万变的时代。在数据科学和AI中,许多从业者和研究人员不得不转移他们的工作重点,以满足公司,学术机构或个人研究工作的需求。如今,这一年已经过去了一半,到目前为止,2020年有什么突出的表现?领先的数据科学家在工作中看到了什么?
 
模型偏差仍然是一个问题
ML社区开始意识到数据驱动模型中存在的普遍的、不希望有的偏见。无论是与机器视觉、自然语言处理还是其他应用程序有关,设计这些应用程序基础的模型的研究人员和开发人员都不是更广泛的人口统计学的用户代表样本。他们倾向于使用的数据集也不是更广泛的人口统计学的代表性样本。结果是,当今的许多生产ML模型对于某些人口群体而言效果不佳,并且在令人震惊的情况下,可以加剧针对这些群体的不必要的历史偏见。
 
面部识别软件的普及与关注
面部识别技术长期以来一直在数据科学界及其他领域引发争论。多年来,公司和个人一直在努力寻找该技术的道德用途并最大程度地减少偏差。
 
对AutoML和其他自动化工具的热爱
数据和算法正在迅速扩展,但人类能力,甚至包括数据科学家和其他定量专业人员的能力都没有跟上这种扩展速度。出于这个原因,越来越多的企业正在使用一种新型的工具来使与机器学习有关的许多活动自动化,从而满足对分析功能不断增长的需求。自动化机器学习或AutoML是旨在解决这些功能短缺的技术解决方案。
 
MLOps成为数据科学团队的必备工具
MLOps是数据科学家与运营或生产团队之间的沟通。它本质上是深度协作,旨在消除浪费,尽可能地实现自动化,并通过机器学习产生更丰富,更一致的见解。ML可以改变企业的游戏规则,但是如果没有某种形式的系统化,它就可以演变成一项科学实验。
正如Journera的数据科学技术主管Stephanie Kirmer所说:“为ML Ops开发子学科是我今年听到的很多重要话题。管理用于机器学习的基础架构很困难,而且看起来很快将成为一个专业领域。”
 
复杂的模型需要改进的工作流程-输入Apache Airflow
Apache Airflow是社区创建的工具,用于以编程方式编写,安排和监视工作流。Airflow的最大优势在于它不会限制管道的范围。Airflow可用于构建机器学习模型、传输数据或管理基础架构。
第一次有史以来的Airflow峰会最近结束,有6,000名参与者参加了该活动,这表明有多少人对此工具感兴趣。我个人认为Apache Superset(又一个Apache项目)也变得越来越流行。它为昂贵的BI工具提供了开源替代方案,并且该项目背后的社区已经非常活跃,这预示着美好的未来!
 
透明度是关键数据
在美国公司中,越来越多地利用分析和机器学习来产生影响,需要对结果的解释超过纯粹的预测能力。这导致学习“数据故事”的重要性越来越高,因为数字和预测不再只是说说而已。发展这项技能将成为数据科学和ML的下一个发展。
 
联合学习将有更多炒作
联合机器学习(FML)是另一个“孤立的”概念(十年前以前称为“分布式数据挖掘”),该概念今年在建模需求,算法和应用程序中崭露头角。在某种程度上,这种流行病是造成这种情况的原因,因为FML通过实质上删除数据共享来实现数据隐私,这是跨多个数据集,多个组织和多个应用程序进行模型构建的要求。
ML模型训练是在本地数据集上本地完成的,然后与中央模型推断引擎(看不到任何私有数据)共享本地模型的元参数。然后,中央ML引擎构建一个全局模型,该全局模型被传递回本地节点。在局部节点和中央推理机之间可能会发生参数更新和超参数调整的多次迭代,直到获得令人满意的模型精度为止。在所有这些培训阶段中,都保留了数据隐私,同时允许生成全局有用,可分发且准确的模型。
 
NLP
三个字母:NLP。近年来,无论是在研究还是在实际使用方面,自然语言处理(NLP)都经历了持续的快速增长。在2020年,我们已经看到了GPT-3和其他BERT变体的发布。但是NLP的使用也已成为主流。现在,许多公司将NLP视为其战略优势的重要组成部分-请注意,当前有多少工作岗位提到NLP是必不可少的技能!