机器学习2020年回顾 - Kristóf

20-12-29 banq

2020年,我们在机器学习领域取得了很大进步。让我们回顾一下机器学习和数据科学领域的2020年。

 

可解释Interpretable的机器学习/Explainable的AI

从开发方面来说,我们曾经称机器学习模型为黑匣子,甚至不想解释其工作机制。我们只是悠闲地等待着,企业将只是简单地信任我们并接受这些黑盒模型。这根本不是企业想要的。对于将要使用这些解决方案并必须解决他们所犯错误的人们来说,这还不够。人们不必承担模型的真实性后果。

如果预测没有任何根据,则用户必须盲目地信任模型。尽管如果人们理解了该模型为什么要说的话,那么可以增强对它的信任。这一领域今年引起了广泛关注,并且有望在2021年继续下去。之所以成为该领域最重要的领域之一,是因为:

  1. 大多数大公司仍在进行数字化转型。他们只是在探索最新的技术解决方案,以采用他们不理解并依赖的系统,而这是行不通的。理解ML模型进行预测时会发生什么,无疑将加速这些系统的普及。
  2. 不仅因为欧盟倾向于解释自动化决策过程的“解释权”条款,而且由于现在购买,某些行业(例如银行业和保险业)必须使用其所采用的模型可以解释的。
  3. 对模型的信任在医学和医疗保健领域更为重要,在这些领域中,这些系统可以对人类产生真正的影响。向人们提供不仅是结果的更多信息,还可以增加他们对预测的信任。

该列表可能包含更多示例,但是我想您知道该领域非常重要,如果我们想取得进展并在市场中传播所谓的“ AI驱动的解决方案”,我们将不再忽略它。

 

自动化机器学习

今年,AutoML备受关注,多家公司正在开发自己的解决方案。我个人对此有一些担忧,这并不是因为担心自动机器学习会取代我的工作。

AutoML是自动化建模过程并为我们生成新功能,执行数据预处理阶段,选择模型并调整其超参数的重要领域。

到目前为止,这还不错,但Auto ML是或应该代替数据科学团队的工具。使用AutoML工具,您可以节省时间并以数据科学家的身份自动化建模过程,并可以相对快地接收可以呈现的结果。但是,仅一步之遥,它绝对无法完成整个CRISP-DM过程。顺便说一句,这是最重要的一步,但没有上下文,我们将仅收到一个模型,而不是问题的解决方案。

我们应该承认两家大型云提供商(AWS,GCP和Azure)在其AutoML解决方案方面都取得了不错的进展。这项竞赛的领先者是H2O AutoML,它不仅提供最佳的准确性,而且由于其易于使用的功能而在AutoML用户中如此流行。我们还应该提到AutoKeras,它于今年初首次正式发布。它依赖于流行的深度学习库Keras和Tensorflow。准确性不是我们应该跟踪的唯一关键指标,可伸缩性,灵活性和透明度几乎一样重要。

 

全栈数据科学家

在Web开发领域,全栈开发人员已经存在了数年。这些特殊的物种在数据领域的发展只是时间问题。到目前为止,数据科学家已经知道使用什么以及如何使用,例如用于计算机视觉的CNN模型,用于表格数据的基于树的方法以及针对NLP问题建议使用的转换器。现在有这么多先进的模型,我们只需要知道如何使用它们即可。这意味着对于数据科学项目而言,数据预处理和建模不再是最困难的部分。

数据科学团队面临的主要挑战是在生产中部署和维护模型。因此,MLOps变得越来越重要,软件工程师和DevOps技能也受到了数据科学家的高度赞赏。创建一个仅在本地运行的良好模型已不足以构建一个端到端系统,其中包括对解决方案进行dockering处理并在本地或云中进行操作,这是数据科学家的更合理期望。

 

人工智能先驱:AlphaFold

AlphaFold可以准确预测蛋白质结构的3D模型,并具有加速生物学各个领域研究的潜力。AlphaFold可以根据其氨基酸序列准确预测蛋白质的形状。由20种不同类型的氨基酸组合而成的蛋白质超过2亿种。到目前为止,科学家只揭示了3D蛋白模型的片段。在蛋白质折叠的全球距离测试中,AlphaFold的匹配率超过90%,这意味着他们解决了蛋白质折叠的问题。这项巨大的成就并不能直接对我们的生活产生如此巨大的影响,但可以加速许多领域的研究进展

 

GPT-3

最新一代的OpenAI语言预测模型。GPT-3生成的文本的质量是如此完美,以至于几乎不可能将它们与人类手写的文本区分开。GPT-3可以创建具有语言结构的任何内容,这意味着它可以回答问题,撰写论文,总结长篇文章,翻译语言,记录备忘,甚至创建计算机代码。GPT-3及其祖先是经过预先训练的模型,因此用户可以将文本作为输入提供给模型,并为其生成输出。为了能够在如此高的水平上执行,OpenAI必须花费约460万美元来训练模型。结果令人着迷,但功能如此强大,以至于普通人尚未打开它,因此要访问它,您应该从OpenAI请求它并加入其等待列表。一旦发布,Microsoft将在Azure上对其进行操作。

 

总结

从很多方面来看,2020年是有趣的一年,我认为2021年将为我们带来几个新的令人兴奋的话题。对可解释的AI的需求将更加迫切,全栈数据科学家的兴起将变得越来越重要,并且对MLOps的关注将比以往任何时候都要多。我对GPT-3 API非常好奇,迫不及待想要使用它。我还认为,要感觉到AlphaFold取得的巨大成就的实际结果距离我们还有几年的时间。因此,这是我每年对机器学习和数据科学领域中最有趣的话题的回顾

1
猜你喜欢