机器学习2020年回顾 - Kristóf

2020年，我们在机器学习领域取得了很大进步。让我们回顾一下机器学习和数据科学领域的2020年。

可解释Interpretable的机器学习/Explainable的AI
从开发方面来说，我们曾经称机器学习模型为黑匣子，甚至不想解释其工作机制。我们只是悠闲地等待着，企业将只是简单地信任我们并接受这些黑盒模型。这根本不是企业想要的。对于将要使用这些解决方案并必须解决他们所犯错误的人们来说，这还不够。人们不必承担模型的真实性后果。
如果预测没有任何根据，则用户必须盲目地信任模型。尽管如果人们理解了该模型为什么要说的话，那么可以增强对它的信任。这一领域今年引起了广泛关注，并且有望在2021年继续下去。之所以成为该领域最重要的领域之一，是因为：

大多数大公司仍在进行数字化转型。他们只是在探索最新的技术解决方案，以采用他们不理解并依赖的系统，而这是行不通的。理解ML模型进行预测时会发生什么，无疑将加速这些系统的普及。
不仅因为欧盟倾向于解释自动化决策过程的“解释权”条款，而且由于现在购买，某些行业（例如银行业和保险业）必须使用其所采用的模型可以解释的。
对模型的信任在医学和医疗保健领域更为重要，在这些领域中，这些系统可以对人类产生真正的影响。向人们提供不仅是结果的更多信息，还可以增加他们对预测的信任。

该列表可能包含更多示例，但是我想您知道该领域非常重要，如果我们想取得进展并在市场中传播所谓的“ AI驱动的解决方案”，我们将不再忽略它。

自动化机器学习
今年，AutoML备受关注，多家公司正在开发自己的解决方案。我个人对此有一些担忧，这并不是因为担心自动机器学习会取代我的工作。
AutoML是自动化建模过程并为我们生成新功能，执行数据预处理阶段，选择模型并调整其超参数的重要领域。
到目前为止，这还不错，但Auto ML是或应该代替数据科学团队的工具。使用AutoML工具，您可以节省时间并以数据科学家的身份自动化建模过程，并可以相对快地接收可以呈现的结果。但是，仅一步之遥，它绝对无法完成整个CRISP-DM过程。顺便说一句，这是最重要的一步，但没有上下文，我们将仅收到一个模型，而不是问题的解决方案。
我们应该承认两家大型云提供商（AWS，GCP和Azure）在其AutoML解决方案方面都取得了不错的进展。这项竞赛的领先者是H2O AutoML，它不仅提供最佳的准确性，而且由于其易于使用的功能而在AutoML用户中如此流行。我们还应该提到AutoKeras，它于今年初首次正式发布。它依赖于流行的深度学习库Keras和Tensorflow。准确性不是我们应该跟踪的唯一关键指标，可伸缩性，灵活性和透明度几乎一样重要。

全栈数据科学家
在Web开发领域，全栈开发人员已经存在了数年。这些特殊的物种在数据领域的发展只是时间问题。到目前为止，数据科学家已经知道使用什么以及如何使用，例如用于计算机视觉的CNN模型，用于表格数据的基于树的方法以及针对NLP问题建议使用的转换器。现在有这么多先进的模型，我们只需要知道如何使用它们即可。这意味着对于数据科学项目而言，数据预处理和建模不再是最困难的部分。
数据科学团队面临的主要挑战是在生产中部署和维护模型。因此，MLOps变得越来越重要，软件工程师和DevOps技能也受到了数据科学家的高度赞赏。创建一个仅在本地运行的良好模型已不足以构建一个端到端系统，其中包括对解决方案进行dockering处理并在本地或云中进行操作，这是数据科学家的更合理期望。

人工智能先驱：AlphaFold
AlphaFold可以准确预测蛋白质结构的3D模型，并具有加速生物学各个领域研究的潜力。AlphaFold可以根据其氨基酸序列准确预测蛋白质的形状。由20种不同类型的氨基酸组合而成的蛋白质超过2亿种。到目前为止，科学家只揭示了3D蛋白模型的片段。在蛋白质折叠的全球距离测试中，AlphaFold的匹配率超过90％，这意味着他们解决了蛋白质折叠的问题。这项巨大的成就并不能直接对我们的生活产生如此巨大的影响，但可以加速许多领域的研究进展

GPT-3
最新一代的OpenAI语言预测模型。GPT-3生成的文本的质量是如此完美，以至于几乎不可能将它们与人类手写的文本区分开。GPT-3可以创建具有语言结构的任何内容，这意味着它可以回答问题，撰写论文，总结长篇文章，翻译语言，记录备忘，甚至创建计算机代码。GPT-3及其祖先是经过预先训练的模型，因此用户可以将文本作为输入提供给模型，并为其生成输出。为了能够在如此高的水平上执行，OpenAI必须花费约460万美元来训练模型。结果令人着迷，但功能如此强大，以至于普通人尚未打开它，因此要访问它，您应该从OpenAI请求它并加入其等待列表。一旦发布，Microsoft将在Azure上对其进行操作。

总结
从很多方面来看，2020年是有趣的一年，我认为2021年将为我们带来几个新的令人兴奋的话题。对可解释的AI的需求将更加迫切，全栈数据科学家的兴起将变得越来越重要，并且对MLOps的关注将比以往任何时候都要多。我对GPT-3 API非常好奇，迫不及待想要使用它。我还认为，要感觉到AlphaFold取得的巨大成就的实际结果距离我们还有几年的时间。因此，这是我每年对机器学习和数据科学领域中最有趣的话题的回顾