当前机器学习失败危机呼唤MLOps - gradientflow


根据2020 年 Gartner 人工智能炒作周期,机器学习 (ML) 正在进入幻灭低谷阶段,不过这才是AI真正工作开始的阶段:正在开发最佳实践、基础设施和工具,以促进技术集成到现实世界的生产环境中。如今,机器学习技术已在许多公司中发挥核心作用。
但是如今遭遇机器学习模型在生产中降级的危机,模型在部署的那一刻开始降级。对于建立在时变数据上的模型尤其如此,但它也适用于建立在所谓的静态数据上的模型,如自然图像,因为部署的模型用于新的和看不见的数据。
模型与现实世界互动但无法理解现实世界可能会产生严重后果,以下失败示例:

  • 医疗保健:John Snow Labs 的工程师发现,经过培训、优化和部署在医院的预测性再入院模型将在两到三个月内开始急剧下降,并且预测效果不佳。公司及其客户面临的问题与部署该模型的医院数量成正比。

  • 安全是一个对手和威胁不断变化的领域。为了保持足够的领先地位以防止攻击,公司和研究人员需要持续监控和重新训练他们的 ML 模型。

  • Watson 肿瘤学:该系统旨在为癌症患者推荐治疗方法。它被撤出市场,因为该模型退化到暗示不安全治疗的程度。

 
模型退化是如何发生的?
在部署模型并与用户交互之前,您永远不会真正知道模型的工作情况。正如我们所指出的,真实世界的用户交互和实时数据通常与历史或训练数据不同。例如,当模型由于难以理解尚未遇到的现实世界数据而无法泛化时,就会发生退化。有许多催化剂会导致模型退化。
 
模型监控难点
监控技术性能并不是什么新鲜事。例如,应用程序性能管理 (APM)有着悠久的历史——软件应用程序的监控和管理。虽然机器学习团队可以从软件监控中收集到很多经验教训和方法,但机器学习监控面临着独特的挑战,需要专门的工具和技术。
  • 在训练机器学习模型时,获取或建立真实情况本质上是困难的。训练通常需要标记数据,这会受到“测量误差”、主观性(“专家意见”)甚至偏见的影响。缺乏真实性使得衡量模型质量变得困难——即使在 ML 模型的上下文中定义“准确性”也可能是一个挑战。随着监管机构和立法者越来越多地要求组织不断审查AI 和 ML 模型,即使在最初批准部署之后,公司也必须建立适当的结构来准确、负责任地衡量其 ML 模型的质量。这份跟踪 AI 事件的动态文档由BNH.ai 的联合创始人 Patrick, Hall 积极维护,不仅突出了模型失败事件的数量不断增加,而且随着机器学习变得越来越普遍,事件类型的广度也越来越大跨行业的技术。
  • ML 监控没有一刀切的解决方案。组织需要跟踪的质量指标对于每个模型类型和领域都是独一无二的。
  • 复杂性:机器学习方法涉及多个复杂的分布式系统。错综复杂的模型沿袭和复杂的数据管道使根本原因分析变得极其困难。因此,模型监控工具应与监控数据和数据质量的系统集成或包括在内。组织结构也会增加复杂性——通常,公司使用不同的团队来训练、测试、部署和管理/监控他们的模型。
  • 扩展性:与大多数技术一样,在实施机器学习方法时,扩展是一个重要的考虑因素。监控工具需要扩展到大型数据集、大量统计数据以及实时和批量推理。然而,到目前为止我们提到的每个挑战都适用,即使您只有少数模型。在大型科技平台不断测试和部署高度定制化和个性化模型的情况下,一些公司部署了数千个模型,甚至可能部署了数百万个模型。

 
MLOps理想功能
任何“运维”相关功能通常涉及的三个方面:监控、自动化和事件响应。这些组件促进了强大的模型监控过程。
  • 建立及时警报以快速了解模型何时出现故障或降级。
  • 确定故障或降级的根本原因。
  • 启用敏捷响应。快速恢复或快速更新关闭循环以最小化平均恢复时间 (MTTR)。

这里是为开发或实施机器学习技术的公司提供了三条简洁的建议:
  1. 防御性操作;假设您的模型将失败并放入预警系统以检测故障。
  2. 有一个B计划;如果你的模型失败了,你会怎么做?重新训练、退回到旧模型、提供无操作预测?
  3. 投资于强大的 ML 基础架构和流程,以便您可以立即响应事件。