当完成了机器学习模型的构建并且部署了。不幸的是,工作并没有完成。可以说,您只走了一半,机器学习模型的性能会随着时间的推移而降低。
机器学习模型的快速入门:
x->y:
- x:输入数据
- y:输出预测
- ->:模型在X和y之间学习的关系。
数据漂移
当我们部署模型时,如果输入X的数据发生变化会发生什么?这称为“数据漂移”。当我们提供给模型的数据与我们用来训练模型的数据不同时,就会发生这种情况。
数据漂移的一个示例:10年前构建的面部识别系统开始看到使用分辨率更高的相机拍摄的照片时,虽然我们的面孔仍然相同,但是数据不同。这种逐渐的变化会扼杀系统的结果。
概念漂移
回到我们的模型x->y,如果X和y之间的关系发生变化会发生什么?这称为“概念漂移”。当模型学习的模式不再有效时,就会发生这种情况。
概念漂移的一个例子:当Covid将我们所有人变成沙发上的土豆时,Netflix用来预测观众收看电视节目的模型就变得毫无用处,数据没有改变。模型学到的模式却变化了。
随着时间的推移,这也可能会缓慢发生,例如使用模型预测突然开始面临竞争的某些产品的购买模式。或随着时间的流逝改变其含义的词语,或者我们对错误和错误的定义和容忍度。
出路
总之,数据和概念的漂移对我们模型的质量构成了重大威胁。
数据漂移和概念漂移可能会逐渐发生,也可能会在一夜之间发生:
- •人脸识别示例:逐渐漂移。
- •Netflix示例:突然漂移。
解决方法:
- •监控模型
- •定期更新模型
每一个机器学习模型都需要持续的监控。这是与更新模型以保持适当性能的过程一起进行的必要步骤。更新可能简单到使用新数据重新训练模型的新版本,也可能复杂到解决问题的全新实现。