Anovos解决了机器学习中数据的漂移和稳定性 – thenewstack


mobilewalla已经发布了一个新的Opensource项目:Anovos,它可以用来创建功能设计一个高效的数据管道,从摄入到功能创建和存储。
Mobilewalla,我们有一个专门的数据科学家团队,负责处理世界上最大的数据集之一。我们还与全球一些使用我们解决方案的最先进的数据科学团队合作。我们亲眼目睹了漂移和稳定性带来的模型挑战,并构建了我们自己的解决方案来解决这些挑战。
Anovos是我们构建的一个开源项目,通过引入数据稳定性的概念作为优先事项,解决了预测建模工作流特征工程组件中的一些核心低效率问题。它专为扩展而构建,使用户能够使用 TB 级数据(而不是 GB 级数据)进行功能设计,并以数据漂移和稳定性为核心构建。
机器学习从业者越来越倾向于操作性能良好、可预测的生产模型,而不是那些在测试时表现出高性能但在部署时不能完全兑现承诺的模型。
在生产模型的行为与训练和测试时不同的许多原因中,最重要和最常观察到的原因之一是锚定它们的数据属性的变化。用于创建用于训练模型的特征的原始数据与在部署中为模型提供动力的数据不同——这种现象称为数据漂移。当真实世界的环境以意外和计划外的方式贡献数据时,就会发生数据漂移,这可以说是非弹性模型的主要原因。