ploomber:建立ML数据管道的最有效率方式

22-03-25 banq

Jupyter等开发工具在数据科学家中很流行,因为它们提供了一个环境以可视化和交互方式探索数据。但是,在部署项目时,我们必须确保分析能够在 Airflow 或 Argo 等生产环境中可靠运行;这导致数据科学家在他们的notebooks和这些生产工具之间来回移动代码。
此外,数据科学家必须花时间学习不熟悉的框架和编写管道代码,这严重延迟了部署过程。
Ploomber 通过提供以下解决方案来解决这个问题:
  • 使用静态分析自动推断任务执行顺序的工作流编排器。
  • 引导项目的合理布局。
  • 与 Jupyter 集成的开发环境。
  • 无需更改代码即可导出到生产系统(Kubernetes、Airflow 和 AWS Batch)的能力。


Ploomber是构建数据管道的最快方法。使用您最喜欢的编辑器(Jupyter、VSCode、PyCharm)进行交互式开发和部署,无需更改代码。你在用传统notebooks吗?ploomber只需一个命令就可以将它们重构为在Kubernetes、Airflow、AWS Batch中运行模块化管道。
特点:
  • 一个简单的 YAML API 可以快速上手,一个强大的 Python API 可以提供完全的灵活性。
  • 自动缓存管道以前的结果,并且仅重新计算自上次执行以来已更改的任务。
  • 在单台机器上作为 shell 脚本运行,或者在Kubernetes、Airflow、AWS Batch或SLURM中分布式运行。
  • 从旧版notebooks自动迁移,会自动将它们转换为可维护的模块化管道。
  • 使用 Ploomber 可在 30 分钟内开发和部署机器学习管道