Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
事件溯源
Kafka消息
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
人工智能
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
更多话题
ploomber:建立ML数据管道的最有效率方式
22-03-25
banq
Jupyter等开发工具在数据科学家中很流行,因为它们提供了一个环境以可视化和交互方式探索数据。但是,在部署项目时,我们必须确保分析能够在 Airflow 或 Argo 等生产环境中可靠运行;这导致数据科学家在他们的notebooks和这些生产工具之间来回移动代码。
此外,数据科学家必须花时间学习不熟悉的框架和编写管道代码,这严重延迟了部署过程。
Ploomber 通过提供以下解决方案来解决这个问题:
使用静态分析自动推断任务执行顺序的工作流编排器。
引导项目的合理布局。
与 Jupyter 集成的开发环境。
无需更改代码即可导出到生产系统(Kubernetes、Airflow 和 AWS Batch)的能力。
Ploomber是构建数据管道的最快方法。使用您最喜欢的编辑器(Jupyter、VSCode、PyCharm)进行交互式开发和部署,无需更改代码。你在用传统notebooks吗?ploomber只需一个命令就可以将它们重构为在Kubernetes、Airflow、AWS Batch中运行模块化管道。
特点:
一个简单的 YAML API 可以快速上手,一个强大的 Python API 可以提供完全的灵活性。
自动缓存管道以前的结果,并且仅重新计算自上次执行以来已更改的任务。
在单台机器上作为 shell 脚本运行,或者在Kubernetes、Airflow、AWS Batch或SLURM中分布式运行。
从旧版notebooks自动迁移,会自动将它们转换为可维护的模块化管道。
使用 Ploomber 可在 30 分钟内开发和部署机器学习管道
机器学习
数据工程