ShifuML/shifu: Hadoop上的机器学习和数据挖掘框架


来自Paypal的Shifu是一个建立在 Hadoop 之上的开源、端到端的机器学习和数据挖掘框架。Shifu 专为数据科学家设计,简化了构建机器学习模型的生命周期。虽然最初是为欺诈建模而构建的,但 Shifu 已推广到许多其他建模领域。
Shifu 的优点之一是机器学习中的端到端建模管道。只需配置设置,就可以构建整机流水线,并且可以更轻松地开发模型并将其推向生产。
Shifu 基于 Hadoop 的快速分布式神经网络/逻辑回归/梯度增强树训练可以将 TB 数据集上的模型训练时间从几天缩短到几小时。Shifu 与 Hadoop 上的 Pig 工作流集成,Shifu 训练的模型可以通过简单的 Java API 集成到生产代码中。Shifu 利用 Pig、Akka、Encog 和其他开源项目。
Guagua是一个基于 Hadoop YARN 的内存迭代计算框架,作为 Shifu 的子项目开发,以加速训练进度。


Shifu 为模型构建过程的每个步骤提供了一个简单的命令行界面,包括