Python中PyCaret简介

 PyCaret,一个新的 Python 机器学习库。 PyCaret 被誉为数据科学家的低代码资源,旨在缩短机器学习实验的“从假设到见解的周期时间”。它使数据科学家能够快速有效地完成实验。只需几行代码,您就可以在 PyCaret 库的帮助下执行复杂的机器学习任务。

数据科学家 Moez Ali 创建了 PyCaret,该项目于 2019 年夏天启动。公民数据科学家的新兴角色激发了他对以下领域的兴趣:他们是专业数据科学家的补充,并将他们的专业知识和独特技能应用于分析驱动的任务该项目。然而,PyCaret 非常适合常驻信息研究人员,因为它简单、方便且低代码环境;熟练的数据研究人员同样可以将其作为人工智能工作流程的一个功能,以帮助快速高效地构建快速模型。 Ali 告诉我 PyCaret 与 R 中的插入符包没有直接联系;然而,它是通过插入符制作者 Max Kuhn 博士在 R 中的工作实现动画的。插入符这个名称是“Characterization and Relapse Preparing”的缩写。

“与其他开源 AI 库相比,PyCaret 是另一个低代码库,可用于用很少的单词替换多行代码,”PyCaret 制造商 Moez Ali 说。 “结果,实验变得更快、更有效。

2020 年 4 月,PyCaret 1.0.0 的初始版本发布,2020 年 8 月 28 日,最新版本 2.1 发布。
PyCaret 是一个功能强大的 Python 库,可以简化机器学习从头到尾的工作流程。它对于信息研究人员、调查人员和人工智能专业人士来说尤其有价值,他们需要高效地组装、查看和发送人工智能模型,而无需陷入复杂的每个步骤编码。

无需深入了解代码细节,以下是 PyCaret 的概述:

  • AutoML(自动化机器学习): AutoML(即机器学习)是 PyCaret 构建的基础。数据预处理、特征选择、模型训练、超参数调整和模型评估都是 AutoML 工具旨在实现自动化的机器学习过程的所有部分。
  • 友好的用户界面: PyCaret 的界面易于使用和理解,适用于各种机器学习任务。它采用最常见的方式来堆叠和规划信息、设想信息循环以及执行基本的信息预处理步骤,例如处理缺失的质量和对直接因素进行编码。
  • 模型准备和确定: PyCaret 的基本亮点之一是它能够轻松准备和思考不同的 AI 模型。它允许用户从多种计算中进行选择,例如复发、顺序、聚集和奇怪位置,并且它自然地将这些计算应用于数据。然后 PyCaret 使用各种性能指标对模型进行排名和比较。
  • 超参数调优: PyCaret 通过自动超参数调优来优化所选的机器学习模型。这种交互包括追踪模型超参数的最佳组合以用于模型执行。
  • 模型的可解释性: PyCaret 通过提供模型解释工具,让人们更容易理解机器学习模型如何进行预测。为了帮助用户深入了解其模型,它会生成特征重要性图、SHAP(沙普利加法解释)值和其他可解释性指标。
  • 模型安排:当区分出可口的模型时,PyCaret 会考虑简单的模型组织。客户可以在真实的应用程序中发送他们的模型,例如 Web 应用程序、API 或集群处理管道。
  • 适应性和可重复性: PyCaret 专为处理大数据集而构建,并且可以扩展以处理更大的数据问题。它还通过跟踪所有预处理步骤、模型配置和结果,使复制和共享实验变得更加容易。
  • 来自社区的广泛文档和支持:为了帮助用户理解和解决问题,PyCaret 提供了广泛的文档、教程和社区论坛。该团队充满活力,经常为新人提供帮助和指导。
  • 与其他库的协调:为了使用机器学习管道的功能,PyCaret 可以与著名的 Python 库集成,例如 sci-kit-learn、XGBoost、LightGBM 等。
  • 数据可视化: PyCaret的用户可以借助各种数据可视化工具深入了解他们的数据。它提供智能图表来想象重点传输、连接和模型执行测量。对于数据探索和模型选择,这些可视化是非常宝贵的。
  • 数据预处理: PyCaret 致力于数据预处理任务,例如处理缺失的质量、编码直接因素和缩放亮点。用户可以更加专注于模型构建过程,因为它自动执行了这些步骤。
  • 集成方法: PyCaret秉承集成策略,整合各种AI模型来进行总体执行。客户可以轻松制作包装、支撑和堆叠等团队模型,以提高预测准确性。
  • 时间序列分析: PyCaret 中添加了时间序列分析,使其适合基于时间数据的预测和预测建模任务。它包含时间序列交叉批准和程序化松弛确定等亮点。
  • 自然语言处理 (NLP): PyCaret 扩展了其合并 NLP 作业的能力。客户端可以针对情感调查、消息整理等应用进行消息预处理、亮点设计、构建消息分组模型。

为什么使用 PyCaret?
PyCaret 是一个有用的库,可以帮助初创企业节省雇用数据科学家团队的费用,并使公民数据科学家更轻松地完成机器学习任务。假设是,使用 PyCaret 的信息研究人员较少,可以与使用传统工具的较大群体相媲美。此外,该图书馆还为常驻信息研究人员提供了帮助,并为需要开始研究信息科学的新手提供了帮助;然而,他们在这一领域的早期信息很少。

PyCaret 是一个涵盖一些 AI 库和系统的 Python,包括 scikit-learn、XGBoost、Microsoft LightGBM、spaCy 等。
PyCaret 的目标群体是:

  • 拥有丰富经验、希望提高工作效率的数据科学家
  • 可以从低代码人工智能安排中受益的常驻信息研究人员
  • 数据科学专业的学生(我打算将 PyCaret 纳入我即将推出的“数据科学概论”课程中)
  • 信息科学专家和参与构建 MVP 任务演绎的专家。

使用 PyCaret
让我们快速了解一下 PyCaret 的一些重要功能:

  • Compare_models 函数使用交叉验证来评估性能指标,并使用默认超参数训练模型库中的所有模型。用于分类精度、召回率、准确度、AUC、F1、Kappa 和 MCC 回归指标的指标有 R2、RMSLE、MAPE、MSE、RMSE 和 MAE。
  • create_model 函数使用交叉验证来评估性能指标并使用默认超参数训练模型。
  • une_model 函数使用估计器调整模型的超参数。它采用随机网格搜索,并具有预先定义的完全可定制的调整网格。
  • 收到经过训练的模型对象后,ensemble_model 函数返回一个包含常见评估指标的 k 倍交叉验证分数的表。
  • Predict_model 是一个预测和推理工具。
  • plot_model - 用于评估准备好的 AI 模型的呈现。
  • 实用功能 - 在处理 AI 时有价值的实用功能探索有关 PyCaret 的不同途径。
  • 实验日志记录:当您运行机器学习代码时,PyCaret 会嵌入 MLflow 跟踪组件作为后端 API 和 UI,用于记录参数、代码版本、指标和输出文件以供以后分析。

使用 PyCaret 让一切顺利进行
PyCaret 附带一系列精心设计的教学练习(每个练习都有自己的 GitHub 存储库),这些练习涵盖了信息研究人员需要改进的许多重要领域。这些教程涵盖 NLP、聚类、异常检测、分类、回归和关联规则挖掘。此外,还提供了多个视频教程,使熟悉这些强大的工具变得相当简单。

总而言之,PyCaret 对于需要平滑从信息规划到显示组织的 AI 周期的信息研究人员和 AI 专家来说是一个重要的设备。它提供了一种高效且易于使用的方法,用于探索不同人工智能模型和策略的不同途径,而无需进行广泛的编码,这对于该领域的两位新手和经验丰富的专家来说是一个明智的决定。