AutoML如何让业务分析师BA掌握AI的力量?

18-12-05 banq
                   

将人工智能和机器学习融入业务应用程序并非易事。特别是,当涉及到处理关键任务型的企业应用时,将ML与现有应用程序集成成为一项具有挑战性的工作。

从组织决定将机器学习纳入完全训练模型的实际部署开始,有多个阶段涉及不同的团队和具有不同技能的个人。它必须通过下图中描述的工作流程。

机器学习管道

1. 数据采集​​涉及从各种数据源(如RDBMS,NoSQL数据库,数据仓库,第三方源等)中识别和提取数据。企业依靠高级ETL(提取,转换,加载)工具来聚合来自异构数据源的数据。

2. 数据探索将提供对采集数据集的深入了解,并帮助数据工程团队评估数据质量。此阶段将帮助团队在聚合数据集中查找隐藏模式,相关性,缺失数据点。

3. 数据准备阶段涉及清理数据集。缺少数据点可能会被丢弃,现有列可能会被拆分,多列可能会合并,最后,数据集将变为有价值的输入源。

4. 特征工程是数据科学家从数据集中识别相关(标签)和独立变量(特征)的关键步骤。会执行编码,缩放和规范化等技术,以使数据保持一致和同质。特征工程对ML项目的成功至关重要。

5. 下一阶段,即模型选择,就是从众多可用的统计模型中选择正确的算法。可能存在多个算法(有时甚至是十几个)来解决相同的问题。经验丰富的数据科学家将应用直觉与对业务问题的深入理解相结合,以精选一组算法。

6. 在训练阶段,完全准备好的特征工程数据集用于训练和测试模型的准确性。输入数据被分成训练和测试数据集,这有助于评估模型的准确性和精确度。

7. 超参数调整涉及调整训练作业的各种参数以演化准确的模型。对于用于训练的所有入围算法都进行了这种优化。此阶段是工作流程中所有步骤中最复杂的。

上面三个阶段 - 模型选择,模型训练和超参数调整 - 被多次迭代,直到结果令人满意。对于选择用于训练的每个模型,迭代地应用超参数调整。

最后,选择并部署最佳模型用于实时预测。开发人员可以像任何其他API一样调用REST端点来生成预测。

使用AutoML

AutoML尝试通过自动执行大多数步骤来加速培养训练模型的过程。期望用户上传数据集并等待预测变得可用。从特征工程到超参数调整,AutML可自动执行管道中最复杂的步骤。

AutoML创建了一类新的“公民数据科学家”,将高级ML的力量直接交给商业用户。这并不意味着使用AutoML平台的组织不需要数据科学家。他们在提供经验和领域知识方面仍然可以发挥作用。但是,AutoML使数据科学家的工作效率更高,因为模型构建过程中的重复步骤是自动化的,允许他们使用他们独特的专业知识来优化模型。

在处理AutoML平台时,业务分析师会专注于业务问题,而不是迷失在流程和工作流程中。大多数平台会提示用户上传数据集,然后标记类别。之后,在幕后处理准备数据,选择正确的算法,优化和超参数调整所涉及的大多数步骤。一段时间后,平台公开了一个可用于预测的REST端点。这种方法显着改变了培训机器学习模型所涉及的传统工作流程。

AutoML入门

AutoML是AI和ML领域不断发展的趋势。IBM,Google和Microsoft等公共云提供商通过提供自定义认知平台开创了AutoML革命。DataRobot等企业级企业正在为企业带来AutoML的强大功能。包括Scikit-learn和Keras在内的主流框架正在采用AutoML来简化工作流程。

AutoML完全适用于认知API和自定义ML平台之间。它提供了正确的自定义级别,而无需强迫开发人员完成精心设计的工作流程。与通常被视为黑盒子的认知API不同,AutoML具有相同程度的灵活性,但自定义数据与可移植性相结合。

某些AutoML平台(如Microsoft Azure)还支持导出与运行Android和iOS的移动设备兼容的完全训练的模型。开发人员可以快速将模型与移动应用程序集成,而无需学习机器学习的细节。

微软最近宣布可以在容器中运行认知服务。当AutoML模型导出到Docker容器中时,DevOps团队将能够大规模部署它们,以便在生产环境中进行推理。他们可以将容器托管在由Kubernetes和DC / OS管理的可扩展集群中。

随着每个平台供应商都试图使机器学习民主化,AutoML正在发展成为人工智能的未来。它将AI的力量交给了业务分析师和技术决策者。