2021 年最佳数据科学工具和软件 - datamation


数据科学改变了我们的世界。从大量结构化和非结构化数据中提取洞察力的能力已经彻底改变了许多领域——从营销和医学到农业和天文学。数据科学借鉴数学、统计学、计算机科学、信息科学等领域,利用数学公式和算法将海量的原始数据转化为有用的信息。 
企业内部,它越来越多地与机器学习 (ML) 和其他人工智能 (AI) 工具结合使用,以提高洞察力并提高效率。例如,它可以帮助进行预测分析、使物联网 (IoT) 数据可操作、开发和建模新产品、发现制造过程中的问题或异常以及以更深入和更广泛的方式了解供应链。
当今的数据科学软件平台越来越多地设计用于业务分析师和其他公民数据科学家。然而,他们以截然不同的方式处理任务——并使用不同的方法来聚合数据、处理数据并生成可操作的报告、图形或模拟。 
一些软件应用程序专注于构建复杂的模型并需要高级编码功能。这些平台可能还需要专门的硬件或其他系统。其他人使用 R 或 Python 来执行模型代码——但不支持可扩展平台灵活性的其他编程语言。还有一些仅提供拖放功能。可以简单地通过在计算机屏幕上操作对象来构建模型,这就是极限。 
因此,彻底了解组织的需求、哪种类型的数据科学方法和方法最适合您的要求以及哪些供应商最适合您的行业和业务模型非常重要。这包括该软件是否会被业务分析师、数据科学家或两者同时使用,以及每个供应商必须提供的定价、产品路线图以及服务和支持。 

Alteryx
这个广泛使用的平台在单一的低代码/无代码环境中结合了强大的分析、数据科学和流程自动化。它结合了机器学习和其他人工智能方法,通过可视化仪表板、文件和应用程序提供地理空间分析、规范分析和众多其他结果。 
优点

  • 为商业领袖提供强大但易于使用的功能。
  • 与来自 Microsoft、AWS、Snowflake、Tableau 和 Salesforce 的 80 多个数据源和输出集成。
  • 提供 300 多个无代码构建块,可促进数据模型和自动化。
  • 高度评价的客户支持。
  • 庞大而强大的用户社区。

缺点
  • 低代码环境意味着它可能无法针对复杂的数据科学项目进行定制。
  • 昂贵的。
  • 一些用户抱怨工作流程的复杂性。
  • 该平台不完全支持移动使用,包括 Android 和 iOS。 
  • 桌面版本对系统提出了很高的要求。

 
Dataiku DSS
该解决方案为数据科学和机器学习提供了一个平台。它特别适合由数据科学家和业务用户组成的多学科团队。Dataiku 有云/SaaS、Windows 和 Mac 桌面版本。它结合了强大的数据可视化、深度学习、机器学习、算法库、自然语言处理和预测建模/分析功能。  
优点
  • 强大的无代码工具非常适合非数据科学家。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“领导者”。
  • 用户对界面和协作功能的评价很高。
  • 对超出模型准确性的业务指标的广泛而创新的支持。

缺点
  • 过度依赖扩展和插件会增加开销和复杂性。
  • 没有完整企业功能的版本定价高且功能有限。
  • 对移动设备的支持有限。
  • 一些用户抱怨它很难配置。

 
H2O.Ai
该供应商提供了一个端到端的数据科学平台,旨在实现人工智能的民主化。H20 AI 混合云支持适用于各种行业和用例的“可解释”模型。开源预测分析平台专为数据科学家和公民数据科学家而设计。 
优点
  • 直观的界面。 
  • 强大的预测分析能力和强大的数据可视化功能。
  • 强大的自动化。包括 200 多个数据连接器和 180 个开源 Python 脚本。
  • 通过 Kubernetes 部署的开放平台,可以在任何地方使用模型,包括虚拟机、Snowflake 和 IoT 设备。
  • 在 Gartner 2021 年数据科学和机器学习平台魔力象限中被评为“有远见者”。

缺点
  • 数据访问和数据准备功能不如某些竞争对手强大。
  • 一些用户抱怨缺乏文档和支持资源。
  • 从头开始构建模型很困难。
  • 调整机器学习算法可能具有挑战性。

 
IBM Watson Studio
IBM 的重点是通过以 AI 为中心的方法构建、管理和部署数据模型。基于云的平台专为数据科学家、开发人员和分析师而设计。它基于 PyTorch、TensorFlow 和 scikit-learn 等开源技术构建,并连接到 IBM 的众多基于代码的可视化数据科学工具。
优点
  • 适合广泛的用户使用,从数据科学家到业务分析师。
  • 灵活的模块化设计。
  • 强大的数据探索和可视化功能。
  • 专注于负责任的人工智能。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“领导者”。

缺点
  • 一些用户抱怨该程序有时加载缓慢。
  • 用户界面和导航可能会令人困惑,尤其是对于非技术人员而言。
  • 昂贵的。
  • 关于文件和支持材料不足的投诉。

 
KNIME 分析平台
大数据和预测分析是供应商数据科学平台的核心。基于云的解决方案专为创作数据科学机器学习工作流和项目而设计。开源平台包括 4,000 多个节点,用于连接各种类型的数据源,并将它们转换为可操作的模型。
优点
  • 支持广泛的 DSML 任务并构建强大的工作流。 
  • 直观的界面。
  • 强大的数据连接和摄取功能,包括对大多数主要文件类型和数据源的支持。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“有远见者”。

缺点
  • 数据可视化功能不像许多竞争对手那样强大和发达。
  • 用户报告有时学习曲线很陡峭。
  • 对企业部署的有限客户支持。
  • 一些用户抱怨缺乏灵活性。

 
MathWorks MATLAB
这个来自 MathWorks 的数据科学平台旨在大规模开发、集成和部署高级 AI 和 ML 模型。它用作算法开发和数据分析的编程环境。它包括强大的数据可视化、建模和模拟功能,以及用于构建应用程序和其他资源的工具。 
优点
  • 强大的深度学习、机器学习和预测性维护能力——包括机器人和信号处理等领域。
  • 高度灵活的框架,支持从数据到云和边缘的分布式环境。
  • 可验证且可靠的机器学习,供需要超安全部署的组织使用。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“领导者”。

缺点
  • 对于大多数公民数据科学家来说太复杂了。最适合工程师和专门的数据科学家。 
  • 没有云或 SaaS 版本。仅适用于 Windows、Mac 和 Linux 的桌面版本。
  • 供应商不提供免费试用和高级咨询或集成服务。
  • 可以在大型数据集上缓慢执行。 

 
微软的 Azure 机器学习
端到端数据科学和分析平台为开发、训练和部署数据模型提供了一个低代码和无代码框架。它适用于经典模型以及机器学习和深度学习。它与许多其他 Azure 云组件和服务以及外部数据源集成。 
优点
  • 为数据科学提供广泛而强大的功能、工具和组件组合。
  • 适合数据科学家和商业用户使用。 
  • 为专家数据科学家提供灵活的笔记本和 SDK 选项。
  • 提供具有强大合作伙伴网络的开放框架,包括连接到 Azure 的其他分析提供商。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“有远见者”。

缺点
  • 需要对 Azure 及其相关的模块和服务生态系统有深入的了解。
  • 对于需要混合和多云数据科学环境的组织来说可能难以使用。
  • 用户对易用性的评价低于其他数据科学解决方案。
  • 对第三方工具和编程的支持有限。
  • 大型数据集有时运行缓慢。

 
RapidMiner Studio
该供应商的平台在可视化工作流设计框架内为数据科学家和业务用户提供了广泛而丰富的工具。它包括 1,500 多种本机算法、数据准备和数据科学功能,并支持第三方库。RapidMiner Studio 还包括对笔记本和 Python 和 R 等编程语言的强大支持。  
优点
  • 通过点击式界面连接几乎任何数据源。
  • 适应自动数据库内处理以检索数据,而无需编写复杂的 SQL。
  • 强大的数据可视化和探索能力。
  • 协作功能扩展到多个角色和角色。
  • 强大的安全功能,包括单点登录。
  • 在 Forrester Wave:2020 年多模态预测分析和机器学习解决方案中被评为“领导者”。

缺点
  • 模型发布灵活性在用户中获得相对较低的评分。
  • 一些用户抱怨难以使用且不灵活的界面。
  • 免费版提供有限的特性和功能。其他版本价格不菲。
  • 用户抱怨过时的视觉输出,包括图表、图形、动画和视频。

 
SAS 可视化分析
该供应商是数据科学领域的长期领导者,提供了一个重点关注分析可视化、复合 AI、MLOps 和决策智能的企业平台。它几乎支持所有主要数据源和类型,具有带模板的可自定义仪表板,并包括具有多种预构建可视化格式的强大发布功能。 
优点
  • 特别擅长预测分析、模式识别和机器学习。
  • SAS 已与 Microsoft 建立合作伙伴关系,以支持与 Azure 和 Machine-Learning Studio 的紧密集成。
  • 专用的 iOS 和 Android 应用程序以及用于移动网络访问的响应式设计。 
  • 出色的可扩展性,支持大量用户。
  • 在 Gartner 的 2021 年数据科学和机器学习平台魔力象限中被评为“领导者”。

缺点
  • 安装和配置可能很困难。
  • 在易用性方面落后于其他解决方案。
  • 有限的开源支持。
  • 一些用户抱怨用户界面有些单调和过时,并且该平台难以学习。
  • 昂贵的。

 
Tibco Spotfire
数据可视化平台通过 NLQ 驱动的搜索、人工智能驱动的推荐和直接操作产生洞察力。它包括沉浸式仪表板和对预测分析、地理定位分析和流分析的高级分析支持。基于云的平台专为专门的数据科学家和其他用户而设计。
优点
  • 包括到主要数据源的 60 多个本机连接器,以及通过丰富 API 的自定义连接。
  • 提供 AI 驱动的推荐和自然语言搜索,为非技术用户简化工作。
  • 在多个角色和用户组之间实现强大的协作。
  • 专用的 iOS 和 Android 应用程序,以及针对移动浏览器的响应式设计。

缺点
  • 公民数据科学家的功能和支持落后于其他供应商。
  • 一些用户抱怨该平台需要一个更加用户友好的界面。
  • 有限的自定义和脚本功能会使更高级的建模和数据可视化变得困难。
  • 一些用户抱怨数据加载和系统性能可能很慢。