下一代五个一体化数据平台比较

22-10-24 banq

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了它们的优缺点。

现代数据堆栈在 2020 年和 2021 年风靡一时,但在 2021 年后期和 2022 年的大多数人开始提问。
现代数据堆栈甚至是现代的吗?
它不只是 SAP 或 Informatica 等我们熟知的解决方案中的零碎组件吗?
它不只是 Airflow 的非捆绑版本吗?
是的。
但拼凑一个“现代数据堆栈”远非唯一的选择。“一体化数据堆栈”开始重新流行起来。我已经与客户以及 VC 讨论了其中一些工具,他们一直关注最近被这些新的一体化数据解决方案收购的客户。

一体化
一体化数据解决方案并不新鲜。事实上,这就是我们中的许多人可能在数据世界中咬牙切齿的地方。也许您曾与 SAP、Oracle、Microsoft 或 Informatica 合作过一个项目,而您的公司慢慢开始从他们的产品中购买越来越多的模块。

许多以前的选项被证明非常昂贵,而且通常不是云原生的。这意味着大多数规模较小或中等市场的公司甚至可能无法考虑与上述公司的销售代表交谈。

这是“现代数据堆栈”的好处之一:
从理论上讲,它为较小的公司提供了只为他们在消费和数据基础设施规模方面所需的费用付费的能力。这意味着他们不需要签 5 年 7 位数的合同来测试他们可能有的一些想法。

下面是过去 5 到 10 年开发的几种一体化解决方案比较:

Rivery 

  • Rivery 专注于管理可能存在且确实存在的每一种类型的管道。这包括 ETL/ELT、CDC 和反向 ETL
  • Rivery 通过提供创建不同环境(例如生产和开发)的能力,在支持工程最佳实践方面做得很好

Rivery最初是作为数据管道解决方案引起我的注意的。标准 ETL/ELT 工作流程。
此后,它已扩展到还提供预构建的数据工具包、Python 转换、CDC 和反向 ETL。

Rivery可能是此列表中引用的所有产品中最受关注的,因为它没有扩展到提供其他功能,例如数据目录。他们将工程时间集中在开发面向广泛受众的集成解决方案上。
它们使客户能够创建多种环境,例如测试和生产环境,以鼓励更好的数据实践,并使最终用户能够将代码集成到他们的低代码解决方案中。
一些快速的想法

  • Rivery 确实提供了编写自定义 Python 作业的能力,这可用于运行数据科学作业。随着您的团队不断壮大,我认为这是一个足够好的权宜之计。随着您的模型重要性或复杂性的增长,最终研究一个更加充实的 MLOps 平台将是一个好主意。
  • Rivery 明确专注于成为贵公司的数据处理器。不仅在传统的 ETL 方面,而且在他们将您的数据重新集成到您的操作系统中时。逆向 ETL。


Mozart 

  • Mozart 的重点是采用他们认为最好的解决方案,并成为所有这些解决方案的编排平面(Fivetran、Snowflake、DBT 和原生转换)
  • Mozart 还提供了一个查询功能,允许您从他们的应用程序运行分析

将“现代数据堆栈”放在一起可能是一项昂贵的工作。在需要筛选无数的单点解决方案选项和运行 POC 以证明哪些选项满足您团队的需求之间。可能浪费了数百个小时,您的团队也无法知道您的公司有多少活跃客户。
但是,如果您有一项服务可以开箱即用地管理您的数据堆栈呢?您将FivetrandbtSnowflake等解决方案巧妙地组合在一起。
那是莫扎特数据。他们采用了他们认为最好的数据解决方案,并创建了一个可以管理所有数据流程的位置。他们甚至使用Portable添加了更多连接器。反过来,提供的连接器甚至比 Fivetran 都多。还为更大的解决方案提供了基础,该解决方案可以通过插入他们认为下一个同类最佳解决方案来继续整合新功能。
此外,我也很欣赏他们的警报功能。它不会取代Monte CarloBigEye,它们是成熟的数据可观察性选项。但是,对于许多团队来说,它将提供编写和跟踪数据质量的能力。
快速思考
  • 作为一名数据工程师,我从来没有真正享受过解决方案(莫扎特数据)中的查询界面。但是,我认为作为分析师,能够直接在您所说的解决方案中查询您的数据是件好事。


Nexla 

  • Nexla 可用于从标准 ETL 到为您的数据产品创建 API 端点的广泛用例。
  • Nexla 非常关注 Nexset 的概念,它充当封装数据及其元数据并且易于共享的逻辑实体。

我最近开始看到“ DataOps ”这个词再次出现,这让我浏览了我的电子邮件。我收到的第一封带有“DataOps”一词的电子邮件是在 2017 年,来自 Nexla。

Nexla从一开始就一直专注于创建一个多合一的数据平台。它们是一个数据中心,您不仅可以在其中摄取数据,还可以通过数据仓库以外的方式轻松访问数据。
是的,它们提供了完整的数据连接器列表,允许您开发数据管道并跟踪数据质量,但最重要的是,它们可以轻松创建 API 端点以更好地集成和访问您的数据。

Nexsets促进了这方面的大部分工作,它作为一个封装的数据集,跟踪所述实体上的所有内容,包括有效性、访问和错误。然后可以将其传递给不同的用例。
一些快速的想法

  • Nexla 最近与 JP Morgan 和 Doordash 签约。这可能并没有特别说明产品,但它说明了向更大组织销售的能力
  • Nexla 提供数据屏蔽等功能,我认为随着个人越来越关注他们的数据隐私,这些功能很重要


Keboola 

  • Keboola 帮助您的团队通过一个应用程序管理您的数据管道、访问管理、表格和数据使用
  • Keboola 提供与其他应用程序的广泛集成,可以轻松地在 Azure ML 等工具中启动机器学习 (ML) 作业或刷新仪表板

来自捷克共和国的Keboola在没有任何资金的情况下成功构建了一体化数据解决方案。害怕。我知道。
他们完全倾向于选择六点解决方案的反主流文化。有网站说:
“Keboola 无需单独选择、获取、配置和集成无穷无尽的技术列表来构建您的数据堆栈,而是让您在一个平台上实现目标。停止使用您的数据基础架构,并开始使用它。”
他们的方法允许您创建他们所谓的流,这些流是可以将数据发送到您的数据仓库的数据管道。
我喜欢 Keboola 流程的其中一项功能是它们的外部应用程序集成。
首先,能够启动 PowerBI 刷新或在数据管道中部署机器学习模型非常棒。其次,这是与其他供应商建立可能的合作伙伴关系的明智方式。
它还为最终用户提供了使用各种语言编写转换的能力,包括 Python、SQL、R、Spark、Julia 等。类似于我们将要研究的下一家公司。
一些快速的想法
  • 在我尝试或看到的所有工作流构建器中,Keboola 感觉是最精致的。
  • 我相信 Keboola 的 MLFlows 功能显示出很大的潜力。该功能本身仍处于公开测试阶段,但它确实为最终用户提供了将机器学习轻松集成到其工作流程中的能力。


Incorta 

  • Incorta 提供近乎完整的端到端数据解决方案,包括数据摄取、存储、可视化和 ML 集成
  • Incorta 针对大型企业和中端市场

我注意到的一个主题是,这些综合解决方案中的大多数是它们专注于摄取、转换以及偶尔的数据目录和质量检查。这些工具很少会提供数据存储层。更不用说数据可视化了。
然而,这就是Incorta的核心所在。它们提供了所谓的“智能数据湖”以及可视化层。与此列表中的大多数其他解决方案不同,您无需查看 Snowflake 或 BigQuery,因为 Incorta 将您的所有数据存储在 parquet 文件中,并且他们认为直接数据映射可让您的分析师和数据科学家访问您的数据。
这是他们一长串数据连接器以及运行 Spark 作业和其他转换的能力之上的。同时提供数据沿袭和编目等功能。上图是 Incorta 数据平台及其众多功能的概要。
虽然很快
  • Incorta 有很多特性和功能,对于小公司来说可能太重了。