什么是反向ETL?


了解有关反向 ETL 的所有信息、它如何适应现代数据堆栈以及它与 ETL 的不同之处。

在过去的六年里,数据生态系统发生了巨大的变化,我们目睹了几种不同技术的兴衰。然而,有一个不变的东西保持不变:云数据仓库。

由于像Snowflake和谷歌BigQuery这样的平台,将你的所有数据整合到一个集中的平台来解决你的分析用例是前所未有的简单。问题是你的数据仓库只有那些知道如何编写SQL的技术用户才能访问,所以你为消除数据孤岛而购买的平台不可避免地成为了数据孤岛。这正是反向ETL如此重要的原因。

什么是逆向ETL?
当数据团队说ETL时,他们通常指的是将数据从数据源复制到数据仓库
反向ETL则正好相反。

反向ETL是将数据从中央数据仓库复制到运营工具的过程,包括但不限于用于增长、营销、销售和支持的SaaS工具。

在这一点上,你可能在想:

"我已经花了这么多钱和时间把我的数据放入仓库,作为我的单一真相来源,而现在你告诉我,我需要把我的数据从仓库里拿出来?"

你可能有几个核心指标是你的业务所特有的,你的数据团队已经通过你仓库中的数据模型定义了这些指标。如果你是一个B2B企业,这可能包括像工作空间、流失率、线索得分、年度经常性收入等指标。如果你是一个B2C企业,这可能包括像日活跃用户、客户获取成本、终身价值等指标。
反向ETL是指将仓库中的数据同步到下游的业务工具。

ETL和逆向ETL之间有什么区别?
传统的ETL过程自20世纪70年代以来一直存在,数据管道基本上没有改变。对于那些不熟悉的人来说,ETL是指提取、转换。它是一个自动提取、转换和加载数据到你想要的目的地(例如,数据仓库或数据湖)的过程。

传统的ETL是一个单向的门,你不能使用ETL管道从你的仓库中读出和写入数据。反向ETL,顾名思义,实际上是 "反向 "的,意味着你必须写反向SQL。

使用反向ETL,你要同步数据行,这意味着你必须扩散你的数据,并将当前仓库查询的值与你之前同步的数据进行比较;否则,你最终会花费大量的钱,浪费大量的时间。由于你要向下游工具发送数据,并与第三方API集成,你还必须关注速率限制和同步失败的问题。

从表面上看,反向ETL只是对你的数据仓库进行查询。然而,大多数人不知道逆向ETL需要你写逆向SQL,所以将数据从仓库移出并回到你的操作系统和SaaS工具中可能是非常具有挑战性的。

反向 ETL 与点对点解决方案
点对点工具或iPaaS(集成平台即服务)Zapier、Tray 和 Workato 等技术可能是处理反向 ETL 用例的一个有吸引力的选择,因为它们允许您无需代码即可将数据从一个平台发送到另一个平台,但它们创建了一个复杂的管道网络'可扩展。如果您只有四个应用程序,您很快就会发现自己有 16 个潜在管道管道(例如,4x4 = 16)。

所有 iPaaS 工具的工作方式相似;他们根据您定义的触发器执行操作。您必须为数据堆栈中的每个集成构建自定义工作流,当您编织各种依赖项和 if/then 子句时,这将成为一场噩梦。

反向 ETL 创建了一种中心辐射型方法,其中仓库是您的中心数据源,完全消除了传统点对点解决方案附带的复杂的管道和工作流网络。

反向 ETL 与 CDP
您可能熟悉客户数据平台(CDP.) Segment 等平台通过创建一个单一平台在营销界声名鹊起,您可以在该平台上存储所有客户数据并在各种业务团队和操作系统中激活这些数据。

这些平台的主要优点是它们提供内置的数据摄取、身份解析、受众管理和数据共享。不过,CDP 有几个缺陷:

  • 首先,您不拥有数据。CDP 迫使您将数据存储在云基础架构之外,这可能会对 GDPR、CCPA 或 HIPAA 产生重大影响。CDP 不会取代您的数据仓库。它只是根据您的数据仓库创建第二个事实来源。
  • 其次,CDP 非常昂贵。在大多数情况下,定价基于您的客户记录总数,这意味着您根据数量付费。即使您的所有客户数据都已经存在于您的仓库中,您也不可避免地要为额外的存储层付费。
  • CDP 非常严格。您经常会发现自己删除了整个实例,以便重新配置设置或重新加载数据。最重要的是,大多数 CDP 强制您使用仅代表用户和帐户的专有数据模型。大多数公司都有独特的对象,如工作区、订阅、播放列表、每日活跃用户等。
  • CDP 的转换能力也有限,因此如果您需要清理超出其能力范围的数据集,您通常不得不提交支持请求。借助反向 ETL,您可以利用所有现有的转换功能和现有的数据模型。
  • 实施 CDP 可能需要六个月以上的时间,更不用说培训不同团队如何使用 CDP 所花费的时间了。CDP 的核心是刚性黑盒,不易配置

反向 ETL 用例
尽管了解为什么需要反向 ETL 相对容易,但要了解其中的含义并不总是那么简单,因为反向 ETL 的用例数量几乎是无限的。

1、营销团队
弄清楚如何提高与广告平台的匹配率、优化广告支出回报率 (ROAS) 并降低客户获取成本 (CAC) 非常重要。借助反向 ETL,您可以将仓库中构建的自定义受众同步到任何营销渠道以改善个性化(例如,定位在过去 7 天内放弃购物车的客户。)

2、销售团队
您的销售团队想要并需要访问您仓库中的独特行为和产品使用数据(例如,工作区、订阅、购物车中的项目、页面视图、上次登录日期等)。使用反向 ETL,您可以将这些数据直接发送到您的 CRM,以便您的销售团队可以实时采取行动来增加您的底线。

3、产品团队
改进产品和推动采用的关键是试验和优化。但是,要为您的客户打造个性化体验,您的产品团队需要能够回答以下问题:

  • 谁是我们最活跃的用户?
  • 我们最受欢迎的功能/产品是什么?
  • 我们怎样才能提高转化率?
  • 顾客什么时候放弃他们的购物车?
  • 用户在入职流程中在哪里下车?

借助反向 ETL,您可以将有关客户的关键属性直接同步到您的生产数据库,以推动现场个性化。

4、支持团队
优先处理正确的工单并减少客户流失应该是每个客户成功团队的最终目标。假设您已经在数据仓库中定义了生命周期价值、年度经常性收入或客户流失率等关键指标。在这种情况下,您可以使用反向 ETL 将此数据直接同步到您的客户支持工具,以便您的成功团队可以优先考虑影响最大的工单。

5、数据团队
您的工程团队不想整天构建和维护自定义管道。他们宁愿构建自定义数据模型并优化您当前的技术堆栈。借助反向 ETL,您的数据团队可以让您的业务团队实现自助服务并专注于业务成果。