中台数据工程教程
Auto Trader如何构建实时的客户数据搜索平台?
Auto Trader的CDP是一个专门构建的实时数据库,它从我们的行为数据平台Snowplow获取跟踪事件:每次客户与 Auto Trader 网站或我们的本机应用程序交互时,例如查看汽车广告、访问.
Java流比pyspark性能提高了几十倍 - Reddit
我试图在一些大 CSV 文件的每一行上运行一些自定义逻辑,大约 10 GB数据。尝试过 python 数据帧、python 中的多处理、pyspark。他们都没有在可接受的时间内完成。然后我发现了ja.
信息检索的几种方法
信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将获得一个排名匹配的资源列表作为搜索结果。我们.
数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比
在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕!GitHub 上提供测试代码。我不会深入探讨这些工具中的每一个,除了一些Rust.
为什么每个人都想杀死 Airflow?
Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。Apache Airflow 从根本上没有错,它是一流的数据工.
构建微服务分布式作业调度器 - Mesut
如何构建连接数据目录? - Tony
如何将组织中的所有数据连接在一起,同时将数据还能留在原处?什么是数据目录?Gartner 将数据目录定义为“通过发现、描述和组织数据集 [构建] 的数据资产清单。目录提供上下文,使数据分析师、数据科学.
数据工具本身不是问题,问题在于流程和人员 - angadsg
在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由BI工具解决的,不如说是由人和流程解决的。Cr.
CDC:一种将交易数据复制到数据湖的有效方法
对用于将事务数据库的近实时副本创建到分析数据库中的新高效机制的需求正在增长。主要原因是 传统事务数据库副本不适用于分析工作负载 (OLAP)。 它们无法针对长时间运行的分析 (OLAP) 查询进行扩展.
2023年数据工程预测
需求是发明之母,我预测2023年将是技术的辉煌一年,这些技术可以帮助团队保存数据运维方面的时间、收入和资源,使工程师可以专注于构建、扩展和总体上做到事半功倍。以下是我对明年一些最重要趋势的预测(没有特.
Druid:实时分析数据存储
Apache Druid是一个开源数据库,专为低延迟的近实时和历史数据分析而设计,Druid 被Netflix、Confluent和Lyft等公司用于各种不同的用例。这个领域有Clickhouse、t.
什么是反向ETL?
了解有关反向 ETL 的所有信息、它如何适应现代数据堆栈以及它与 ETL 的不同之处。在过去的六年里,数据生态系统发生了巨大的变化,我们目睹了几种不同技术的兴衰。然而,有一个不变的东西保持不变:云数据.
基于CDC实现源数据库和派生数据库之间的强数据一致性
在源数据库和派生数据库之间保持强数据一致性对于基于CDC的流数据管道至关重要。目标数据库必须反映对源数据库所做的最新更改,因为数据更改速度很快。像Apache Pinot这样的实时OLAP数据库利用其.
Janus:Myntra 的数据处理框架
用 Snowflake Snowpipe 替换 Apache Druid
在过去十年中,实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据,以便他们能够做出最新的明智决策。GumGum使用实时数据 (1) 在为我们的活动提供服务时做出快速决策,.