中台数据工程教程

使用Debezium、Kafka、Materialize和Apache Pinot构建微服务CQRS物化视图

微服务架构促进了去中心化的数据管理实践，其中每个服务都将其数据保密并仅通过定义良好的 API 接口将其公开。尽管这是为了更大的利益，但开发人员发现实现跨越多个服务边界的查询具有挑战性。一个微服务经常联系几个依赖服务来完成一个读取请求。例如， ShippingService 查询 Custo

danthelion/trino-minio-iceberg-example：使用Minio、Trino、iceberg搭建数据工程演示案例

这个项目演示了使用Minio、Trino（具有众多连接器）等工具通过 Docker 在我们的机器上部署 MVP 版本来运行一些分析查询. 数据湖“Data Lakehouse”一词是由 Databricks

2022年数据工程现状

数据工程的所有最新工具和趋势：数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是

你应该使用 Apache Airflow 吗？

数据管道是任何公司数据基础架构中的关键组件。许多公司用来管理其数据提取和转换的一种框架是 Airflow。无论是 100% 使用 Airflow 及其各种运算符，还是使用 Airflow 编排其他组件，例如 Airbyte 和

Apache Airflow的10条最佳实践

最初，Airflow 有点像“超级 cron”，因此运行作业的方式与框架本身高度耦合。今天，您必须克服的最大挑战是消除调度和作业之间的耦合。 1）Airflow是一个编排框架，而不是一个执行框架：对于您的工

DBT、Airflow 和 Kubernetes的架构演进 - yan

如果您在 Kubernetes 集群上部署 Airflow，并且正在寻找将 DBT 集成到 Airflow 中的方法，那么本文可能会给您一些启发。需要对 Airflow、DBT（数据构建工具）和 Kubernetes 有一些基本的了解。

使用Debezium、Kafka和Apache Pinot实现基于CDC的数据插入修改Upsert

如何构建流数据管道以捕获 MySQL 数据库更改并通过 Debezium 和 Kafka 将它们流式传输到 Apache Pinot？

SPL：专门处理开放格式文件 (txt/csv/json/xml/xls)的Java库

在 Java 应用程序中处理 txt、csv、json、xml 和 xls 等开放格式的数据文件是很常见的。Java 中的硬编码非常复杂，因此我们经常求助于某些现成的开源包。但每个包都有其弱点。解析库这种

大数据编排引擎历史回顾 - Ananth

我在 Hadoop/Bigdata 的早期阶段开始研究数据管道，当时大数据是一个流行词。Apache Oozie （有人还记得 Oozie 吗？）是一种用于编排数据管道的

什么是幂等数据管道？ - Alaro

牛津词典中定义的幂等“是集合中的一个元素，当它自身相乘或以其他方式运算时，其值不变。” 1.什么是幂等数据管道运行从源获取数据并将其多次加载到关系数据库中的管道可能会导致数据库中存在重复值，从而导致错误的指

探索Kafka消费者的内部结构

Adobe使用Kafka处理数据的流量规模：310B msg/day，300 TB/day IN和920 TB/day OUT，今天我们将分享我们在 Kafka Client

亚马逊 Redshift 死了吗？

AWS Redshift 是最早的云数据仓库之一，可以说是 Hadoop 之后的一代。Amazon Redshift 是云中完全托管的 PB 级数据仓库服务。该服务适用于小至几百 GB 的数据量，并且可以扩展到高达 PB 或更多的数据量，使您能够处理数据以识别您的业务或客户的新见解

Jellysmack如何将数据科学作业编排推向生产就绪水平？

自从数据科学进入 IT 游戏并开始构建大量模型和项目以来，对工作编排的需求已经上升。由于 Jellysmack 的业务主要集中在帮助视频创作者在观众和质量方面增长，我们的许多团队都依赖从 YouTube（或其他社交平台，如 Facebook、Snapchat 等）提取的数据。这正是定义工作的

GoCardless提升数据质量与实施数据合约的7个关键经验

GoCardless 的 ETL 方法侧重于将数据视为 API，避开已经开始巩固的行业标准 ELT 现代数据仓库方法。上游数据质量挑战在上游遛弯时发现，工程师在修改服务时没有意识到像删除字段这样简单的事情

SQL备忘录

一张图详列SQL常规操作：

Criteo在大规模数据工程优化上经验 - Nam

如何将 230 PB 的原始数据转化为可行的解决方案？在我们快节奏的数字时代，每天通过 Internet 传输数十万 TB 的数据，访问正确的信息是保持相关性的关键。从原始、无组织的数据中提取相关信息的能力仍然是业务决策的关键要素。

Qovery/Replibyte：将真实生产数据放入你的开发数据库

Replibyte 是一种速度极快的工具，可以在您的数据库中植入生产数据，同时保证敏感数据的安全。特点：支持 PostgreSQL、MySQL 和 MongoDB 的数据转储和恢复用虚假数据替换敏感数据适用于

DataBathing：将查询传输到 Spark 代码的框架

DataBathing可以将 SQL 解析为 JSON，以便我们可以将其转换为其他数据存储！沃尔玛团队已经成功地从 Hive SQL 驱动转变为数据工程的代码驱动。我们每天都在使用 Spark（Scala 或 Python），我们的计算性能显着提