中台数据工程教程 - 第13页

在 Back Market 的数据工程实习期间，我专注于为我们的内部数据消费者设计和集成数据沿袭平台。本文收集了我学到的关于如何快速识别不同类型的数据沿袭（数据世系data lineage）的关键经验。下面的文章将重点介绍实现。可以将数据沿袭/数

Apache Airflow 给我留下了深刻的印象。引擎快如闪电，编写管道真的很容易。另一个很棒的功能是它与源代码控制同步。这样，我就知道在环境中执行了哪些内容。一个好的提示：拥有从主分支读取的暂存环境和从发布分支读取的生产环境很有用。

SQL的基础是在关系型数据库的黎明时期奠定的。那时，还没有数据仓库，没有商业智能工具，当然也没有分析工程师这样的东西。然而，SQL仍然是大多数数据专业人员与他们的原始材料进行交互的主要用户界面。底层技术已经有了不可估量的改进，但除了对ANSI标准的少量更新外，语言的核心仍然没有改变。在无数数

在 Claimforce，我们最初的大数据方法是一个两层架构，包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段（

DataFrame 是一种数据结构，可将数据组织成由行和列组成的二维表，类似于电子表格。DataFrames 是现代数据分析中最常用的数据结构之一，因为它们是一种灵活且直观的存储和处理数据的方式。 Rust 有惊人

与Apache Hive相比，新一代数据湖表格式（Apach

长期以来，在有状态流处理器和流数据库之间进行选择一直是一个有争议的问题。一个流处理应用程序是一个DAG（直接无环图），其中每个节点是一个处理步骤。你通过编写单独的处理函数来编写DAG，这些函数在数据流经过它们时执行操作。这些函数可以是无状态的操作，如转换或过滤，也可以是有状态

Apache Iceberg 是一种开源数据湖库表格式，已席卷大数据分析世界。在本文中，您将找到一个 101 视频课程，以及您在概念和实践方面快速了解 Apache Iceberg 所需的所有资源的集合。以下是继续了解更多关于 Apac

如果您从事数据工作，那么您很有可能多次遇到这个问题：数据是错误的，您不知道为什么。数据上游似乎有问题，但是您的内部同事都不知道为什么，我们该怎么办？我们应该联系谁？由于数据不是一等公民，数据团队大多开始对现有基础设施进行分析，以服务于其他初始目标

在 Shopify，我们接受了全栈数据科学的理念，并且经常被问到“成为全栈数据科学家意味着什么？”。该术语最近在数据行业中出现了激增，但似乎没有就定义达成共识。因此，我们与几位 Shopify 数据科学家聊天，分享我们的定义和经验。

在过去的几周里，数据合约一直是一个热门话题： Chad 发表了数据合约的工程指南， Jake 发表了

最近，我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看，他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多架构选项。我们对数据处理的主要要求包括： 1）平台必须具有高度的变化灵活性，支持不同类型的结构化和非结构化

Timestone：Netflix 的高吞吐量、低延迟优先队列系统，内置支持不可并行化的工作负载。 Timestone 是我们内部构建的高吞吐量、低延迟优先级排队系统，用于支持我们的媒体编码平台

delicate 一个轻量的分布式的任务调度平台通过rust编写. :特性友好的用户界面： [前端]方便地管理任务和执行器，监控其状态，支持手动维护运行中的任务等。灵活的操作：灵活的任务操作，支持限制单个节点的最大并行数，与cron表达式相对应的时区设置

下面是我在尼尔森工作时的实现，这在 Airflow 中使用 Soda 来实施数据质量检查的

商业智能平台的使命是启迪......商业决策，这一点并不令人意外。有两种方法可以做到这一点。提供一个出色的技术平台，允许数据团队向运营团队自我提供高质量的数据。组织运营团队与数据团队完全解放。也就是说，确保业务团队（=不是数据团队的团队）可以100%地自己产生基于

使用 Spring、Pub/Sub、Dataflow、Redis、Reentrant Lock 模式和 guava 缓存构建实时视图计数服务以处理 20k tps 规模。

数据网格是一种思维方式的改变，一种从一个团队拥有多个可交付成果到多个数据团队各自拥有一个可交付成果的视角转变。数据网格是数据民主化和实现每个组织的梦想的关键--真正的数据驱动。在BlaBlaCar，Data Mesh与我们的挑战产生了共鸣：经历了