数据工程中一些设计模式

在这篇博客中，将讨论在行业中看到的一些设计模式。

数据传输
1、零拷贝数据传输
系统级——零拷贝是指将数据直接从磁盘文件拷贝到网卡设备，无需应用程序。

在新方法中，避免了多次上下文切换。transferTo在 Java 中使用sendfile()Linux 系统。这种方法现在已被广泛用作 NGINX 和KAFKA中支持的数据传输技术。

2、元数据级别
这个零副本是指数据元数据的副本，而不是在需要克隆或替换的情况下的实际数据。这是基于存储和计算解耦的基础。计算是指通过元数据而不是直接通过数据进行存储。为微分区保留元数据，以便在更新场景中仅更新某些特定的元数据。

3、排队 n 路数据传输
多个应用程序使用相同的数据。不是源将数据发送到多个系统，而是源将数据发送到队列/主题，然后消费者单独消费数据。

数据建模
随着多样化数据源和多样化消费模式的增加，良好的数据建模策略对成功至关重要。
1、规范化

2、非规范化

3、数据保险库vault

4、宽表

5、自动化数据管道

数据仓库
1、星型模式的并行加载
在能够加载任何事实表之前顺序加载维度表是星型模式的瓶颈之一。

2、事实表子集
基于大型事实表的访问模式，我们可以创建第二个事实表，其中仅包含具有过滤数据的子集。我们可以在填充较大的事实表时在同一批次中填充较小的事实表。