danthelion/trino-minio-iceberg-example:使用Minio、Trino、iceberg搭建数据工程演示案例


这个项目演示了使用Minio、Trino(具有众多连接器)等工具通过 Docker 在我们的机器上部署 MVP 版本来运行一些分析查询.

数据湖
“Data Lakehouse”一词是由 Databricks 创造的,他们将其定义为:
简而言之,Data Lakehouse 是一种架构,可以直接对存储在 Data Lakes 中的大量数据启用高效且安全的人工智能 (AI) 和商业智能 (BI)。

基本上,如果您在对象存储(例如 s3)中有大量文件,并且您想对它们运行复杂的分析查询,Lakehouse 可以帮助您实现这一目标,使您能够运行 SQL 查询而无需将数据移动到任何地方,例如数据仓库。

Lakehouse 的核心存储组件是数据湖:
数据湖是一种低成本、开放、持久的存储系统,适用于任何数据类型——表格数据、文本、图像、音频、视频、JSON 和 CSV。每个主要的云提供商都利用和推广云中的数据湖,例如 AWS S3、Azure 数据湖存储 (ADLS) 和谷歌云存储 (GCS)。