Apache Iceberg 是一种开源数据湖库表格式,已席卷大数据分析世界。
在本文中,您将找到一个 101 视频课程,以及您在概念和实践方面快速了解 Apache Iceberg 所需的所有资源的集合。
以下是继续了解更多关于 Apache Iceberg 的其他资源列表,包括动手练习和来自公司的文章,详细介绍了他们对 Apache Iceberg 的使用等等。
Apache Iceberg 核心概念
以下是一些资源,可用于了解 Apache Iceberg 是什么以及它在高级概念层面的基本工作原理。
- [博客] Apache Iceberg:幕后的建筑外观
- [网络研讨会] Apache Iceberg:幕后的建筑外观
- [博客] 写查询的生命周期
- [博客] 如何将 Hive 表迁移到 Iceberg 表
Apache Iceberg功能
以下是了解更多关于 Apache Iceberg 的许多特性的资源。
- [博客] Apache Iceberg 的隐藏分区为您带来更少的意外全表扫描
- [博客] 分区演进
- [博客] Apache Iceberg 中的表演变
- [博客] Apache Iceberg 的 5 大功能
- [文档] 表进化
- [文档] 快速扫描规划
- [文档] 可靠性/正确性
动手 Apache Iceberg 练习
下面的资源将指导您完成指导练习和教程,以使用不同的工具尝试 Apache Iceberg。
- [博客] Apache Iceberg 实践介绍 – 数据湖屋工程
- [博客] 亲身体验 Apache Iceberg 表的结构
- [博客] 将 Hive 表迁移到 Apache Iceberg 的动手练习
- [博客] Docker、Spark 和 Iceberg:尝试 Iceberg 的最快方式!
- [博客] 在 EMR 中使用 Spark 和 Apache Iceberg
- [博客] 通过 Apache Zeppelin 深入了解 Apache Iceberg
- [博客] 使用 Kafka Connect 实时摄取 Iceberg — Apache Iceberg Sink
- [博客] 使用 AWS Glue 和 Dremio 开始使用 Apache Iceberg
- [视频实时摄取历史特色商店,包含冰山、盛宴和美味
Apache Iceberg 与其他表格格式的比较
通过以下资源,您可以了解 Apache Iceberg 与其他表格格式的比较。
- [博客] Data Lake Table 格式比较(Iceberg、Hudi 和 Delta Lake)
- [博客] 表格式治理和社区贡献:Apache Iceberg、Apache Hudi 和 Delta Lake
- [博客] 表格式分区比较:Apache Iceberg、Apache Hudi 和 Delta Lake
- Meetup:Data Lakehouse 表格式的比较
- [博客] 开源数据湖表格式:评估当前利率和采用率
公司分享他们的生产 Apache Iceberg 使用情况
以下是来自公司的文章,这些文章记录了他们将 Apache Iceberg 部署到生产中。你可以阅读他们的经验和教训。
- [博客] Adobe 的冰山
- [博客] 在 Adobe Experience Platform 迁移到 Apache Iceberg
- [播客] Shopify 并将数据提取到冰山表中
- [视频] Apple 规模的 Spark 和 Iceberg – 利用差异文件进行高效的更新插入和删除
- [视频] 在 LINE 数据平台上采用 Apache Iceberg – 2021 英文版
优化和维护 Apache Iceberg 表
一旦你有了 Apache Iceberg 表,你就会想要优化和维护它们,下面的文章介绍了工程表的不同特性以获得最佳性能。
- [博客] Lakehouse 的行级更改:Apache Iceberg 中的 Copy-On-Write 与 Merge-On-Read
- [博客] 维护 Iceberg 表 – 压缩、过期快照等
- [文档] 表维护
将数据摄取到 Apache Iceberg 表中
我们如何将数据放入 Iceberg 表中,以下是有关从不同来源将数据摄取到 Iceberg 表中的文章。
- [文档] Spark 结构化流
- [文档] 从 Spark 写入 Iceberg
- [文档] Flink 流式传输
- [博客] 使用 Kafka Connect 实时摄取 Iceberg – Apache Iceberg Sink
- [博客] Flink + Iceberg:如何构建全场景实时数据仓库
- [博客] 如何将 Hive 表迁移到 Iceberg 表
- [博客] 将 Hive 表迁移到 Apache Iceberg 的动手练习
- [文档] 将 Iceberg 与 Google Dataproc 结合使用
使用云对象存储
对象存储已成为在数据湖库中存储数据的标准,下面的资源重点介绍了云对象存储环境中的 Apache Iceberg。
Java 和 Python API
以下是有关 Apache Iceberg 的 Java 和 Python API 的文章。
- [博客] Iceberg Java API 简介 – 第 1 部分
- [博客] Iceberg Java API 介绍第 2 部分 – 表扫描
- [文档] Java API
- [文档] Python API
使用 Apache Iceberg 进行流式传输
流数据可能需要许多批处理中不存在的注意事项。以下是处理在流数据中使用 Apache Iceberg 的资源。
- [视频] 使用 Apache Flink 和 Apache Iceberg 进行流式事件时间分区 – Julia Bennett
- [视频] MEETUP:苹果员工讨论;从冰山数据湖和多集群 Kafka 源流式传输
- [视频] 使用 Iceberg Connector 回填 Flink 数据管道
- [文档] Spark 结构化流
- [文档] Flink 流式传输
杂项博客文章
这是您可以从中学习的其他伟大的 Apache Iceberg 文章的列表。
- [博客] 集成审计:使用 Apache Iceberg 简化数据可观察性
- [博客] Iceberg FileIO:云原生表
- [博客] 使用 Flink CDC 同步 MySQL 分表数据,构建实时数据湖
- [博客] Iceberg 中的元数据索引
- [博客] 使用 Debezium 通过 Apache Iceberg 创建数据湖
- [博客] Iceberg 的高吞吐量摄取
- [博客] FastIngest:具有 Apache Iceberg 和 ORC 格式的低延迟 Gobblin
- [博客] 使用 Iceberg 将查询优化提升到新的水平
会议会谈
这是关于 Apache Iceberg 的 Subsurface 会议演讲列表。
- 冰山能为您做什么?
- 通过 Apache Iceberg 的 Write-Audit-Publish 模式
- 从 Apache Iceberg 数据湖流式传输
- 在 Apache Iceberg 中调整行级操作
- 使用 Apache Iceberg 的开放数据架构
- 在 PB 级运行 Apache Iceberg 的经验教训
- Netflix 为什么以及如何创建并迁移到新的表格格式
- 冰山案例研究
- 使分析师能够使用 SparkSQL 和 Iceberg 构建 Lakehouse
- Adobe 的冰山:挑战、教训和成就
- Hiveberg:将 Apache Iceberg 与 Hive Metastore 集成
- 深入了解 Apache Iceberg SQL 扩展
- 制作开放表格格式的经验教训 企业就绪
- 在彭博建立历史金融数据湖
- 数据基础设施中未解决的挑战