基于Hadoop的Apache Hudi 0.10 发布

Apache Hudi 0.10 发布,Hadoop关联
http://www.linuxeden.com/a/96092

使用 Apache Hudi 在 Uber 构建大规模交易数据湖:https://eng.uber.com/apache-hudi-graduation/

Apache Hudi是一个存储抽象框架,帮助分布式组织构建和管理兆字节规模的数据湖。Hudi使用上插入和增量拉动等原语,将流式处理引入类批处理的大数据。这些功能有助于为我们的服务显示更快、更新鲜的数据,具有分分钟以下数据延迟的统一服务层,避免了维护多个系统的任何额外开销。增加了灵活性,Apache Hudi可以在Hadoop分布式文件系统(HDFS)或云存储上运行。
Hudi在数据湖上启用原子性、一致性、隔离性和持久性(ACID)语义。Hudi使用最广泛的两个功能是上插入和增量拉动,这使用户能够吸收更改数据捕获并将其大规模应用于数据湖。Hudi提供了广泛的可插拔索引功能,以实现这一点,以及自己的数据索引实现。Hudi控制和管理数据湖中文件布局的能力不仅对克服HDFS命名节点和其他云存储限制极其重要,而且对于通过提高可靠性和查询性能来维护健康的数据生态系统也极其重要。为此,Hudi支持多个查询引擎集成,如Presto、Apache Hive、Apache Spark和Apache Impala。