lakeFS:实现类似于Git或事件溯源ES的对象存储功能

21-03-30 banq


lakeFS是一个开放源代码层,可为基于对象存储的数据湖提供弹性和可管理性。
借助lakeFS,您可以构建可重复的,原子的和版本化的数据湖操作-从复杂的ETL作业到数据科学和分析。
lakeFS支持将AWS S3,Azure Blob存储和Google Cloud Storage作为其基础存储服务。它与S3兼容,并与所有现代数据框架(例如Spark,Hive,AWS Athena,Presto等)无缝兼容。
 
数据开发环境

  • 实验-单独尝试工具,升级版本并评估代码更改。
  • 可重现性-可以回到任何时间点来获得一致的数据湖版本。

持续数据整合
  • 通过执行最佳实践来安全地摄取新数据-确保新数据源遵循您湖的最佳实践,例如格式和架构实施,命名约定等。
  • 元数据验证-防止重大更改进入生产数据环境。

持续数据部署
  • 即时恢复对数据的更改-如果向用户暴露了低质量的数据,则可以立即恢复到数据湖以前,一致且正确的快照。
  • 加强交叉收集的一致性-向消费者提供必须以一种原子的,可恢复的动作同步的多个数据收集。
  • 通过启用来防止数据质量问题
    • 测试生产数据,然后再将其提供给用户/消费者。
    • 在您的DAG中测试中间结果,以避免级联质量问题。


1