什么是数据湖屋Lakehouse? -DZone大数据


“ Data Lakehouse”是数据管理领域中的一种新架构范例,结合了Data Warehouse和Data Lakes的最佳特性。一旦将数据加载到数据湖中,就无需将数据加载到仓库中进行其他分析或商业智能。您可以直接查询便宜但高度可靠的存储(通常称为“对象存储”)中的数据,从而减少了数据管道上的操作开销。
从高层次看,Data Lakehouse具有以下特征–

  • 事务支持
  • 模式实施和治理
  • 支持BI工具
  • 存储应与计算分离
  • 支持最新的存储格式
  • 支持API访问
  • 支持结构化和非结构化数据
  • 支持流数据

当前方法的问题所在
如今,越来越多的公司正在云中构建新的数据仓库或数据湖。或者,他们正在整合和现代化其本地数据仓库或数据湖以在云中运行。但是,他们看不到第一次从其投资中获得价值。这通常归因于缺乏用于数据集成,数据质量,数据治理和元数据管理的适当工具集,或者它们依赖于手工编码才能满足这些要求。
手工编码数据管理项目通常是从与云提供商的平台即服务(PaaS)或基础架构即服务(IaaS)捆绑在一起的工具开始。手工编码可能适用于原型设计和培训,但难以维护且不可重用。如果更改或升级技术,平台或处理引擎,则必须重新设计并重新编码,这既昂贵又有风险。
使用未集成的多个产品来实现整个数据管理通常是冒险和复杂的。同样,依靠云供应商的有限解决方案也有其缺点,因为它们是基本的。云数据管理需要多云策略和部署模型。