GridGain的数据湖加速器简介


由 Hadoop 提供支持的数据湖是大规模分析和报告的绝佳选择。Hadoop 可横向扩展且具有成本效益,并可实现跨越大数据集的长期运行的操作。
实时分析用例的持续增长以及查询操作和历史数据集的需求——其中操作必须在几秒钟内完成而不是几分钟,或者几毫秒而不是几秒钟——带来了新的挑战。然而,许多人继续尝试依靠数据湖来满足新要求,而忽视了数据湖专为高延迟工作负载和批处理而设计的事实。
与此同时,常规的复杂分析必须与新的实时工作负载共存。例如,作为数据湖的 Hadoop 必须保持在精细的架构中,同时将实时操作卸载到更快的存储。
GridGain 是通往包括 Hadoop 在内的数据湖实时分析的桥梁。GridGain 用作专用于低延迟和高吞吐量操作的 HTAP 存储,而数据湖继续用于长时间运行的 OLAP 工作负载。
GridGain Data Lake Accelerator 是一种解决方案架构,它支持对现有数据湖部署的运营和历史数据孤岛进行实时分析。以下是解决方案的主要组成部分:

首先,通过这种架构,GridGain 被部署为一个单独的分布式存储,它可以保存从 Hadoop 预加载的数据,以实现低延迟操作和报告。数据位于跨 RAM、磁盘和英特尔傲腾持久内存的 GridGain 多层存储中。
其次,应用层直接使用GridGain集群。GridGain 为标准数据访问模式提供 SQL 和键值 API,以及用于数据和计算密集型内存计算的计算(又名 map reduce)和机器学习接口,在网络上移动最少或没有数据移动。
第三,每当应用程序需要运行联合查询或跨数据库查询时,其中操作将存储在 GridGain 和 Hadoop 中的数据连接起来,它可以使用 Apache Spark。GridGain 与 Spark 集成,后者原生支持 Hive/Hadoop。当 GridGain 和 Hadoop 都不包含整个数据集时,应仅在有限数量的场景中考虑跨数据库查询。有关更多详细信息,请参阅跨数据库查询部分。

更多点击标题