GridGain的数据湖加速器简介

由 Hadoop 提供支持的数据湖是大规模分析和报告的绝佳选择。Hadoop 可横向扩展且具有成本效益，并可实现跨越大数据集的长期运行的操作。
实时分析用例的持续增长以及查询操作和历史数据集的需求——其中操作必须在几秒钟内完成而不是几分钟，或者几毫秒而不是几秒钟——带来了新的挑战。然而，许多人继续尝试依靠数据湖来满足新要求，而忽视了数据湖专为高延迟工作负载和批处理而设计的事实。
与此同时，常规的复杂分析必须与新的实时工作负载共存。例如，作为数据湖的 Hadoop 必须保持在精细的架构中，同时将实时操作卸载到更快的存储。
GridGain 是通往包括 Hadoop 在内的数据湖实时分析的桥梁。GridGain 用作专用于低延迟和高吞吐量操作的 HTAP 存储，而数据湖继续用于长时间运行的 OLAP 工作负载。
GridGain Data Lake Accelerator 是一种解决方案架构，它支持对现有数据湖部署的运营和历史数据孤岛进行实时分析。以下是解决方案的主要组成部分：

首先，通过这种架构，GridGain 被部署为一个单独的分布式存储，它可以保存从 Hadoop 预加载的数据，以实现低延迟操作和报告。数据位于跨 RAM、磁盘和英特尔傲腾持久内存的 GridGain 多层存储中。
其次，应用层直接使用GridGain集群。GridGain 为标准数据访问模式提供 SQL 和键值 API，以及用于数据和计算密集型内存计算的计算（又名 map reduce）和机器学习接口，在网络上移动最少或没有数据移动。
第三，每当应用程序需要运行联合查询或跨数据库查询时，其中操作将存储在 GridGain 和 Hadoop 中的数据连接起来，它可以使用 Apache Spark。GridGain 与 Spark 集成，后者原生支持 Hive/Hadoop。当 GridGain 和 Hadoop 都不包含整个数据集时，应仅在有限数量的场景中考虑跨数据库查询。有关更多详细信息，请参阅跨数据库查询部分。

更多点击标题