Hadoop会在2022年过时吗?


这个问题的答案是相当不确定的。一方面,Hadoop 是一种 IT 解决方案,与任何其他解决方案一样,它的衰落是完全有可能的。此外,云正在大数据世界中占据越来越多的空间。另一方面,许多公司仍在考虑实施该系统以发展其活动。因此,这种转变和这种愿望将在 2022 年仍然存在。但是,明智的做法是在下降的情况下考虑替代方案,并通过转向混合系统来调整现有解决方案。此外,Hadoop 背后的团队通过引入新工具和改进现有工具来考虑这一点。
 
2022 年的 Hadoop 趋势是什么?几个方面进一步加强了 Hadoop 在这些用户中的声誉。正如我们上面提到的,到 2022 年,这种恶名无疑仍然存在。以下是 Hadoop 可以为 2022 年提供的一些趋势和发展,以巩固其地位:
迄今为止,有许多 Hadoop 框架供应商,因为大公司都在努力使其适应他们的环境。对于大数据工作者来说,这是一个福音,因为他们不再需要从根本上改变他们做事的方式。通过引入 SQL 等一些工具和方法,这些提供程序使 Hadoop 的使用变得更加容易,并且更加高效。

在这些供应商中,我们可以举出:
• Amazon Web Services Elastic MapReduce;
• Cloudera CDH Hadoop 发行版;
• MapR Hadoop 发行版;
• Microsoft Azure 的 HDInsight;
• Dell-Cloudera Apache Hadoop 解决方案;
• IBM 开放平台。

这些供应商无疑将成为 Hadoop 未来的主要参与者之一,并将在未来几年参与其发展。这样做的原因是他们都在致力于云环境的扩展,包括我们将在下一节中看到的 Hadoop-as-a-service 的开发。
 
Hadoop 即服务 (HAAS)
云正日益成为存储和处理大数据的理想解决方案。事实上,无论是小型、中型还是大型公司,这种选择所提供的实际和经济优势都会引起更大的兴趣。通过 Hadoop 即服务,在云上建立 Hadoop 生态系统已经有几年的可能了。该系统的采用与 2022 年更加相关。因此,Hadoop 即服务是一种将生态系统作为服务提供的方式。在该领域工作的供应商对与大数据相关的工具(例如 Spark、HBase 或 Storm)以实例形式与 Hadoop 发行版相结合收费。该系统已经准备好使用,因为供应商已经为客户处理好了一切。集群已经预先建立、可扩展和容错。客户只需插入他希望处理的数据。可用资源可根据项目需要轻松扩展。实际上,该解决方案在成本方面非常有趣,这就是为什么越来越多的供应商正在转向该系统的营销。
 
YARN(Yet another Resource Negotiator)
从 Hadoop 2.x 引入,YARN 是生态系统最重要的演变之一。它是 MapReduce 的升级版,在早期为它赢得了 MapReduce 2 的名称。其根本原则是将资源端的管理与大数据的处理分离。使用 YARN,您可以根据充足资源的可用性安排某些任务,还可以跟踪执行的操作,这在旧版本中是很困难的。YARN 允许更高效地同时使用 Hive、HBase 或 Spark 等多个应用程序,从而优化数据处理。到目前为止,仍在对该工具进行修改以使其更有效。几年来,采用 YARN 一直是必不可少的,并且在 2022 年仍然如此
 
最新版本的 Hadoop 及其演变
目前,我们处于 Hadoop 的 3.x 版本,其最新版本是 2021 年 6 月发布的 3.3.1。此版本增加带来了一些重大改进,例如:所需的 java 版现在是 8 而不是 7;
• HDFS 擦除编码,除其他外,通过不再使用 Hadoop 的传统复制方法来减少资源消耗,同时保持高可用性;
• MapReduce 在任务级别的改进;
• 一些 YARN 增强功能,包括支持的资源和时间线服务;
• 等等