如何面对后Hadoop时代?


Apache Hadoop作为一个完整的开源大数据套件,在过去十年深刻影响了整个大数据世界。然而,随着各种新兴技术的发展,Hadoop生态系统发生了翻天覆地的变化。
2021 年 4 月,Apache 软件基金会宣布退出 13 个大数据相关项目,其中 10 个属于 Hadoop 生态系统,如 Eagle、Sentry、Tajo 等。后来Apache  Ambari 诞生,使命是管理 Hadoop 集群,但却成为第一个将于 2022 年退役的 Apache 项目。
 Hadoop真的死了吗?如果是这样,什么产品/技术将取代它?大数据分析的未来前景如何?
本文将分析 Hadoop的历史, 云原生趋势下 的 新兴技术选择,以及未来10年大数据分析的未来展望 。
 
Hadoop为大数据而生
 大量的人类数据和机器数据 (日志、物联网设备等)已被收集和存储,其数量远远超过传统的业务数据。海量数据与人类能力之间存在巨大的技术鸿沟,催生了各种大数据技术。在这样的背景下,我们所说 的大数据时代 应运而生。
Hadoop就是这样一个功能齐全的大数据处理平台。它包含多种组件来满足不同的功能需求,例如用于数据存储的HDFS、用于资源管理的Yarn、用于数据计算和处理的MapReduce和Spark、用于关系数据收集的Sqoop、用于实时数据管道的Kafka、用于在线的HBase数据存储和访问,用于在线即席查询的 Impala 等。
Hadoop 诞生后不久就使用集群进行并行计算,打破了超级计算机保持的排序记录。 它已被实力雄厚的公司和各种组织广泛采用。
得益于“大数据”和有影响力的开源软件项目Apache社区,Hadoop迅速流行起来,涌现出许多商业公司。
 
市场上的顶级 Hadoop 分销商包括三个供应商 ——Cloudera、Hortonworks 和 MapR。此外,公有云厂商还提供云上托管的Hadoop服务,如AWS EMR、Azure HDinsight等,占据了Hadoop大部分市场份额。
 
然而,2018年,市场经历了剧烈的变化。一条重磅消息震惊了 Hadoop 生态系统:  Cloudera 和 Hortonworks 合并。
换言之,一号市场和二号市场参与者为了在市场中生存而相互拥抱。随后,HPE 宣布收购 MapR。这些并购表明,尽管Hadoop大受欢迎, 但企业经营困难,赚钱困难。
合并 Hortonworks 后,  Cloudera 宣布将对所有产品线收费,包括之前的开源版本。开源产品不再对所有用户开放,而只对付费用户开放。
过去免费提供的 HDP 发行版不再维护且可供下载。未来将合并为一个统一的CDP平台。
 
是什么扼杀了 Hadoop?
谷歌趋势显示,对 Hadoop 的兴趣在 2014 年至 2017 年期间达到了 顶峰 。在那之后,我们看到 Hadoop 的搜索量明显下降。
 
Hadoop没落的原因是什么?在我看来,三个主要因素共同导致了 Hadoop 的衰落:

  •  数据分析和新兴技术的新市场需求
  • 快速增长的云供应商 和服务
  •  Hadoop生态系统日益复杂

在当今, 用户对数据管理和分析有了新的需求, 比如在线快速分析、存储和计算分离,或者人工智能和机器学习的AI/ML。在这些方面, Hadoop 只能提供有限的支持。 在这方面,它无法与一些新兴技术相提并论。比如近年来非常流行的Redis、Elastisearch、ClickHouse等,都可以应用于大数据分析。
对于客户来说,只要单一技术就能满足他们的需求,就不需要部署复杂的 Hadoop 平台。
从另一个角度看,云计算在过去十年左右的时间里发展迅猛,不仅击败了IBM、HP等传统软件厂商, 也在一定程度上蚕食了Hadoop的大数据市场。
 
早期,云厂商只在 IaaS 上部署 Hadoop,比如 AWS EMR(号称是全球部署最多的 Hadoop 集群)。对于用户来说,托管在云上的Hadoop服务可以随时启动和停止,数据可以安全地备份在云厂商的数据服务平台上,使用方便,节约成本。
此外,云厂商针对特定场景提供一系列大数据服务,形成完整的生态系统,如AWS S3实现的持久化低成本数据存储、KV数据存储、Amazon DynamoDB、Athena实现的低延迟访问,用于分析大数据的无服务器查询服务等。
 
如何面对后Hadoop时代?
Hadoop最终会被抛弃吗?我相信这不会很快发生。毕竟,Hadoop 拥有大量的用户,这意味着平台和应用迁移的成本高昂。
 
因此,当前用户会继续使用它,但新用户的数量会逐渐减少。这就是我们所说的“后Hadoop时代”。
  • 首先,像 Cloudera/Hortonworks 这样的技术供应商无法在市场上发布高质量的免费产品。
  • 其次,不要忘记 Hadoop 是一个由 Apache 基金会托管的开源项目。
  • 就 Apache Hadoop 的潜在增长而言,上述路线图来自 Hadoop 社区的一次聚会。 3.0 之后,Hadoop 的新特性显然不再那么好了。 它们主要是关于与 K8s 和 Docker 的集成,这对大数据从业者来说并不那么有吸引力。