Hadoop的故事


今天云原生技术的大数据中心取代了Hadoop,Kubernetes 取代了 YARN 作为工作负载编排器,亚马逊S3 兼容的对象存储取代了 HDFS 来存储海量数据。但是在 2011 年,Hadoop是大数据酷炫的前沿。
Hadoop(当时称为 Nutch)由 Doug Cutting 和 Mike Cafarella于 2004 年创建,作为 Google 文件系统和 MapReduce 计算框架的基于 Java 的实现。该产品解决了一个非常紧迫的问题:雅虎的万维网索引不再适合单台计算机,因此该公司需要一个低成本的数据存储和处理框架。
Cut 和 Cafarella 在 2006 年启动了开源 Hadoop 项目,很快硅谷的网络巨头(当时还没有那么巨大)注意到了这一点。Facebook、Twitter 和 LinkedIn 采用 Hadoop 来解决他们自己迅速增长的数据需求,并且他们对 Cassandra、Hive、Kafka 和 Storm 等技术做出了自己的调整。计算世界的其他人都想参与其中,Cloudera 做出了回应。
Cloudera 成立于 2008 年,是第一个 Hadoop 分销商。该公司于2011 年 11 月开始扩大业务,当时它筹集了 4000 万美元的风险投资,这预示着 9 亿美元的巨额投资将在三年后的 Hadoop 鼎盛时期发生。
但是随着Hadoop 生态系统的发展,Cloudera 的竞争对手MapR Technologies 成立于 2009 年,在 2011 年完成了 2000 万美元的融资,因为它的 40 多名员工构建了一个专有版本的 Hadoop,除了 HDFS 之外还支持 NFS。然后在 2011 年 6 月,当雅虎剥离 Hortonworks 时,Cloudera 又遇到了另一个竞争对手。与 Cloudera 或 MapR 相比,Hortonworks 拥有大约 20 名从事雅虎 Hadoop 系统工作的工程师,旨在更紧密地与开源 Apache Hadoop 项目保持一致。
当时绝大多数 Hadoop 部署都是本地部署,因为公有云的概念仍在形成(请记住,亚马逊网络服务直到 2006 年才创建)。但亚马逊让我们一睹 Elastic MapReduce (EMR) 的发展前景,这是它在 2009 年推出的托管 Hadoop 服务。在 Cloudera 和 MapR 在零售和金融服务领域获得客户的同时,AWS 吹嘘其技术含量高的客户名单,其中包括 Etsy、Foursquare、Clickstream 和 Yelp 等名称。
虽然 Hadoop 在今天被认为是一种传统技术,但由于分离计算和存储的云原生架构的兴起,Hadoop 的影响力仍然存在。