Hadoop的故事

今天云原生技术的大数据中心取代了Hadoop，Kubernetes 取代了 YARN 作为工作负载编排器，亚马逊S3 兼容的对象存储取代了 HDFS 来存储海量数据。但是在 2011 年，Hadoop是大数据酷炫的前沿。
Hadoop（当时称为 Nutch）由 Doug Cutting 和 Mike Cafarella于 2004 年创建，作为 Google 文件系统和 MapReduce 计算框架的基于 Java 的实现。该产品解决了一个非常紧迫的问题：雅虎的万维网索引不再适合单台计算机，因此该公司需要一个低成本的数据存储和处理框架。
Cut 和 Cafarella 在 2006 年启动了开源 Hadoop 项目，很快硅谷的网络巨头（当时还没有那么巨大）注意到了这一点。Facebook、Twitter 和 LinkedIn 采用 Hadoop 来解决他们自己迅速增长的数据需求，并且他们对 Cassandra、Hive、Kafka 和 Storm 等技术做出了自己的调整。计算世界的其他人都想参与其中，Cloudera 做出了回应。
Cloudera 成立于 2008 年，是第一个 Hadoop 分销商。该公司于2011 年 11 月开始扩大业务，当时它筹集了 4000 万美元的风险投资，这预示着 9 亿美元的巨额投资将在三年后的 Hadoop 鼎盛时期发生。
但是随着Hadoop 生态系统的发展，Cloudera 的竞争对手MapR Technologies 成立于 2009 年，在 2011 年完成了 2000 万美元的融资，因为它的 40 多名员工构建了一个专有版本的 Hadoop，除了 HDFS 之外还支持 NFS。然后在 2011 年 6 月，当雅虎剥离 Hortonworks 时，Cloudera 又遇到了另一个竞争对手。与 Cloudera 或 MapR 相比，Hortonworks 拥有大约 20 名从事雅虎 Hadoop 系统工作的工程师，旨在更紧密地与开源 Apache Hadoop 项目保持一致。
当时绝大多数 Hadoop 部署都是本地部署，因为公有云的概念仍在形成（请记住，亚马逊网络服务直到 2006 年才创建）。但亚马逊让我们一睹 Elastic MapReduce (EMR) 的发展前景，这是它在 2009 年推出的托管 Hadoop 服务。在 Cloudera 和 MapR 在零售和金融服务领域获得客户的同时，AWS 吹嘘其技术含量高的客户名单，其中包括 Etsy、Foursquare、Clickstream 和 Yelp 等名称。
虽然 Hadoop 在今天被认为是一种传统技术，但由于分离计算和存储的云原生架构的兴起，Hadoop 的影响力仍然存在。