Lambda架构

sentric » Lambda Architecture, Part 1

Hadoop框架带来了批量数据处理,但是网络规模大数据的实时处理仍然是一个挑战。 有很多技术可以用来建立这样一个完整的数据处理系统 - 但要选择合适的工具并且编排使用它们却是复杂和艰巨的。

Nathan Marz将任何数据系统都可定义为:
“query = function(all data)”

Lambda系统架构定义了一套明确的架构原则,如果要建立一套强大的和可扩展的数据系统,必须服从上面的公式。

Lambda基于下列原则:
1.人为容错性human fault-tolerance – 系统易数据丢失或数据损坏,大规模时可能是不可挽回的。

2.数据不可变性data immutability – 数据存储在它的最原始的形式不变的,永久的。

3.重新计算recomputation – 因为上面两个原则,运行函数重新计算结果是可能的。

Lambda架构是由三层组成:批处理层,服务层和速度层:

批处理层:Hadoop 是理想的批处理层工具

服务层:用于加载和现实数据库中的批处理视图,以便用户能够查询,不一定需要随机写,但是支持批更新和随机读,推荐:ElephantDB or Voldemort。

速度层:
主要处理新数据和服务层更新造成的高延迟补偿,利用流处理系统如 (Storm, S4, Spark) 和随机read/write数据存储库来计算实时视图(HBase). 这些视图有效期一直到它们已经能通过批处理和服务层获得时为止。

为了获得一个完整结果,批处理和实时视图都必须被同时查询和融合(实时代表新数据)。

Lambda架构通过定义一些很清晰的原则来处理复杂大数据 Big Data .
[该贴被admin于2013-03-10 16:18修改过]

有人提出所谓Hadoop困境:

【Hadoop的困境】进,由于天生的批量处理基因,无法适应实时处理的需求;退,由于没有坚实的关系代数逻辑基础,根本无法满足关系型的查询,它无法真正解决与传统SQL工具的兼容问题。

这实际陷入关系数据库思维出不来,无法摆脱,从Lambda架构看出,实时部分也就是Speed速度层由Storm之类完成。

我非常赞同@SpeedVan
预测:函数式未来与数据库磨合,sql消失,如果说我以前鼓吹OO,只是采取不同于关系数据库的思维方法,有时还能共存,尽管存在各种不匹配,那么函数化Lambda真的可能会完全替代关系数据库,所谓关系数据库的代数逻辑基础可被对象的关联逻辑替代。

所有数据系统都将可用query = function(all data)完美实现,可参见:Big Data – Principles and best practices of scalable realtime(实时) data systems

Big Data: Principles and best practices of scalable realtime
《大数据:可扩展实时系统的原理和最佳实践》是分布式实时处理系统Storm的作者及另一位twitter老兄合作写的。

书中主要描述上述三层主要概念:自底向上分别是:
1. Batch Layer
主要进行批量处理,其特点是延时较高、高吞吐量,并且是append-only(没有delete和update的概念)的。本书采用Hadoop实现,包括HDFS和Hadoop MapReduce。包括对全部数据集的预计算。
2. Serving Layer
主要进行批量更新,其特点是延时相对较低,一般数小时更新一次。本书主要采用HBase和Cassandra实现。
3. Speed Layer
主要进行低延时更新(与Serving Layer的批量更新相比,这里更接近于实时更新),是一种流处理(stream processing),采用各种复杂的增量算法实现。本层是对Serving Layer的补充,即只处理Serving Layer中间“没有”的“数小时”的数据,并且一旦这些数据在Serving Layer存在了,Speed Layer就将它们丢弃,并重新处理来着应用层的新数据。注意,查询的结果将来自于Serving Layer和Speed Layer处理结果的merge。本书采用Storm实现。

此外,作者还将big data相关的开源项目做了以下分类:
1. 批量计算系统:延时较高、吞吐量大,如Hadoop。
2. 序列化框架:为对象和字段提供一种模式定义语言,实现传输通信以及不同语言环境之间的转化。如Thrift, Protocol Buffers, 和Avro。
3. 支持任意存取的NoSQL数据库:牺牲了SQL强大的表现力优势,根据应用场景不同仅支持部分操作。按照CAP理论来说,就是牺牲C(一致性)或A(可用性)来实现AP或CP。如Cassandra, HBase, MongoDB,Voldemort, Riak, CouchDB等。
4. 消息/排队系统:保证进程之间以容错和异步的方式传递消息,在实时处理系统中非常重要。如Kestrel。
5. 实时计算系统:高吞吐、低延时的流处理系统。如Storm。

其他参考:The Lambda architecture: principles for architecting realtime Big Data systems