NOSQL之旅---HBase

最近因为项目原因，研究了Cassandra,Hbase等几个NOSQL数据库，最终决定采用HBase。在这里，我就向大家分享一下自己对HBase的理解。

在说HBase之前，我想再唠叨几句。做互联网应用的哥们儿应该都清楚，互联网应用这东西，你没办法预测你的系统什么时候会被多少人访问，你面临的用户到底有多少，说不定今天你的用户还少，明天系统用户就变多了，结果您的系统应付不过来了了，不干了，这岂不是咱哥几个的悲哀，说时髦点就叫“杯具啊”。

其实说白了，这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说，互联网应用更加看重系统性能以及伸缩性，而传统企业级应用都是比较看重数据完整性和数据安全性。那么我们就来说说互联网应用伸缩性这事儿.对于伸缩性这事儿，哥们儿我也写了几篇博文，想看的兄弟可以参考我以前的博文，对于web server,app server的伸缩性，我在这里先不说了，因为这部分的伸缩性相对来说比较容易一点，我主要来回顾一些一个慢慢变大的互联网应用如何应对数据库这一层的伸缩。

首先刚开始，人不多，压力也不大,搞一台数据库服务器就搞定了，此时所有的东东都塞进一个Server里，包括web server,app server,db server,但是随着人越来越多，系统压力越来越多，这个时候可能你把web server,app server和db server分离了，好歹这样可以应付一阵子，但是随着用户量的不断增加，你会发现，数据库这哥们不行了，速度老慢了，有时候还会宕掉，所以这个时候，你得给数据库这哥们找几个伴，这个时候Master-Salve就出现了，这个时候有一个Master Server专门负责接收写操作，另外的几个Salve Server专门进行读取，这样Master这哥们终于不抱怨了，总算读写分离了，压力总算轻点了,这个时候其实主要是对读取操作进行了水平扩张，通过增加多个Salve来克服查询时CPU瓶颈。一般这样下来，你的系统可以应付一定的压力，但是随着用户数量的增多，压力的不断增加，你会发现Master server这哥们的写压力还是变的太大，没办法，这个时候怎么办呢？你就得切分啊，俗话说“只有切分了，才会有伸缩性嘛”，所以啊，这个时候只能分库了，这也是我们常说的数据库“垂直切分”，比如将一些不关联的数据存放到不同的库中，分开部署，这样终于可以带走一部分的读取和写入压力了，Master又可以轻松一点了，但是随着数据的不断增多，你的数据库表中的数据又变的非常的大，这样查询效率非常低，这个时候就需要进行“水平分区”了，比如通过将User表中的数据按照10W来划分，这样每张表不会超过10W了。

综上所述，一般一个流行的web站点都会经历一个从单台DB，到主从复制，到垂直分区再到水平分区的痛苦的过程。其实数据库切分这事儿，看起来原理貌似很简单，如果真正做起来，我想凡是sharding过数据库的哥们儿都深受其苦啊。对于数据库伸缩的文章，哥们儿可以看看后面的参考资料介绍。

好了，从上面的那一堆废话中，我们也发现数据库存储水平扩张scale out是多么痛苦的一件事情，不过幸好技术在进步，业界的其它弟兄也在努力，09年这一年出现了非常多的NOSQL数据库，更准确的应该说是No relation数据库，这些数据库多数都会对非结构化的数据提供透明的水平扩张能力，大大减轻了哥们儿设计时候的压力。下面我就拿Hbase这分布式列存储系统来说说。

一 Hbase是个啥东东？
在说Hase是个啥家伙之前，首先我们来看看两个概念，面向行存储和面向列存储。面向行存储，我相信大伙儿应该都清楚，我们熟悉的RDBMS就是此种类型的，面向行存储的数据库主要适合于事务性要求严格场合，或者说面向行存储的存储系统适合OLTP，但是根据CAP理论，传统的RDBMS，为了实现强一致性，通过严格的ACID事务来进行同步，这就造成了系统的可用性和伸缩性方面大大折扣，而目前的很多NOSQL产品，包括Hbase，它们都是一种最终一致性的系统，它们为了高的可用性牺牲了一部分的一致性。好像，我上面说了面向列存储，那么到底什么是面向列存储呢？Hbase,Casandra,Bigtable都属于面向列存储的分布式存储系统。看到这里，如果您不明白Hbase是个啥东东，不要紧，我再总结一下下：

Hbase是一个面向列存储的分布式存储系统，它的优点在于可以实现高性能的并发读写操作，同时Hbase还会对数据进行透明的切分，这样就使得存储本身具有了水平伸缩性。

二 Hbase数据模型
HBase,Cassandra的数据模型非常类似，他们的思想都是来源于Google的Bigtable，因此这三者的数据模型非常类似，唯一不同的就是Cassandra具有Super cloumn family的概念，而Hbase目前我没发现。好了，废话少说，我们来看看Hbase的数据模型到底是个啥东东。

在Hbase里面有以下两个主要的概念，Row key,Column Family，我们首先来看看Column family,Column family中文又名“列族”，Column family是在系统启动之前预先定义好的，每一个Column Family都可以根据“限定符”有多个column.下面我们来举个例子就会非常的清晰了。

假如系统中有一个User表，如果按照传统的RDBMS的话，User表中的列是固定的，比如schema 定义了name,age,sex等属性，User的属性是不能动态增加的。但是如果采用列存储系统，比如Hbase，那么我们可以定义User表，然后定义info 列族，User的数据可以分为：info:name = zhangsan,info:age=30,info:sex=male等，如果后来你又想增加另外的属性，这样很方便只需要info:newProperty就可以了。

也许前面的这个例子还不够清晰，我们再举个例子来解释一下，熟悉SNS的朋友，应该都知道有好友Feed，一般设计Feed，我们都是按照“某人在某时做了标题为某某的事情”，但是同时一般我们也会预留一下关键字，比如有时候feed也许需要url，feed需要image属性等，这样来说，feed本身的属性是不确定的，因此如果采用传统的关系数据库将非常麻烦，况且关系数据库会造成一些为null的单元浪费，而列存储就不会出现这个问题，在Hbase里，如果每一个column 单元没有值，那么是占用空间的。下面我们通过两张图来形象的表示这种关系：

上图是传统的RDBMS设计的Feed表，我们可以看出feed有多少列是固定的，不能增加，并且为null的列浪费了空间。但是我们再看看下图，下图为Hbase，Cassandra,Bigtable的数据模型图，从下图可以看出，Feed表的列可以动态的增加，并且为空的列是不存储的，这就大大节约了空间，关键是Feed这东西随着系统的运行，各种各样的Feed会出现，我们事先没办法预测有多少种Feed，那么我们也就没有办法确定Feed表有多少列，因此Hbase,Cassandra,Bigtable的基于列存储的数据模型就非常适合此场景。说到这里，采用Hbase的这种方式，还有一个非常重要的好处就是Feed会自动切分，当Feed表中的数据超过某一个阀值以后，Hbase会自动为我们切分数据，这样的话，查询就具有了伸缩性，而再加上Hbase的弱事务性的特性，对Hbase的写入操作也将变得非常快。

上面说了Column family，那么我之前说的Row key是啥东东，其实你可以理解row key为RDBMS中的某一个行的主键，但是因为Hbase不支持条件查询以及Order by等查询，因此Row key的设计就要根据你系统的查询需求来设计了额。我还拿刚才那个Feed的列子来说，我们一般是查询某个人最新的一些Feed，因此我们Feed的Row key可以有以下三个部分构成<userId><timestamp><feedId>，这样以来当我们要查询某个人的最进的Feed就可以指定Start Rowkey为<userId><0><0>，End Rowkey为<userId><Long.MAX_VALUE><Long.MAX_VALUE>来查询了，同时因为Hbase中的记录是按照rowkey来排序的，这样就使得查询变得非常快。

三 Hbase的优缺点
1 列的可以动态增加，并且列为空就不存储数据,节省存储空间.

2 Hbase自动切分数据，使得数据存储自动具有水平scalability.

3 Hbase可以提供高并发读写操作的支持

Hbase的缺点：

1 不能支持条件查询，只支持按照Row key来查询.

2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.

关于数据库伸缩性的一点资料：
http://www.jurriaanpersyn.com/archives/2009/02/12/database-sharding-at-netlog-with-mysql-and-php/

http://adam.blog.heroku.com/past/2009/7/6/sql_databases_dont_scale/

暂时先分享这么多,以后在项目运用中,遇到问题再分享给大家.

[该贴被admin于2010-03-12 09:19修改过]
[该贴被admin于2010-03-12 09:37修改过]

我很想知道为什么选择HBase，而不选择Cassandra/MongoDb/voldemort/terrastore/redis等，或者hypergraphdb/neo4j等图数据库，我觉得在某些场合neo4j这样的数据更能够满足业务需求~~

Cassandra做了一下测试，并发插入10W条数据就不动了。MongoDB，Voldemort没怎么去研究过，也没详细做过测试，redis本身需要大量的内存，并且好像不支持水平扩展。terracotta是个JVM级别的缓存，公司的其他项目用了它，neo4j不具备分布式的能力。neo4j这个我觉得适合做SNS的好友模型。

写的不错。

感觉Hypertable和HBase有些类似，Hypertable两者都来自google的bigtable，百度就是使用Hypertable，它是用C写的，HBase是Java的。
有些人认为因为Java的内存模型，好像不是太适合做Bigtable 子类实现，见：
What is the difference between Hypertable and HBase?

Hypertable不是为支持事务性应用(需要事务机制的应用)设计的，它设计目标是对付高而强的负载系统，它的一个架构优点是当访问量不断增加可以平滑增加服务器，所谓平滑的伸缩性。

HBase被推荐应用于稀疏没有太多关联关系的数据记录，也非常适合版本化的数据，不推荐用来存储大量二进制数据。

更多讨论，可以看看我上面的链接。

架构设计需要从事物外部(通过与其他同类事物比较)和深入事物内部两种方式来进行，实际就是“做什么”和“怎么做”分离，我们经常在不自觉中混淆两者界限，但是如果我们按照这两个步骤去做，事情就变得简单和有条理。

[该贴被banq于2010-03-12 09:31修改过]

在Hbase里，如果每一个column 单元没有值，那么是占用空间的。下面我们通过两张图来形象的表示这种关系：

这句话是不是有问题？

还有楼主的2个图顺序是不是反了？

很不错，学习了，做SNS的朋友要看一看了，可是对于一直从事传统JAVAEE开发的朋友，事务ACID还是离不开的，像电信，银行等系统。

terrastore是基于terracotta的一个分布式文档数据库~~

Cassandra做了一下测试，并发插入10W条数据就不动了

Cassandra现在不好象：twitter/digg等大型网站都在用，也是说在经过hbase/mongodb/redis/riak/hypertable/Voldemort等比较后最终才选择它的~~

不过好象sourceforge.net用的是mongodb~,有人测试mongodb比redis性能还高~~

那要是现有的系统用了这些nosql数据库，系统的对象模型是不是都要变了啊？

2010年03月12日 12:42 "cmzx3444"的内容

那要是现有的系统用了这些nosql数据库，系统的对象模型是不是都要变了啊

如果你一开始就将OO，将对象模型和它的持久化分开，就不要变，这些NoSQL本质上就是内存+持久化。但是如果你一开始面向关系数据库设计模型，那就要变化很大了。

2010年03月12日 11:48 "arden"的内容

Cassandra做了一下测试，并发插入10W条数据就不动了

Digg刚刚选用Cassandra，Saying Yes to NoSQL; Going Steady with Cassandra

大意翻译：
过去6个月是的Digg工程团队令人激动一段时间。 soup-to-nuts 重写架构。不仅重写所有的应用程序代码，但我们也推出了一个新的客户端和服务器架构。如果这听起来并不像一个足够大的挑战，我们正在取代我们的基础设施大部分组件及LAMP(Linux + PHP + MySQL)。

或许是我们最重要的基础设施的变化是放弃了MySQL,选择了对NoSQL的青睐。象我这样与关系数据库系统大交道几乎完全是近20年的人，这种感觉就像一个大胆的举动。

我们提出远离MySQL主要的动机是建设一个高性能系统显得日益困难，特别是写密集，在数据应用程序方面是看不到尽头的迅速增长。这一增长被迫我们采取横向和纵向分割，这消除了我们对关系数据库依赖导致的的所有开销。

当我们寻找到一个符合我们需求的工具时，关系数据库已经变成钝器，在我们的应用领域：新闻等并不需要严格高一致性需求，(按照 Brewer's theorem CAP理论)，这样就可以在可用性和分区容错性.我们相信我们自己开发人员可以在应用程序中自己来控制一致性，这比MySQL替代我们要更好。

由于我们的系统的增长，这对我们来说，重要跨越冗余和网络性能的多个数据中心和增加容量或更换无停机故障的节点。我们计划继续使用商品硬件，但是继续承担它经常会失败。所有这一切都与MySQL越来越困难有关。

在架构选择方面：在受google的非关系数据库BigTable和Amazon的Dynamo系统影响，我们评估了所有NoSQL，决定选择Cassandra。
Cassandra是一个使用BigTable数据模型，运行在类似Dynamo底层机制上的分布式数据库。是面向列存储的，它有一个完全分散的模式，每个节点是相同的，没有单点故障。这也是非常容易实现容错性，数据复制到多个节点，并在数据中心。卡桑德拉也非常有弹性，读，写吞吐量随着新的设备添加呈线性增加。

相关与Mysql测试数据见：http://about.digg.com/blog/looking-future-cassandra

关于HBase暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉，这实际是容错性不佳，这点没有Cassandra好了。

补充：InfoQ的洪强宁谈豆瓣网技术架构中谈到他们的doubanDB使用了TokyoCabinet，这也是一种key-value存储，号称比Berkeley DB（简称BDB）快很多，它的master-slave复制采取的事件log，在master写入一个记录，产生一个事件，传导到slaver，再保存。

[该贴被banq于2010-03-12 16:34修改过]

不过现在mongodb看似挺火的~~

╮(╯﹏╰)╭ 可惜这个对数据仓库的项目没什么可借鉴之处..每天巨量的ETL过程实在是痛苦,又经常出错.什么数据库备份什么都会引起锁表...
[该贴被Antinomy于2010-03-12 20:52修改过]

2010年03月12日 20:51 "Antinomy"的内容

可惜这个对数据仓库的项目没什么可借鉴之处

基于Hadoop的Hive就是非常适合做数据仓库，facebook用来做点击广告分析。

多谢指教!~只是用了几年的数据库(db2) 基本没什么可能换了.
只能看看如何优化抽数job了,不过真的是举步维艰啊

下页