Big Data 辩论: HBase会统治NoSQL世界吗?

Big Data Debate: Will HBase Dominate NoSQL? - Software - Enterprise

HBase 是Google BigTable模型的成功典范,也是世界上使用最广泛的大数据处理平台Apache Hadoop的一部分,这种家族出身会使其成为NoSQL 数据库市场的领导者吗?

来自MapR的Michael Hausenblas持赞同观点,而DataStax的Jonathan Ellis则认为HBase被太多缺陷困扰。他认为HBase问题分为工程问题和架构本身问题。

个人大概浏览一下,发现他们的争论其实在比较HBase和Cassandra。而且正方没有针对反方针对架构上问题进行明显反驳,看看HBase有哪些架构问题,架构问题其实就是结构问题,是基因问题,本质问题。

(1)面向主服务器的设计使得HBase操作起来不灵活。

改变通过RegionServer主服务器的所有读写路由,意味着跨多个数据中心激活异步复制对于HBase是无法实现的,当然你也不能在一个集群中实现工作负载跨复制区分离。Cassandra'的P2P则可以。

(2)failover意味Downtime,失败恢复意味着就要停工。RegionServer 存在单点风险。

(3)HDFS最初是为了流化访问大型文件,HBase是建立在这个分布式文件上,而这个分布式文件系统是优化用于处理分析的,这就直接导致HBase很差的性能。关系数据库已经干掉了文件系统接近三十年时间,因为大数据,HDFS这个分布式文件系统不会打破这种局面。HBase看来天生不适合高速,随机存取等为特征的NoSQL市场特征。

HBase正方MapR公司认为,自己已经发布了企业HBase新版本,克服了上述问题,实现即时失败恢复,无缝切分Sharding和高可用性。

看来HBase和cassandra的争夺战还要持续下去。


个人认为Hbase这个系统,就目前来说除非专门的DBA团队来管理,否则很难玩转,水很深。相对来说cassandra容易上手些。每个NOSQL系统都是为一个特定场景而生,现在流行的NoSQLDB组合模式来解决问题,倒是真希望出来一个大一统的NOSQL DB 容器。
[该贴被bingyang于2013-08-15 10:47修改过]