使用Hadoop+Hbase+Hive+SpringBatch实现数据仓库

使用Hadoop+Hbase+Hive+SpringBatch实现数据仓库(Datawarehouse implementation using Hadoop+Hbase+Hive+SpringBatch – Part 1 | Spring under the hood)

Spring Batch是Spring用于批处理工作流的框架。

假设一个网站有很大访问量,建立一个分析用户访问时间的分析应用,架构图如下:
访问日志如下:
192.168.45.129 07:45
192.168.45.126 07:46
192.168.45.127 07:48
192.168.45.129 07:49

Spring batch通过一个命令行运行,将日志读取然后将其中IP地址写入hbase
另外一个Java命令将使用Hive从hbase中读取数据,并显示出来:


[该贴被banq于2012-11-22 08:19修改过]