使用Hadoop+Hbase+Hive+SpringBatch实现数据仓库(Datawarehouse implementation using Hadoop+Hbase+Hive+SpringBatch – Part 1 | Spring under the hood)
Spring Batch是Spring用于批处理工作流的框架。
假设一个网站有很大访问量,建立一个分析用户访问时间的分析应用,架构图如下:
访问日志如下:
192.168.45.129 07:45
192.168.45.126 07:46
192.168.45.127 07:48
192.168.45.129 07:49
Spring batch通过一个命令行运行,将日志读取然后将其中IP地址写入hbase
另外一个Java命令将使用Hive从hbase中读取数据,并显示出来:
[该贴被banq于2012-11-22 08:19修改过]