门户网站分析统计策略?

本门户网站是一个电信级用户规模的门户,初期日PV在500万,以后至少扩展在千万以上。

当前一级门户正在实现。

硬件规模:
12台刀片PC(单台:2CPU/32GB)
2台HP 数据库服务器(单台:14CPU/28GB)
1台F5主机
其他


当前有一个需求点是:分析统计网站运营数据,统计范围包括当前正在搭建的一级门户,以及已经单独部署的几十个二级门户(省级规模)。

因为最终有较强数据分析功能,包括各种对比,当前拟考虑策略:

分三个部分:
1)数据采集
2)数据仓库
3)数据显示

现在的压力在数据采集(主要是WEB日志),前期日处理日志在1G,最终日处理量在30G左右,
现在考虑的方案有两种,
1)采用Hapdoop+Chukwa这种分布式文件策略,然后解析数据到数据仓库中(Oracle数据库)。
本人倾向于这种方式,但项目时间难以保证。

2)采用piwik(php+mysql运行环境,script插码),从piwik的数据库中采集数据。
这种感觉是一种折中,让piwik采集原始数据。但对piwik的处理能力心中没底。

其它的策略包括商业化集成,以及Google Analytics这些集成方式因为商业原因排除了。


有请各位大师给些建议呀。谢谢。

谢谢老大的建议。
我也倾向于Hive/Hadoop这样的方案,但在公司推这方案有些压力。呵呵。