门户网站分析统计策略?

10-04-13 xgonline
本门户网站是一个电信级用户规模的门户,初期日PV在500万,以后至少扩展在千万以上。

当前一级门户正在实现。

硬件规模:

12台刀片PC(单台:2CPU/32GB)

2台HP 数据库服务器(单台:14CPU/28GB)

1台F5主机

其他

当前有一个需求点是:分析统计网站运营数据,统计范围包括当前正在搭建的一级门户,以及已经单独部署的几十个二级门户(省级规模)。

因为最终有较强数据分析功能,包括各种对比,当前拟考虑策略:

分三个部分:

1)数据采集

2)数据仓库

3)数据显示

现在的压力在数据采集(主要是WEB日志),前期日处理日志在1G,最终日处理量在30G左右,

现在考虑的方案有两种,

1)采用Hapdoop+Chukwa这种分布式文件策略,然后解析数据到数据仓库中(Oracle数据库)。

本人倾向于这种方式,但项目时间难以保证。

2)采用piwik(php+mysql运行环境,script插码),从piwik的数据库中采集数据。

这种感觉是一种折中,让piwik采集原始数据。但对piwik的处理能力心中没底。

其它的策略包括商业化集成,以及Google Analytics这些集成方式因为商业原因排除了。

有请各位大师给些建议呀。谢谢。

banq
2010-04-14 09:27
建议用Hive试验看看,内部整合了Hadoop,适合做数据挖掘。

HIVE: Data Warehousing & Analytics on Hadoop

xgonline
2010-04-14 09:48
谢谢老大的建议。

我也倾向于Hive/Hadoop这样的方案,但在公司推这方案有些压力。呵呵。

猜你喜欢