大数据分析的具体处理??

12-10-10 javawebkaifa
大家好:有这样一个问题怎么处理分析了,大致情况如下:

一个组集群服务器(server1 ,server2 ,server3 ,server3),每天产生很产生很多日志(记录了IP,时间。。。),4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析,找到出现IP最多的日志记录。

要怎么分析了,有条件的,给一台机器给你 8G内存 双核CPU ,问你怎么利用这台服务器来分析上面所说的情况??、有什么好的解决方案,我听了后,觉得就是分批处理,使用消息通信机制,我很喜欢研究这个问题,希望给大家讨论下????

    

banq
2012-10-10 14:47
似乎需要一个NoSQL之类的大存储存储你的日志。然后,再使用Hadoop之类进行大数据分析。

javawebkaifa
2012-10-10 18:52
我当时也说了,要hadoop,但别人说,这个只给你一台机器,就是 8g 双核cpu,要搭建hadoop来运行不现实。看是不是用多线程的方式来进行处理。

banq
2012-10-10 19:10
首先需要用数据库存储你的日志,至于如何排序等简单数据操作,数据库都提供。

至于需要多少机器,取决于你每天日志数据量。

最原始的是,将日志文件合并后,用LINUX SH或python脚本完成统计。

alexwoo
2012-10-11 20:18
> 现在需要对这500G的日志继续分析,找到出现IP最多的日志记录。

找到哪一个IP的记录最多?

如果没理解错的话,500G的日志并不算大啊,最传统的处理就行了。

[该贴被alexwoo于2012-10-11 20:20修改过]

猜你喜欢
2Go 1 2 下一页