大数据分析的具体处理??

大家好:有这样一个问题怎么处理分析了,大致情况如下:
一个组集群服务器(server1 ,server2 ,server3 ,server3),每天产生很产生很多日志(记录了IP,时间。。。),4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析,找到出现IP最多的日志记录。

要怎么分析了,有条件的,给一台机器给你 8G内存 双核CPU ,问你怎么利用这台服务器来分析上面所说的情况??、有什么好的解决方案,我听了后,觉得就是分批处理,使用消息通信机制,我很喜欢研究这个问题,希望给大家讨论下????

似乎需要一个NoSQL之类的大存储存储你的日志。然后,再使用Hadoop之类进行大数据分析。
我当时也说了,要hadoop,但别人说,这个只给你一台机器,就是 8g 双核cpu,要搭建hadoop来运行不现实。看是不是用多线程的方式来进行处理。
首先需要用数据库存储你的日志,至于如何排序等简单数据操作,数据库都提供。

至于需要多少机器,取决于你每天日志数据量。

最原始的是,将日志文件合并后,用LINUX SH或python脚本完成统计。

> 现在需要对这500G的日志继续分析,找到出现IP最多的日志记录。
找到哪一个IP的记录最多?
如果没理解错的话,500G的日志并不算大啊,最传统的处理就行了。
[该贴被alexwoo于2012-10-11 20:20修改过]
是,500G的日志是不大,其实banq也说了,我心里也有点想法,按照你的想法,你怎么解决了,具体的思想?
其实我还想问一个问题,也是关于技术实现的,我在看有些开源框架的时候,特别是说集群,就拿hbase来说吧, Hmaster(1)-----HREgionServer(N),在集群管理的时候,一个HREgionServer 管理多个HREgion,一个HREgion有Hstore Hlog Hmemcache。
如果一个HREgionServer不可以提供服务了,资料都说,可以利用Hlog来进行恢复数据到另外的HREgionServer,我一直不明白的就是,Hlog怎么恢复数据,怎么记录这样庞大的数据机制,怎么恢复的数据的机制??这个Hlog记录了什么信息库恢复?恢复的数据怎么分析判断?我想了下,其实我们在平时项目日志输出的时候,不是有异常发生吗?这个日志和Hlog日志的一个级别的意思吗?我很疑惑??
[该贴被javawebkaifa于2012-10-12 09:39修改过]
提供一种思路,请参考:
1 利用Python脚本将必要的字段入库,需要插入到N多张表中,一张表可以有 1000W条数据;
2 从每张表中获得最多访问的IP、IP访问数量,结果插入到一张结果表r中;
3 SELECT ip,SUM(pv) FROM r GROUP BY ip ORDER BY SUM(pv) DESC LIMIT 1
>是,500G的日志是不大,其实banq也说了,我心里也有点想法,按照你的
>想法,你怎么解决了,具体的思想?

我的思想就是尽可能的简化问题。
比如就你的这个需求来说,获取统计最多的IP的话,
你有没有注意到你们的系统有多少独立IP的访问,
我估计这个数不会很大,
那么8G的内存足够用来做一张“IP->访问量”的HASH表,
那么你要做的就是遍历日志文件,更新HASH表,最后找到最大值即可。


当然,像banq兄等说的用数据库也是个办法,但我觉得杀鸡焉用牛刀。

补充一下,最大值可以在更新hash表的同时记录。当你的日志遍历完,最大值也就出来了。再优化下,也许不用遍历完,最大值也可能出来了。
[该贴被alexwoo于2012-10-13 09:49修改过]

建立一个单机版的HADOOP,把日志上传至HDFS,再写一个MAPREDUCE程序进行分析即可,挺简章的。