大数据分析的具体处理？？

大家好：有这样一个问题怎么处理分析了，大致情况如下：
一个组集群服务器（server1 ，server2 ，server3 ，server3），每天产生很产生很多日志（记录了IP，时间。。。），4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析，找到出现IP最多的日志记录。

要怎么分析了，有条件的，给一台机器给你 8G内存双核CPU ,问你怎么利用这台服务器来分析上面所说的情况？？、有什么好的解决方案，我听了后，觉得就是分批处理，使用消息通信机制，我很喜欢研究这个问题，希望给大家讨论下？？？？

2012-10-10 14:47

似乎需要一个NoSQL之类的大存储存储你的日志。然后，再使用Hadoop之类进行大数据分析。

2012-10-10 18:52

我当时也说了，要hadoop,但别人说，这个只给你一台机器，就是 8g 双核cpu,要搭建hadoop来运行不现实。看是不是用多线程的方式来进行处理。

2012-10-10 19:10

首先需要用数据库存储你的日志，至于如何排序等简单数据操作，数据库都提供。

至于需要多少机器，取决于你每天日志数据量。

最原始的是，将日志文件合并后，用LINUX SH或python脚本完成统计。

2012-10-11 20:18

> 现在需要对这500G的日志继续分析，找到出现IP最多的日志记录。
找到哪一个IP的记录最多？
如果没理解错的话，500G的日志并不算大啊，最传统的处理就行了。
[该贴被alexwoo于2012-10-11 20:20修改过]

2012-10-12 08:51

是，500G的日志是不大，其实banq也说了，我心里也有点想法，按照你的想法，你怎么解决了，具体的思想？

2012-10-12 09:37

其实我还想问一个问题，也是关于技术实现的，我在看有些开源框架的时候，特别是说集群，就拿hbase来说吧， Hmaster(1)-----HREgionServer(N),在集群管理的时候，一个HREgionServer 管理多个HREgion，一个HREgion有Hstore Hlog Hmemcache。
如果一个HREgionServer不可以提供服务了，资料都说，可以利用Hlog来进行恢复数据到另外的HREgionServer，我一直不明白的就是，Hlog怎么恢复数据，怎么记录这样庞大的数据机制，怎么恢复的数据的机制？？这个Hlog记录了什么信息库恢复？恢复的数据怎么分析判断？我想了下，其实我们在平时项目日志输出的时候，不是有异常发生吗？这个日志和Hlog日志的一个级别的意思吗？我很疑惑？？
[该贴被javawebkaifa于2012-10-12 09:39修改过]

2012-10-12 11:32

提供一种思路，请参考：
1 利用Python脚本将必要的字段入库，需要插入到N多张表中，一张表可以有 1000W条数据；
2 从每张表中获得最多访问的IP、IP访问数量，结果插入到一张结果表r中；
3 SELECT ip,SUM(pv) FROM r GROUP BY ip ORDER BY SUM(pv) DESC LIMIT 1

2012-10-13 09:43

>是，500G的日志是不大，其实banq也说了，我心里也有点想法，按照你的
>想法，你怎么解决了，具体的思想？

我的思想就是尽可能的简化问题。
比如就你的这个需求来说，获取统计最多的IP的话，
你有没有注意到你们的系统有多少独立IP的访问，
我估计这个数不会很大，
那么8G的内存足够用来做一张“IP->访问量”的HASH表，
那么你要做的就是遍历日志文件，更新HASH表，最后找到最大值即可。

当然，像banq兄等说的用数据库也是个办法，但我觉得杀鸡焉用牛刀。

补充一下，最大值可以在更新hash表的同时记录。当你的日志遍历完，最大值也就出来了。再优化下，也许不用遍历完，最大值也可能出来了。
[该贴被alexwoo于2012-10-13 09:49修改过]

2013-02-03 13:05

建立一个单机版的HADOOP，把日志上传至HDFS，再写一个MAPREDUCE程序进行分析即可，挺简章的。

大数据分析的具体处理？？

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道