数据统计技术选型

13-03-20 lovemelovemycode
最近进入一家互联网公司做数据分析,公司共有两个项目:A和B。A:40万条数据/天。B:1000万条数据/天。二者日志存储格式是每行一个JSON字符串,如{“ip”:“123.23.45.67”,“name”:“flankw”},不牵涉复杂的嵌套。

设计方案:

1 总体统计指标分为日数据、周数据、月数据、年数据;

2 A的日数据、周数据、月数据,B的日数据通过Python解析日志入Mysql ,然后通过SQL来获得统计结果;

3 A的年数据、B的周数据、月数据、年数据通过Hadoop来做,为了计算的方便,准备引入HIVE,使用HIVE QL进行查询。

问题:

1 为了使用 HIVE QL,是不是把数据存储到HIVE之前必须有一个JSON解析与转换的过程;如果是,有没有简便的方法(通过HIVE自身的配置搞定)

              

banq
2013-03-21 08:54
推荐一篇文章希望对你有帮助:

如何用Hive分析Twitter数据Analyzing Twitter Data with Hive,展示了如何将抓取的网站非结构化内容转为Hive结构数据然后进行分析。

猜你喜欢