数据统计技术选型

最近进入一家互联网公司做数据分析,公司共有两个项目:A和B。A:40万条数据/天。B:1000万条数据/天。二者日志存储格式是每行一个JSON字符串,如{“ip”:“123.23.45.67”,“name”:“flankw”},不牵涉复杂的嵌套。

设计方案:
1 总体统计指标分为日数据、周数据、月数据、年数据;

2 A的日数据、周数据、月数据,B的日数据通过Python解析日志入Mysql ,然后通过SQL来获得统计结果;

3 A的年数据、B的周数据、月数据、年数据通过Hadoop来做,为了计算的方便,准备引入HIVE,使用HIVE QL进行查询。

问题:
1 为了使用 HIVE QL,是不是把数据存储到HIVE之前必须有一个JSON解析与转换的过程;如果是,有没有简便的方法(通过HIVE自身的配置搞定)