开源真正分布式实时大数据分析仓库Druid

Druid是数据分析公司Metamarket自己使用的大数据分析工具,现在被分享到开源社区,他们相信它的潜力远远超过他们自己公司,也就是如同自己孩子长大后需要放手放飞一样。


Druid每核每秒扫描速度是33M行,可以摄取每个节点每秒10K的传入记录,通过横向扩展,支持每秒扫描26B记录的速度。

大数据分析工具越来越引起重视,比如Google的Dremel 和PowerDrill,Druid解决了大数据的实时分析问题。

著名在线视频Netflix使用Druid进行流媒体的实施监控,Netflix媒体有数十亿的流事件,需要一个高可伸缩数据存储用来进行操作报告,Druid的实时性提供了业务指标的透明性。


详细介绍

druid结合CDN 可以实时分析出热点数据,比如排行榜等,实时将热点数据比如排行榜前面的影片推送到边缘服务器,实现所谓终极智能CDN
[该贴被banq于2012-10-25 15:48修改过]

数据挖掘的组件一文谈到了目前典型架构: Hadoop, Mahout, Sqoop, Flume 和 Mongo-Hadoop Connector。

期待更详细的解说!