2011年11月14日 14:21 "@
banq"的内容
问题是没有象Facebook那样对HBase有重量级的应用。 ...
今天看到Tiwtter的实时URL抓取(SpiderDuck: Twitter's Real-time URL Fetcher)是使用Cassandra的,SpiderDuck的Metadata Store: 这是一个基于Cassandra-based分布式哈希表,存储了某个URL的页面源数据和分辨率等关键信息,用于需要实时URL源数据的访问。
SpiderDuck的Cassandra-based Metadata Store 能够支持每秒10,000个请求,每个请求是典型的一个URL或20个左右小批量URL,也会处理大批量(200-300 URLs). 存储读取延迟是4-5 毫秒milliseconds, and its 99th percentile is 50-60 milliseconds.
[该贴被banq于2011-11-15 20:14修改过]


