• Google和Twitter刚发布它们综合实时流处理和批处理的Lambda架构,LinkedIn的Jay Kreps则对这种架构提出了质疑,指出实时处理和批处理其实是两种范式,将它们硬生生捆绑在一起会犯ORM框架一样的错误,并且提出一种类似EventSourcing或CQRS架构思路只要使用一个实时
  • 如今流处理越来越流行,例如Apache Kafka, Apache Samza, Apache Storm, Apache Spark的Streaming模块等等,云服务还有类似Google Cloud Dataflow。 icon
  • Spark比Hadoop并没有想象得那么快,以前号称快100倍,实际只快19%,这是 icon
  • Streaming Map/Reduce on Wall Street | Concurrent M</ icon
  • 通过大数据分析,可以实现推荐机制,比如对电视观众浏览视频的大数据跟踪分析,可以得出点播排行榜 分析出用户的观看喜好习惯,并投其所好推荐一些影片等等。在电子商务网站,推荐功能就变成了导购功能。文章: icon
  • Google I/O大会上,Google宣布使用其google Cloud Dataflow替代原来的MapReduce,很多人误解为MR没有用了,以为MR被新的技术替代,其实并不是这回事。 目前大数据处理领域主要有MR代表的批处理和Storm代表的流式实 icon
  • 如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,没有某个单个系统总是会比其他系统性能高,也就是说,几乎每个系统都有自己特定场景下的最好性能表现。</ icon
  • H2O能够让Hadoop做数学,H2O是基于大数据的统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口, icon
  • Stack Exchange/Stack Overflow能够基于用户回答问题的历史提示他能够回答的问题,亚马逊能够基于你之前购买历史推荐产品给你。那么这后面的推荐机制是如何实现的? icon
  • Spark取代了MapReduce,同样逻辑,什么会取代Spark? Ap icon
  • cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language P icon
  • 大家好:有这样一个问题怎么处理分析了,大致情况如下: 一个组集群服务器(server1 ,server2 ,server3 ,server3),每天产生很产生很多日志(记录了IP,时间。。。),4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析,找到出现IP最 icon
  • 本文由Renata Ghisloti Duarte Souza Gra撰写。 在这篇文章中,我将分享我在使用Apache Hadoop环境多年后学到的一些技巧。这里的经验主要考虑了Apache Hadoop 2.9版本,但它可以肯定地扩展到其他类似 icon
  • 转发自分解和组件的抽象方法 人的这种分解和组合思维能力也可通过机器学习算法进行模拟,再配合大数据进行训练,人工智能也就应运而生。 icon
  • statsd-jvm-profiler是一个JVM代理分析器,它用来专门分析Hadoop的job任务,但是也可以用于任何JVM进程。 icon
  • icon
  • 首先安装Hadoop cluster版本:$ curl -O http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz$ cd /usr/local$ tar xzvf /path/to/hadoop-0.20 icon