大数据架构指南 - 第13页

Mazerunner是neo4J图库扩展

Mazerunner 是拓展Neo4j图库运行大大数据图计算算法，支持HDFS 和 Apache Spark.

建立机器学习实战系统的十大经验教训

这是来自Netflix机器学习系统的构建经验，Netflix是机器学习应用实战的先驱之一，曾经设立百万奖金用于奖励影片推荐系统算法。最近他们又公布了在机器学习系统的

H2O是开源基于大数据的机器学习库包

H2O能够让Hadoop做数学，H2O是基于大数据的统计分析机器学习和数学库包，让用户基于核心的数学积木搭建应用块代码，采取类似R语言 Excel或JSON等熟悉接口，

分解和组合的机器学习

转发自分解和组件的抽象方法人的这种分解和组合思维能力也可通过机器学习算法进行模拟，再配合大数据进行训练，人工智能也就应运而生。

京东技术开放日的PPT下载

京东技术开发日历期PPT和视频文档下载，点击标题进入百度网盘下载。大数据机器学习方面：京东大数据分析与创新应用-邢志峰京东大数据基础架构和实践--王彦明

Apache Kafka简单介绍 - 解道Jdon

本文将首先简要介绍Kafka卡夫卡，通过一个示例场景演示其一些独特的功能。帮助大家初步了解其主要特点。(点击标题)

Storm与Spark Streaming比较

Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和

质疑Lambda架构

Google和Twitter刚发布它们综合实时流处理和批处理的Lambda架构，LinkedIn的Jay Kreps则对这种架构提出了质疑，指出实时处理和批处理其实是两种范式，将它们硬生生捆绑在一起会犯ORM框架一样的错误，并且提出一种类似EventSourcing或CQRS架构思路只要使用一个实时

Twitter基于时间流的聚合设计

谷歌在其google I/O的大会上发布了使用Pipeline统一了大数据批处理和流处理，Twitter在其博客也发布了类似平台：

Google使用Pipeline统一了大数据批处理和流处理

Google I/O大会上,Google宣布使用其google Cloud Dataflow替代原来的MapReduce，很多人误解为MR没有用了，以为MR被新的技术替代，其实并不是这回事。目前大数据处理领域主要有MR代表的批处理和Storm代表的流式实

MapDB：JVM堆Heap之外的磁盘存储数据库

MapDB是一个可以持久化内存In-memory的数据库，可作为内存存储的后备，如果数据超过内存大小，可通过MapDB存储到磁盘上(不过很多缓存产品可以激活这个功能) MapDB特点：并发- MapDB

Apache Spark: 是大数据领域的下一个大家伙吗？

Spark是一个基于内存in-memory数据处理平台，兼容于Hadoop 数据源但是比Hadoop MapReduce运行得快得多。.特别适合于机器学习处理。该文作者观察到Apache Spark 最近发

Twitter开源其MapReduce流框架: Summingbird

summingbird是一个基于Apache2的开源项目，它是一个大规模数据系统，能够以批处理模式(Had

大数据的Reactive之道

这是一篇可能来自股票高频交易的系统架构文章，主要讲解如何基于EventSourcing建立一个高性能大数据的实时查询系统。当前IT正在从基于查询的面向批处理系统转向实时更新系统，虽然目前这只是发生在金融领域(

纽约证券交易所的实时Map/Reduce大数据分析

Streaming Map/Reduce on Wall Street | Concurrent M</

Akka的产品化应用经验分享

ScalaStorm的作者EvanChan在其Akka in Production: Our Story

Akka与Storm对比

Akka vs Storm 简短的描述一下这两个系统： Storm是一个分

Storm在spider.io应用的经验教训

Storm at spider.io - London Storm