Hadoop大数据教程 - 第10页

Lambda架构

sentric » Lambda Architecture, Part 1 H

使用Hadoop和 Mahout实现推荐引擎

通过大数据分析，可以实现推荐机制，比如对电视观众浏览视频的大数据跟踪分析，可以得出点播排行榜分析出用户的观看喜好习惯，并投其所好推荐一些影片等等。在电子商务网站，推荐功能就变成了导购功能。文章：

hadoop的Linux下简单安装步骤

首先安装Hadoop cluster版本：$ curl -O http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz$ cd /usr/local$ tar xzvf /path/to/hadoop-0.20

Apache Hadoop管理的23个技巧

本文由Renata Ghisloti Duarte Souza Gra撰写。在这篇文章中，我将分享我在使用Apache Hadoop环境多年后学到的一些技巧。这里的经验主要考虑了Apache Hadoop 2.9版本，但它可以肯定地扩展到其他类似

Apche Spark的命运

Spark取代了MapReduce，同样逻辑，什么会取代Spark? Ap

实时流处理框架Apache Flink简介

如今流处理越来越流行，例如Apache Kafka, Apache Samza, Apache Storm, Apache Spark的Streaming模块等等，云服务还有类似Google Cloud Dataflow。

Hadoop与Spark等数据处理系统哪个是最好的？

如今我们拥有广泛的数据处理系统选择：Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等，这些不同框架的最佳性能其实高度依赖于高阶的工作流程，其次，没有某个单个系统总是会比其他系统性能高，也就是说，几乎每个系统都有自己特定场景下的最好性能表现。</

Spark只比Hadoop快19% ？

Spark比Hadoop并没有想象得那么快，以前号称快100倍，实际只快19%，这是

针对Hadoop的分析工具：statsd-jvm-profiler

statsd-jvm-profiler是一个JVM代理分析器，它用来专门分析Hadoop的job任务，但是也可以用于任何JVM进程。

H2O是开源基于大数据的机器学习库包

H2O能够让Hadoop做数学，H2O是基于大数据的统计分析机器学习和数学库包，让用户基于核心的数学积木搭建应用块代码，采取类似R语言 Excel或JSON等熟悉接口，

分解和组合的机器学习

转发自分解和组件的抽象方法人的这种分解和组合思维能力也可通过机器学习算法进行模拟，再配合大数据进行训练，人工智能也就应运而生。

质疑Lambda架构

Google和Twitter刚发布它们综合实时流处理和批处理的Lambda架构，LinkedIn的Jay Kreps则对这种架构提出了质疑，指出实时处理和批处理其实是两种范式，将它们硬生生捆绑在一起会犯ORM框架一样的错误，并且提出一种类似EventSourcing或CQRS架构思路只要使用一个实时

Google使用Pipeline统一了大数据批处理和流处理

Google I/O大会上,Google宣布使用其google Cloud Dataflow替代原来的MapReduce，很多人误解为MR没有用了，以为MR被新的技术替代，其实并不是这回事。目前大数据处理领域主要有MR代表的批处理和Storm代表的流式实

纽约证券交易所的实时Map/Reduce大数据分析

Streaming Map/Reduce on Wall Street | Concurrent M</

Hadoop的HDFS 入门使用

使用Windows Azure HDInsight, Hadoop和Mahout机器学习建立一个推荐引擎

Stack Exchange/Stack Overflow能够基于用户回答问题的历史提示他能够回答的问题，亚马逊能够基于你之前购买历史推荐产品给你。那么这后面的推荐机制是如何实现的？

使用Mahout实现自然语言处理

cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language P

大数据分析的具体处理？？

大家好：有这样一个问题怎么处理分析了，大致情况如下：一个组集群服务器（server1 ，server2 ，server3 ，server3），每天产生很产生很多日志（记录了IP，时间。。。），4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析，找到出现IP最