Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
Hadoop大数据教程
Lambda架构
sentric » Lambda Architecture, Part 1 H
质疑Lambda架构
Google和Twitter刚发布它们综合实时流处理和批处理的Lambda架构,LinkedIn的Jay Kreps则对这种架构提出了质疑,指出实时处理和批处理其实是两种范式,将它们硬生生捆绑在一起会犯ORM框架一样的错误,并且提出一种类似EventSourcing或CQRS架构思路只要使用一个实时
实时流处理框架Apache Flink简介
如今流处理越来越流行,例如Apache Kafka, Apache Samza, Apache Storm, Apache Spark的Streaming模块等等,云服务还有类似Google Cloud Dataflow。
Spark只比Hadoop快19% ?
Spark比Hadoop并没有想象得那么快,以前号称快100倍,实际只快19%,这是
纽约证券交易所的实时Map/Reduce大数据分析
Streaming Map/Reduce on Wall Street | Concurrent M</
使用Hadoop和 Mahout实现推荐引擎
通过大数据分析,可以实现推荐机制,比如对电视观众浏览视频的大数据跟踪分析,可以得出点播排行榜 分析出用户的观看喜好习惯,并投其所好推荐一些影片等等。在电子商务网站,推荐功能就变成了导购功能。文章:
Google使用Pipeline统一了大数据批处理和流处理
Google I/O大会上,Google宣布使用其google Cloud Dataflow替代原来的MapReduce,很多人误解为MR没有用了,以为MR被新的技术替代,其实并不是这回事。 目前大数据处理领域主要有MR代表的批处理和Storm代表的流式实
Hadoop与Spark等数据处理系统哪个是最好的?
如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,没有某个单个系统总是会比其他系统性能高,也就是说,几乎每个系统都有自己特定场景下的最好性能表现。</
H2O是开源基于大数据的机器学习库包
H2O能够让Hadoop做数学,H2O是基于大数据的统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,
使用Windows Azure HDInsight, Hadoop和Mahout机器学习建立一个推荐引擎
Stack Exchange/Stack Overflow能够基于用户回答问题的历史提示他能够回答的问题,亚马逊能够基于你之前购买历史推荐产品给你。那么这后面的推荐机制是如何实现的?
Apche Spark的命运
Spark取代了MapReduce,同样逻辑,什么会取代Spark? Ap
使用Mahout实现自然语言处理
cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language P
大数据分析的具体处理??
大家好:有这样一个问题怎么处理分析了,大致情况如下: 一个组集群服务器(server1 ,server2 ,server3 ,server3),每天产生很产生很多日志(记录了IP,时间。。。),4台服务器会生成一个500G的大日志。现在需要对这500G的日志继续分析,找到出现IP最
Apache Hadoop管理的23个技巧
本文由Renata Ghisloti Duarte Souza Gra撰写。 在这篇文章中,我将分享我在使用Apache Hadoop环境多年后学到的一些技巧。这里的经验主要考虑了Apache Hadoop 2.9版本,但它可以肯定地扩展到其他类似
分解和组合的机器学习
转发自分解和组件的抽象方法 人的这种分解和组合思维能力也可通过机器学习算法进行模拟,再配合大数据进行训练,人工智能也就应运而生。
针对Hadoop的分析工具:statsd-jvm-profiler
statsd-jvm-profiler是一个JVM代理分析器,它用来专门分析Hadoop的job任务,但是也可以用于任何JVM进程。
Hadoop的HDFS 入门使用
hadoop的Linux下简单安装步骤
首先安装Hadoop cluster版本:$ curl -O http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz$ cd /usr/local$ tar xzvf /path/to/hadoop-0.20
上页
下页