大数据架构指南 - 第12页

工程师不应该写ETL：建立高效率数据科学部门指南

大多数公司将他们的数据科学部门分为3组：数据科学家：那些“比统计学家更好的工程师和比工程师更好的统计学家”的人。“思想家”。数据工程师：这些人构建管道，为数据科学家提供数据，并从数据科学家那里获取想法并实施它们。“实干家”。基础设施工程师：是维护Hado

Map/Reduce的形象解释图

优步大数据平台处理100多PB数据却只有分分钟延迟！

优步致力于在全球市场上提供更安全，更可靠的运输服务。为实现这一目标，优步在很大程度上依赖于在各个层面制定数据驱动的决策，从预测高流量事件期间的需求到识别到解决我们的驾驶员 - 合作伙伴注册流程中的瓶颈。随着时间的推移，更多要求洞察力的分析需求导致超过100PB的分析数据，这些都需要通过基于H

Apache Hadoop管理的23个技巧

本文由Renata Ghisloti Duarte Souza Gra撰写。在这篇文章中，我将分享我在使用Apache Hadoop环境多年后学到的一些技巧。这里的经验主要考虑了Apache Hadoop 2.9版本，但它可以肯定地扩展到其他类似

使用Apache Flink和Apache Ignit进行数据流分析

在本文中，我们将讨论如何使用Apache Flink和Apache Ignite构建数据流应用程序。构建数据流应用程序可以以优化和容错的方式将大量有限和无限量的数据提取到Ignite集群中。数据摄取率非常高，每秒可以扩展到数百万个事件。 Apache Ig

服务与数据之争

SOA是面向服务的架构，大数据是处理大规模数据，这两个门派其实还是有很大区别的。服务是一种对象化概念，一个服务包含很多函数方法，基于服务的治理从服务注册发现集成路由和流程; 数据处理从函数式编程到数据流。

JVM热身工具HotTub有助于大数据应用性能提升

java虚拟机（JVM）是现代分布式计算的一个重要组成部分。它是大数据的应用程序 Spark, HDFS, Cassandra和 Hive的平台。而JVM提供了“一次编写，到处运行”平台独立性是有代价的。JVM需要时间“热身”，也就是加载类，解释字节码等等。对于一个长期运行的Tomcat服务器这段

Scala的升起和下落

Scala是如何诞生？如何成功？又是如何衰退？ 5年前，Scala似乎像编程语言中的下一件大事，因为它优雅地在一个面向对象范式中同时激活函数式编程，今天，Scala的人气似乎是在衰落，像LinkedIn和Yammer等公司抛弃了它。TIOBE指数（www.

机器学习将会是新的SQL

随着Google开源机器学习框架Tensorflow，从大数据处理Hadoop和Spark流行，机器学习将会替代SQL产生数据领域革命。今天的大量数据都是保存在自1980年代以来由Oracle、Teradata,IBM主导的关系数据库中， SQL迅速成为

Python用于数据科学和Web开发的比较

本文比较了Python在数据科学机器学习领域和Web开发领域的优缺点，最后推荐在数据科学领域使用Python是一个最好的选择。 Python语言成为数据科学领域的流行语言不只仅仅因为大数据公司采用它，还因为很多该领域的起步教学也是使用它，Python语言已

Cassandra+Akka+Spark分布式机器学习架构

目前基于Mesos的 Spark, Akka, Cassandra 和 Kafka (简称SMACK)架构将机器学习大数据分析快数据实时流处理和集群自动化管理结合一起，形成大数据领域的主流架构。数据分为快数据和大数据；快数据包括相关的最新信息以及提

Apche Spark的命运

Spark取代了MapReduce，同样逻辑，什么会取代Spark? Ap

比Storm更快的Twitter Heron

Tiwtter公布了其新型大数据实时处理架构Heron，Tiwtter每天数十亿的事件数据，过去主要使用Apache Storm进行分析处理，现在随着数据量增加等不断演进，他们设计了一个新的系统Heron，充分兼容于Storm的API的实时分析平台。一个

实时流处理框架Apache Flink简介

如今流处理越来越流行，例如Apache Kafka, Apache Samza, Apache Storm, Apache Spark的Streaming模块等等，云服务还有类似Google Cloud Dataflow。

Apache Ignite 与 Apache Spark比较

Apache Ignite是一个内存In-memory文件系统和缓存的分布式Data Fabric平台，其与著名的大数据处理框架Apache Spark的区别如下: 1.主要区别是Ignite是一个in-memory内存计算系统，是将内存RAM作为首要存储

Hadoop与Spark等数据处理系统哪个是最好的？

如今我们拥有广泛的数据处理系统选择：Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等，这些不同框架的最佳性能其实高度依赖于高阶的工作流程，其次，没有某个单个系统总是会比其他系统性能高，也就是说，几乎每个系统都有自己特定场景下的最好性能表现。</

Spark只比Hadoop快19% ？

Spark比Hadoop并没有想象得那么快，以前号称快100倍，实际只快19%，这是

著名风投公司A16Z看好的16个未来软件相关领域

A16Z是风投Andreessen Horowitz公司简称，日前在他们网站上刊登他们看好的16个与软件计算机相关的领域:16 Things | Andreess