#spark

      更多分类

Trivagoj为何从Hive/SQL迁移到PySpark/Python?

18-12-17 2 banq

Trivago是一个以拍卖为基础的市场。广告商可以通过拍卖购买指定酒店的查询结果页面中的重要位置,trivago的拍卖机制将几个因素:价格、点击率和出价本身,以确定拍卖获胜者。当您访问trivago... 详细

优步是如何实现打车行程的会话状态机?

18-12-06 130 1 banq

优步如何实时根据打车者的要求有效匹配到对应司机?这项挑战算法归为如何收集,存储和逻辑排列数据的问题。 通过预测打车者的需求,能够确保他只要很短的等待时间就能打到车,同时通过考虑流量和其他因素使司机... 详细

Cassandra+Akka+Spark分布式机器学习架构

15-10-31 3947 3 banq

目前基于Mesos的 Spark, Akka, Cassandra 和 Kafka (简称SMACK)架构将机器学习 大数据分析 快数据实时流处理和集群自动化管理结合一起,形成大数据领域的主流架构。... 详细

Apche Spark的命运

15-08-20 1842 1 banq

Spark取代了MapReduce,同样逻辑,什么会取代Spark? Apache Spark is doomed 文章提出了自己的看法。 Spark将数据装入内存in-memory, 比Ma... 详细

Apache Ignite 与 Apache Spark比较

15-05-04 7006 3 banq

Apache Ignite是一个内存In-memory文件系统和缓存的分布式Data Fabric平台,其与著名的大数据处理框架Apache Spark的区别如下: 1.主要区别是Ignite是一个... 详细

Tungsten大幅度提升Spark性能

15-04-29 263 banq

Tungsten项目能够大幅度提高Spark的内存和CPU使用效率,使其性能接近于硬件的极限,主要体现以下几点: 1.内存管理和二进制处理,充分利用应用程序语义明确管理内存,消除JVM对象模型和垃圾收... 详细

Hadoop与Spark等数据处理系统哪个是最好的?

15-04-28 2 1754 2 banq

如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,... 详细

Spark只比Hadoop快19% ?

15-03-20 1 3490 5 banq

Spark比Hadoop并没有想象得那么快,以前号称快100倍,实际只快19%,这是 Making Sense of Performance in Data Analytics Frameworks.... 详细

什么样的算法可以用Spark重写

14-12-05 1 984 1 lovemelovemycode

Spark MLlib是一个机器学习的工具,事项了协同过滤、线性回归、支持向量机等若干算法。可是气象上还有很多算法没有事项。比如说常用的插值算法:IDW,克里金,Cressman,样条。 1 我想用... 详细

Mazerunner是neo4J图库扩展

14-11-06 878 banq

Mazerunner 是拓展Neo4j图库运行大大数据图计算算法,支持HDFS 和 Apache Spark. 使用Apache Spark和neo4j大数据图分析 介绍其详细使用。 Ma... 详细

Storm与Spark Streaming比较

14-08-05 1 36216 20 banq

Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。 处理模型,延迟 虽然这两个框架都提供可扩展性和容错性,它们根本的... 详细

Apache Spark: 是大数据领域的下一个大家伙吗?

14-01-20 4029 3 banq

Spark是一个基于内存in-memory数据处理平台,兼容于Hadoop 数据源但是比Hadoop MapReduce运行得快得多。.特别适合于机器学习处理。 该文作者观察到Apache S... 详细

共有 12