#spark

      更多分类

Apache Spark编程教程

19-01-12 277 banq

Apache Spark是一个分布式计算平台,在当今非常流行,特别是因为与Hadoop mapreduce相比性能要好得多,Spark比基于磁盘的hadoop mapreduce 快了近100倍。让... 详细

缓存Apache Spark RDD - 性能调优

19-01-08 45 banq

有时您需要多次处理RDD,而不是一次操作。这带来了一个主要问题...... Spark 确实总是会在磁盘上找到数据。但是你需要处理性能问题。 RDD带有cache()和persist()方法,其中... 详细

Apache Spark Dataframe Join语法教程

19-01-08 835 1 banq

始终考虑将RDD转换为Dataframe数据帧,执行请求的操作并保存结果......这是节省时间最多的方法。那么让我们深入研究Dataframe数据帧测试 数据workers: 1,... 详细

Apache Spark和Hive有用的功能

19-01-08 42 banq

尝试Spark和Apache Hive的一些方法和功能。 1. Spark和countByValue函数 让我们遵循以下RDD值: var rddVal =... 详细

Apache Spark SQL的高级Join连接技术

19-01-08 56 banq

让我们有以下输入样本数据: people.txt -> saved at HDFS under /tests/people.txt 1,Jerry,man,USA 2,Cathy... 详细

Apache Spark 2一些使用案例

19-01-08 58 banq

1. registerTempTable 与createOrReplaceTempView 以下面数据JSON为案例people.json: {      "name" . 详细

Trivagoj为何从Hive/SQL迁移到PySpark/Python?

18-12-17 65 banq

Trivago是一个以拍卖为基础的市场。广告商可以通过拍卖购买指定酒店的查询结果页面中的重要位置,trivago的拍卖机制将几个因素:价格、点击率和出价本身,以确定拍卖获胜者。当您访问trivago... 详细

优步是如何实现打车行程的会话状态机?

18-12-06 243 1 banq

优步如何实时根据打车者的要求有效匹配到对应司机?这项挑战算法归为如何收集,存储和逻辑排列数据的问题。 通过预测打车者的需求,能够确保他只要很短的等待时间就能打到车,同时通过考虑流量和其他因素使司机... 详细

Cassandra+Akka+Spark分布式机器学习架构

15-10-31 4069 3 banq

目前基于Mesos的 Spark, Akka, Cassandra 和 Kafka (简称SMACK)架构将机器学习 大数据分析 快数据实时流处理和集群自动化管理结合一起,形成大数据领域的主流架构。... 详细

Apche Spark的命运

15-08-20 1893 1 banq

Spark取代了MapReduce,同样逻辑,什么会取代Spark? Apache Spark is doomed 文章提出了自己的看法。 Spark将数据装入内存in-memory, 比Ma... 详细

Apache Ignite 与 Apache Spark比较

15-05-04 7158 3 banq

Apache Ignite是一个内存In-memory文件系统和缓存的分布式Data Fabric平台,其与著名的大数据处理框架Apache Spark的区别如下: 1.主要区别是Ignite是一个... 详细

Tungsten大幅度提升Spark性能

15-04-29 294 banq

Tungsten项目能够大幅度提高Spark的内存和CPU使用效率,使其性能接近于硬件的极限,主要体现以下几点: 1.内存管理和二进制处理,充分利用应用程序语义明确管理内存,消除JVM对象模型和垃圾收... 详细

Hadoop与Spark等数据处理系统哪个是最好的?

15-04-28 2 1821 2 banq

如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,... 详细

Spark只比Hadoop快19% ?

15-03-20 1 3575 5 banq

Spark比Hadoop并没有想象得那么快,以前号称快100倍,实际只快19%,这是 Making Sense of Performance in Data Analytics Frameworks.... 详细

什么样的算法可以用Spark重写

14-12-05 1 1031 1 lovemelovemycode

Spark MLlib是一个机器学习的工具,事项了协同过滤、线性回归、支持向量机等若干算法。可是气象上还有很多算法没有事项。比如说常用的插值算法:IDW,克里金,Cressman,样条。 1 我想用... 详细

共有 181 2 下一页