#ApacheSpark大数据工具

Apache Spark Dataframe Join语法教程

19-01-08 4089 5 banq

始终考虑将RDD转换为Dataframe数据帧,执行请求的操作并保存结果......这是节省时间最多的方法。那么让我们深入研究Dataframe数据帧测试 数据workers: 1,... 详细

Apache Ignite 与 Apache Spark比较

15-05-04 7967 3 banq

Apache Ignite是一个内存In-memory文件系统和缓存的分布式Data Fabric平台,其与著名的大数据处理框架Apache Spark的区别如下: 1.主要区别是Ignite是一个... 详细

Cassandra+Akka+Spark分布式机器学习架构

15-10-31 4668 3 banq

目前基于Mesos的 Spark, Akka, Cassandra 和 Kafka (简称SMACK)架构将机器学习 大数据分析 快数据实时流处理和集群自动化管理结合一起,形成大数据领域的主流 架... 详细

Apche Spark的命运

15-08-20 2121 1 banq

Spark取代了MapReduce,同样逻辑,什么会取代Spark? Apache Spark is doomed 文章提出了自己的看法。 Spark将数据装入内存in-memory, 比Ma... 详细

优步是如何实现打车行程的会话状态机?

18-12-06 667 1 banq

优步如何实时根据打车者的要求有效匹配到对应司机?这项挑战算法归为如何收集,存储和逻辑排列数据的问题。 通过预测打车者的需求,能够确保他只要很短的等待时间就能打到车,同时通过考虑流量和其他因素使司机... 详细

只需10分钟即可在Deep Java Library中使用Spark进行深度学习 - Qing Lan

20-06-12 1531 banq

Apache Spark是一种广泛使用的数据处理技术,并且被机器学习用户大量使用。Spark可用于对产品进行分类,预测需求并个性化建议。尽管Spark支持多种编程语言,但首选的Spark SDK是为... 详细

Apache Spark编程教程

19-01-12 1165 banq

Apache Spark是一个分布式计算平台,在当今非常流行,特别是因为与Hadoop mapreduce相比性能要好得多,Spark比基于磁盘的hadoop mapreduce 快了近100倍。让... 详细

以Kafka事件中心+Spark为核心构建新一代数据湖平台 - DZone

21-05-29 156 banq

几个月前我一直在考虑撰写“什么是新的企业数据平台?” 在过去的几年中,我一直是新数据平台的数据解决方案 架构 师和产品负责人。我学到了很多东西,我想与社区分享我的经验。 当我们设计和构建数据平台... 详细

Hazelcast IMDG和Spark 2实现大数据项目 — tomask79

19-10-15 541 banq

将HBase中的数据放入Hazelcast IMDG,从Spark以RDD方式访问,这是一个非常广泛使用的解决方案。 先决条件 Spring Boot演示应用程序(入门版1.5.9),其数据存... 详细

Apache Spark:数据框,数据集和RDD之间的区别 - Baeldung

20-10-21 455 banq

Apache Spark 是一个快速的分布式数据处理系统。它执行内存中的数据处理,并使用内存中的缓存和优化的执行,从而实现快速性能。它为流行的编程语言(例如Scala,Python,Java和R... 详细

Trivagoj为何从Hive/SQL迁移到PySpark/Python?

18-12-17 383 banq

Trivago是一个以拍卖为基础的市场。广告商可以通过拍卖购买指定酒店的查询结果页面中的重要位置,trivago的拍卖机制将几个因素:价格、点击率和出价本身,以确定拍卖获胜者。当您访问trivago... 详细

Apache Spark 2一些使用案例

19-01-08 436 banq

1. registerTempTable 与createOrReplaceTempView 以下面数据JSON为案例people.json: {      "name" . 详细

Apache Spark SQL的高级Join连接技术

19-01-08 541 banq

让我们有以下输入样本数据: people.txt -> saved at HDFS under /tests/people.txt 1,Jerry,man,USA 2,Cathy... 详细

缓存Apache Spark RDD - 性能调优

19-01-08 519 banq

有时您需要多次处理RDD,而不是一次操作。这带来了一个主要问题...... Spark 确实总是会在磁盘上找到数据。但是你需要处理性能问题。 RDD带有cache()和persist()方法,其中... 详细

Apache Spark和Hive有用的功能

19-01-08 384 banq

尝试Spark和Apache Hive的一些方法和功能。 1. Spark和countByValue函数 让我们遵循以下RDD值: var rddVal =... 详细

共有 221 2 下一页