#Java大数据架构文章排行榜

如何面对后Hadoop时代?

22-02-18 750 1 banq

Apache Hadoop 作为一个完整的开源大数据套件,在过去十年深刻影响了整个大数据世界。然而,随着各种新兴技术的发展,Hadoop生态系统发生了翻天覆地的变化。 2021 年 4 月,A... 详细

Java大型数据集合实现并行加速处理几种方法 - DZone

22-05-03 252 2 banq

在这篇文章中,一个非常简单的转换操作将被应用于一个大型的Java数据集合。 转换操作 对于转换操作,我们定义了一个函数接口。它只是接收一个R类型的元素,应用一个转换操作,并返回一个S类型的转... 详细

Airbyte如何使用Temporal扩展工作流程编排?

22-04-15 226 1 banq

Airbyte 的作用是提供一种在源和目标之间执行数据同步的简单方法。工作流程编排很重要,因为它确保数据按照客户指定的频率同步。 在本文中,我们将讨论能够支持 Airbyte 数据同步的编排器所必需... 详细

使用Kafka分区扩展Spring Batch大数据调度批处理 – Arnold

22-03-31 165 1 banq

假设有一个您需要定期运行的流程,例如一天结束 (EOD)。假设这个流程中需要处理的数据量在不断增加。 最初,你可以做一个非常简单的 Spring 调度(或者 Quartz 或者你有什么),它只执行一... 详细

Pinterest使用MemQ、Singer和Kafka优化大数据摄取

22-05-06 110 banq

在 Pinterest,Logging Platform 团队维护着每天摄取数 TB 数据的数据摄取基础设施的骨干。 MemQ:使用 Netty 实现内存高效的批量数据交付 MemQ 是... 详细

Apache Wayang :跨平台数据处理系统

22-03-18 182 banq

Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台... 详细

Netflix万亿级实时数据基础设施的四个创新阶段

22-03-04 259 banq

徐振中于201 年加入 Netflix,担任实时数据基础 架构 团队的创始工程师,后来领导了流处理引擎团队。 他分享了他的团队的主要成就: 在 Netflix 的所有组织中将流数据用例从 ... 详细

Spark和Hadoop之间的主要技术差异和选择

22-03-02 304 banq

Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它... 详细

Apache Druid是基于事件的亚秒级的万亿行响应的开源数据库

22-02-23 302 banq

Netflix 使用开源 Druid 分析数据库来了解和量化用户设备如何处理浏览和播放。   一家名为 Metamarkets 的广告技术公司最初于 2011 年将 Druid 设计为分布式实时数据... 详细

为什么 LinkedIn 改变了他们的数据分析技术堆栈 - Quastor

22-01-20 388 banq

LinkedIn 之前使用Teradata 第三方专有平台进行数据分析技术堆栈,这种方法导致了扩展问题,并使系统难以发展,LinkedIn 转而使用开源软件和 Hadoop 生态系统。 St... 详细

五十种大数据分析工具和软件

22-01-18 995 banq

数据也以不同的格式存在,如结构化数据、半结构化数据和非结构化数据。大数据分析是一个用于提取有意义的见解的过程,例如隐藏的模式、未知的相关性、市场趋势和客户偏好。大数据分析提供了各种优势——它可以用于... 详细

Hadoop的故事

22-01-18 473 banq

今天 云原生 技术的大数据中心取代了 Hadoop ,Kubernetes 取代了 YARN 作为工作负载编排器,亚马逊S3 兼容的对象存储取代了 HDFS 来存储海量数据。但是在 2011... 详细

使用Rustlang的Async Tokio运行时处理CPU密集型任务

22-01-17 585 banq

Rust 内置了对 异步 ( async) 编程模型的支持,类似于 JavaScript 等语言。 要充分利用多核和异步 I/O,必须使用运行时,虽然 Rust 社区有多种替代方案,但 Tok... 详细

数据湖+数据仓库 = 数据湖库架构

22-01-13 552 banq

传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这... 详细

未来Hadoop还会有生命吗?

22-01-08 495 banq

在过去的几年里,Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口,想知... 详细

共有 1981 2 3 4 ... 14 下一页