Java批处理架构指南

     

Spring Batch中通过多线程和异步处理提高性能

46 16K

自计算机使用兴起以来,公司出于不同的目的始终依赖批处理数据,要么是在应用程序之间移动数据 (ETL),要么是进行一些需要很长时间才能实时完成的并行计算。处理大量数据的挑战始终在于如何充分利用可用的计算.

Arroyo:基于Arrow和DataFusion的新SQL引擎

94 1 4K

Arroyo 0.10 拥有一个使用 Apache Arrow 和 DataFusion 构建的全新 SQL 引擎。它更快、更小、更容易运行。这篇文章将详细介绍 Arroyo 当前的实现以及为什么会发.

高性能工作流引擎:DataBuilder与polaris

106 3K

DataBuilder 框架是一个高级逻辑执行引擎,可用于执行多步骤工作流。该引擎目前为 Flipkart 的结账系统以及诊断和其他工作流程提供支持。您应该针对以下场景查看此框架: 多步骤工作流程执行.

Spring Batch中构建自定义读取器和写入器

49 8K

在 Spring Batch 中,自定义读取器和写入器是您可以创建的组件,用于以符合应用程序要求的选定方式读取和写入数据。这些组件在批处理作业中用于处理记录的输入和输出。 自定义读取器:Spring.

Spring Batch中从ItemReader访问作业参数

71 15K

Spring Batch是 Java 中用于批处理的强大框架,因此使其成为数据处理活动和计划作业运行的流行选择。根据业务逻辑的复杂性,作业可以依赖不同的配置值和动态参数。在本文中,我们将探讨如何使用J.

查询引擎:推Push与拉Pull

202 4K

本文讨论了“推”和“拉”查询引擎的区别。 推式查询引擎是指生产者主动将数据传递给下游操作符, 而拉式查询引擎是指消费者主动请求数据。 推式查询引擎能够高效处理有向无环图(DAG)的查询计划,并提高缓存.

Metadata:分析阿里巴巴的微服务依赖图和性能

428

论文对阿里巴巴集群中部署的大规模微服务进行了全面的研究。他们分析了 7 天内 20,000 多个微服务的行为,并根据收集的 100 亿条调用跟踪来分析它们的特征。该论文获得SOCC 2021最佳论文奖.

River:Go中快速可靠的事务性后台作业

132 2K

使用像 PostgreSQL 这样的关系数据库作为作业队列是一种可以接受的方法,一些公司在生产中成功使用了这种方法。虽然 Redis 等更传统的队列可能更适合高吞吐量低延迟用例,但数据库可以为作业处理.

如何使用 Spring Boot Scheduler 计划和安排任务/作业?

1304 1 3K

有时我们会遇到这样一种情况,我们希望任务只在特定时间点执行或在特定时间间隔内重新执行。同时,我们的客户希望在特定时间以每小时、每天、每周、每月或什至其他方式执行功能。事实上,在所有这些类型的情况下,我.

基于Kubernetes的Spring Batch:大规模高效批处理

630 14K

在这篇博文中,我介绍了批处理开发人员或架构师在大规模设计和运行批处理应用程序时可能面临的一些挑战,并展示了 Spring Batch、Spring Boot 和 Kubernetes 如何极大地简化这.

批处理与事件流区别?

503

随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。批处理 批处理涉及通常在预定的时间间隔(例如每天或每周)内一次处理数据。 常用于不需.

Apache Flink与Kafka Streams区别? - Gunnar

2010

Apache Flink与Kafka Stream都能实现流处理,但在一些重要方面有所不同。下面是从用户的角度出发的,不涉及实现细节:支持的流平台不同 作为的Apache Kafka项目的一部分,Ka.

构建微服务分布式作业调度器 - Mesut

1459 1 6K
本文将帮助您以您可以配置的标准方式自动化您的工作。它还可以通过各种方式触发您的作业并执行您的业务代码。调度作业的方法有很多,包括cron 作业和Windows 任务调度程序,但这些解决方案对用户不友好.

Kestra 简介:开源编排和调度平台

2477 3K

公司建立数据管道以准备数据成分、提取见解并在内部和外部各方之间分发调查结果。处理各种海量数据的能力已成为推动业务成功的关键因素。然而,构建和管理数据流并不简单。您必须考虑从不同来源提取数据的时间表和计.

使用Spring WebFlux和Reactive Kafka实现后端服务器发送事件

2044 1 4K

以非阻塞方式从基于 Kafka 的响应式 WebFlux REST 服务器到 Webflux 客户端的数据流。以下设计的架构可用于: 近乎实时地将数据推送到外部或内部应用程序。 将数据推送到文件上并将.

在 Data Lakehouse 中统一批处理和流处理

675 3K

最近,我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看,他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多架构选项。我们对数据处理的主要要求包括.

批处理中的数据质量如何保证? - Weingarten

1150

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的博客类似。当我在尼尔森时,还没有一个数据质量的总体框架或平台,所以我们“开发”的只是内部供我们自己使用。我们决.

大数据编排引擎历史回顾 - Ananth

1136 3K

我在 Hadoop/Bigdata 的早期阶段开始研究数据管道,当时大数据是一个流行词。Apache Oozie (有人还记得 Oozie 吗?)是一种用于编排数据管道的首选工具,您必须在 XML 文.

你应该使用 Apache Airflow 吗?

1508 5K
数据管道是任何公司数据基础架构中的关键组件。许多公司用来管理其数据提取和转换的一种框架是 Airflow。无论是 100% 使用 Airflow 及其各种运算符,还是使用 Airflow 编排其他组件.

Jellysmack如何将数据科学作业编排推向生产就绪水平?

920 4K
自从数据科学进入 IT 游戏并开始构建大量模型和项目以来,对工作编排的需求已经上升。由于 Jellysmack 的业务主要集中在帮助视频创作者在观众和质量方面增长,我们的许多团队都依赖从 YouTub.

使用FUTURE 中的消息避免计划调度的批处理作业 - CodeOpinion

1227 1

有些人称它为cron作业,计划任务,或批处理作业。不管你怎么称呼它,它是一个定期运行的进程,查看数据库的状态,以确定对它发现的各种记录采取的一些具体行动。如果你处理过这个问题,你可能知道这可能是一场噩.

使用benjamin-batchly实现Rust异步批处理 - alexheretic

630 2K

有时,与其同时做很多小事,不如将它们捆绑在一起,一次完成,作为一个批处理。所以在星期四早上的一个银行假期里,我很早就醒了(主要是因为我 1 岁男孩的尖叫声)并且(在尖叫声停止后)写了一个crate 来.

使用Kafka分区扩展Spring Batch大数据调度批处理 – Arnold

1166 1 21K

假设有一个您需要定期运行的流程,例如一天结束 (EOD)。假设这个流程中需要处理的数据量在不断增加。最初,你可以做一个非常简单的 Spring 调度(或者 Quartz 或者你有什么),它只执行一个方.

kestra: 无限可扩展的开源编排和调度平台

1753 1

Kestra 是一个无限可扩展的开源编排和调度平台,可以创建、运行、调度和监控数百万个复杂的管道。 任何类型的工作流程:工作流程可以从简单开始,然后发展到具有分支、并行、动态任务、流程依赖性的更复杂的.

Spring Boot调度任务源码与教程 - Thanh

958 7K

调度是指在特定时间或特定时间间隔后执行任务,以带来减少时间、减少资源、最大化吞吐量的好处。调度的诞生是为了处理诸如收集每日报告、每月报告或在一段时间后处理数据之类的任务。Spring 提供了一组大部分.

类似Quartz的分布式Java后台作业计划程序:JobRunr

2980 5 4K

JobRunr 提供了一个统一的编程模型,以可靠的方式处理后台任务,并在共享主机、专用主机或 JVM 实例内的云(你好 Kubernetes)上运行。您可以在 Web 应用程序中启动小型和处理作业,也.

使用Rqueue框架基于Redis和Spring Boot执行异步任务 -sonus21

2626 7K

在本文中,我们将学习如何使用Spring Boot 2.x和Redis执行异步任务,最后的代码演示了本文中描述的步骤。一个典型的API调用包括五件事:执行一个或多个数据库(RDBMS / NoSQL).

如何在不使用POJO代码的情况下创建Java批处理插入 -DZone Java

871 7K

POJO样板代码通常用于Java程序的各种功能中:无论是使用comparator(comparable的接口)进行比较,还是诸如在“通用数据结构”中存储大量数据(例如列表,集合,地图等)之类的简单操作.

使用Kubernetes竞争消费者模式扩展任务处理 - vinsguru

1160 6K
在分布式系统中,我们通过通过服务总线/消息队列传递消息来实现系统之间的松散耦合。有时,当消息的发送量很高时(即每单位时间传入的消息数大于每单位时间处理的消息数),队列最终将容纳无限数量的消息。消息队列.

使用Spring Boot调度WebSocket推送的教程和源码 - Baeldung

2680 4K

本教程介绍如何使用WebSockets将计划的消息从服务器发送到浏览器。使用Spring的实用程序类SimpMessagingTemplate使通过WebSocket推送服务器消息会更容易。示例的源代.