大数据架构指南

     

实时数据处理:Kafka 和 Flink

20 3K

在大数据时代,实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢?Apache Kafka 和 Apache Flink登场,这对实时数据处理带来革命性变革的梦之队。这对充满活力的二人组协.

Java中大数据生态和4个工具介绍

25 2K

大数据 和 Java 形成强大的协同作用。大数据以其高 容量、 高速度和 多样性为特征,已成为各行业的游戏规则改变者。什么是大数据?使用传统数据处理技术难以处理和处理的异常大的数据集被称为“大数据”。.

Spring Batch中构建自定义读取器和写入器

36 8K

在 Spring Batch 中,自定义读取器和写入器是您可以创建的组件,用于以符合应用程序要求的选定方式读取和写入数据。这些组件在批处理作业中用于处理记录的输入和输出。 自定义读取器:Spring.

Apache Spark:释放大数据力量

46

Apache Spark是一个强大的开源分布式计算系统,已成为大数据处理领域的基石。凭借其多功能的特性和强大的功能,Spark 已成为处理海量数据集的组织的首选解决方案。让我们探讨一下它的主要特性、优.

查询引擎:推Push与拉Pull

175 4K

本文讨论了“推”和“拉”查询引擎的区别。 推式查询引擎是指生产者主动将数据传递给下游操作符, 而拉式查询引擎是指消费者主动请求数据。 推式查询引擎能够高效处理有向无环图(DAG)的查询计划,并提高缓存.

RisingWave:分布式SQL流数据库

123 2K

RisingWave是一个分布式SQL流数据库,可以简单、高效、可靠地处理流数据。在当今以数据为中心的世界中,流数据已经变得无处不在传统的批处理越来越不能满足业务的实时性要求。RisingWave流数.

什么是开放表格式OTF?

131 1 7K
如果您从事数据领域,您可能听说过开放表格式,例如 Apache Iceberg、Apache Hudi 或 Delta Lake。开放表格式是数据存储的包装器,并使用一系列文件来跟踪表上的架构/分区 .

2023年保险数据流的状况

70 2K

这篇博文探讨了 2023 年保险行业的数据流状态。索赔处理、客户服务、远程信息处理和新业务模式的发展需要实时的端到端可见性、可靠且直观的B2B 和 B2C 通信,并与人工智能/机器学习等前沿技术集成以.

Netflix 使用Psyberg简化数据工程

121 2K

在 Netflix,我们的会员和财务数据工程团队利用与计划、定价、会员生命周期和收入相关的各种数据来推动分析、为各种仪表板提供支持并做出基于数据的决策。Netflix 财务报告中的许多指标均由我们团队.

什么是数据工程中的流处理?

74

数据流处理可分为三个不同的数据处理阶段: 收集 处理 呈现 让我们更详细地了解这三个阶段,并举例说明。步骤 1:收集数据要处理数据流,首先需要数据流!幸运的是,几乎所有数据都是以连续的方式产生的,将数.

哈特奖:压缩算法竞赛奖

249

Hutter 奖是一项奖励智能压缩器/数据压缩程序开发的竞赛,目前总奖金为 23,034 欧元。目标是将 1GB 文件 enwik9 压缩到小于当前记录的约 114MB。根据所达到的压缩程度,获胜者有.

可组合数据系统之路:对过去15年和未来的思考

371 6K

来自韦斯·麦金尼文章:15年前,也就是2008年4月,我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“Python化”。这不仅是为了让新一代的数据从业者更容易获得数据科学,也是为了让现有的数.

Apache Doris是Elasticsearch + Grafana Loki优点的综合

1168 6K

理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大量的日志而不需要花费太多的资源。 实时文本搜索:它应该能够快速搜索文本。 业.

MotherDuck:大数据已死

699 5K

十多年来,人们很难从他们的数据中获得可操作的洞察力,这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了",而治疗方法是购买一些能够处理大规模的新的花哨的技术。当然,在大数据工.

批处理与事件流区别?

489

随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。批处理 批处理涉及通常在预定的时间间隔(例如每天或每周)内一次处理数据。 常用于不需.

数据管道设计模式

1262 5K
通常,数据是分步处理、提取和转换的。因此,一系列数据处理阶段可以称为数据流水线。选择哪种设计模式?有很多事情需要考虑,即使用哪个数据栈?需要考虑哪些工具?如何从概念上设计数据管道?ETL 还是 ELT.

Apache Kafka在实时物流、运输行业运用

1025 4K

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。这篇博文探讨了 Kafka在USPS、瑞士邮政、奥地利邮政、DHL 和 Hermes 等公司的几.

基于知识图谱的元数据中心的好处 - Ontotext

1131 3K

如今,越来越多的企业意识到,更多的数据并不等于更深入的知识和更好的业务决策。元数据元数据描述数据并包括诸如数据的年代、创建位置、所有者以及与哪些概念(或其他数据)相关的信息。它使我们能够理解我们的数据.

2023年流Stream预测 - tspann

908 1

Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测:Apache Pulsar2023年,Pulsar的新版本.

Apache Pinot、Kafka 和 Presto实现低延迟、高吞吐量的面向用户的分析

1286 2K

Apache Pinot 是一个实时分布式 OLAP 数据存储,专为低延迟、高吞吐量分析而构建,非常适合面向用户的分析工作负载。Pinot 携手 Kafka 和 Presto 提供面向用户的分析。如果.

CDC:一种将交易数据复制到数据湖的有效方法

1395 2K

对用于将事务数据库的近实时副本创建到分析数据库中的新高效机制的需求正在增长。主要原因是 传统事务数据库副本不适用于分析工作负载 (OLAP)。 它们无法针对长时间运行的分析 (OLAP) 查询进行扩展.

Druid:实时分析数据存储

1481 4K

Apache Druid是一个开源数据库,专为低延迟的近实时和历史数据分析而设计,Druid 被Netflix、Confluent和Lyft等公司用于各种不同的用例。这个领域有Clickhouse、t.

Janus:Myntra 的数据处理框架

1266 5K
作为印度领先的时尚电子商务门户网站,数据驱动的决策在 Myntra 中发挥着重要作用:了解客户及其不断变化的需求是提高参与度、提供正确的搜索结果、个性化推荐、相关和有针对性的通知、奖励忠诚度等的驱动因.

用 Snowflake Snowpipe 替换 Apache Druid

1287 3K

在过去十年中,实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据,以便他们能够做出最新的明智决策。GumGum使用实时数据 (1) 在为我们的活动提供服务时做出快速决策,.

如何构建面向用户的数据分析架构

1387 7K
使用 Apache Pinot、Kafka 和 Debezium 构建可扩展的分析基础架构以提供低延迟的面向用户的分析这篇文章将是一篇很长的文章。所以让我总结一下重要的事情。 什么是面向用户的分析? .

下一代五个一体化数据平台比较

1457 5K

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了它们的优缺点。现代数据堆栈在 2020 年和.

数据工程厂商认证有哪些?

925

似乎认证是数据工程的最新时尚之一。每个人都希望能够展示他们对特定工具的深入了解,还有什么比通过官方考试更好的方式来做到这一点?有哪些不同的认证目标?AWS当然,AWS 并不是唯一的云平台,但它是目前最.

Snowflake和Databricks比较 - John

1518 2K

应该选择 Snowflake 还是 Databricks?Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而,他.

数据线、数据沿袭(Data Lineage)最新技术和实施比较 -Dion

1829 1 2K

在这篇文章中,我将尝试从我的角度来解释,包括我自己在Blibli.com开发沿袭Lineage追踪器的个人经验。随着最近越来越多的人关注数据线(Data Lineage),有几个积极开发的开源工具和库.

Lyft 市场中流媒体管道的演变

745

Lyft 撰写了有关其基于 Apache Beam 的流式管道架构的演变。该博客讲述了初始版本是如何从 cron 作业开始的,以及为简化管道创建而进行的持续改进。背景2017 年,我们 Marketp.