大数据架构

     

哈特奖:压缩算法竞赛奖

83

Hutter 奖是一项奖励智能压缩器/数据压缩程序开发的竞赛,目前总奖金为 23,034 欧元。目标是将 1GB 文件 enwik9 压缩到小于当前记录的约.

可组合数据系统之路:对过去15年和未来的思考

221 6K

来自韦斯·麦金尼文章: 15年前,也就是2008年4月,我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“.

Apache Doris是Elasticsearch + Grafana Loki优点的综合

646 6K

理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大.

MotherDuck:大数据已死

542 5K

十多年来,人们很难从他们的数据中获得可操作的洞察力,这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了",而治疗方法是购买一些能够.

批处理与事件流区别?

412

随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。 .

数据管道设计模式

1105 6K
通常,数据是分步处理、提取和转换的。因此,一系列数据处理阶段可以称为数据流水线。 选择哪种 .

Apache Kafka在实时物流、运输行业运用

949 5K

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型,通过数据流支持相关的决策、建议和警报。 这篇博文.

基于知识图谱的元数据中心的好处 - Ontotext

996 3K

如今,越来越多的企业意识到,更多的数据并不等于更深入的知识和更好的业务决策。 元数据 .

2023年流Stream预测 - tspann

826

Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测: .

Apache Pinot、Kafka 和 Presto实现低延迟、高吞吐量的面向用户的分析

1165 2K

Apache Pinot 是一个实时分布式 OLAP 数据存储,专为低延迟、高吞吐量分析而构建,非常适合面向用户的分析工作负载。Pinot 携手 Kafka.

CDC:一种将交易数据复制到数据湖的有效方法

1294 2K

对用于将事务数据库的近实时副本创建到分析数据库中的新高效机制的需求正在增长。主要原因是 传统事务数据库副本不适用于分析工作负载 (O.

Druid:实时分析数据存储

1378 4K

Apache Druid是一个 开源 .

Janus:Myntra 的数据处理框架

1176 5K
作为印度领先的时尚电子商务门户网站,数据驱动的决策在 Myntra 中发挥着重要作用:了解客户及其不断变化的需求是提高参与度、提供正确的搜索结果、个性化推荐.

用 Snowflake Snowpipe 替换 Apache Druid

1171 3K

在过去十年中,实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据,以便他们能够做出最新的明智决策。 .

如何构建面向用户的数据分析架构

1312 7K
使用 Apache Pinot、Kafka 和 Debezium 构建可扩展的分析基础 .

下一代五个一体化数据平台比较

1338 5K

多合一数据堆栈是未来吗?Ben 的文章来得正是时候,因为 dbt 揭开了语义层的面纱,成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台,并讨论了.

数据工程厂商认证有哪些?

833

似乎认证是数据工程的最新时尚之一。每个人都希望能够展示他们对特定工具的深入了解,还有什么比通过官方考试更好的方式来做到这一点?有哪些不同的认证目标? .

Snowflake和Databricks比较 - John

1386 2K

应该选择 Snowflake 还是 Databricks? Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理.

数据线、数据沿袭(Data Lineage)最新技术和实施比较 -Dion

1592 1 3K

在这篇文章中,我将尝试从我的角度来解释,包括我自己在Blibli.com开发沿袭Lineage追踪器的个人经验。 .

Lyft 市场中流媒体管道的演变

677

Lyft 撰写了有关其基于 Apache Beam 的流式管道 .

Uber使用 CLP 将日志记录成本降低两个数量级

711

大数据处理生成的日志太大而无法处理和索引?Uber 写了如何使用与 Log4J appender 集成的 CLP 来有效地压缩和索引 Spark 日志。CL.

使用 Spark 优化加速大数据处理 - Gaurav

885 7K
Apache Spark 是领先的开源数据处理引擎,用于批处理、机器学习、流处理和大规模 SQL(结构化查询语言)。它旨在使大数据处理更快、更容易。自诞生以.

Schema Ops是数据合约更好的命名? - Ananth

691

在过去的几周里,数据合约一直是一个热门话题: Chad 发表 .

数据架构的演变

1031 4K

数据与业务运营和各种分析工作负载(BI、数据科学、认知解决方案等)的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的,因此需要将它们.

数据湖仓比较:Apache Hudi、Delta Lake、Apache Iceberg

1843 10K
随着 Lakehouse 的日益普及,人们对分析和比较作为该数据 .

DoorDash使用 Kafka 和 Flink 构建可扩展的实时事件处理

1023 12K
在 DoorDash,实时事件是深入了解我们业务的重要数据源,但构建能够处理数十亿实时事件的系统具有挑战性。事件由我们的服务和用户设备生成,需要处理并传输到.

贝宝:基于DDD的下一代数据平台是数据网格

833 7K
PayPal 撰写了关于采用数据网格原则的策略。该博客承认尚无标准实施,但建立了一个商业案例,说明 PayPal 在其数据策略中需要 DataMesh 原则.

2022 年数据工程现状 - LakeFS

1754 7K

我们在过去一年看到的主要主题是 整合 。 1、数据摄取 .

Pinterest使用MemQ、Singer和Kafka优化大数据摄取

661 4K

在 Pinterest,Logging Platform 团队维护着每天摄取数 TB 数据的数据摄取基础设施的骨干。 .

Java大型数据集合实现并行加速处理几种方法 - DZone

1156 2 8K

在这篇文章中,一个非常简单的转换操作将被应用于一个大型的Java数据集合。 转换操作 .