大数据架构指南 - 第3页

应该选择 Snowflake 还是 Databricks？Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而，他们确实在激烈地相互竞争。然而，我会说，Snowflake 在竞争中走上了更高的道路，

通常，数据是分步处理、提取和转换的。因此，一系列数据处理阶段可以称为数据流水线。选择哪种设计模式？有很多事情需要考虑，即使用哪个数据栈？需要考虑哪些工具？如何从概念上设计数据管道？ETL 还是 ELT

Apache Pinot 是一个实时分布式 OLAP 数据存储，专为低延迟、高吞吐量分析而构建，非常适合面向用户的分析工作负载。Pinot 携手 Kafka 和 Presto 提供面向用户的分析。如果您对 Apache Pinot 感到好奇但刚刚

使用 Apache Pinot、Kafka 和 Debezium 构建可扩展的分析基础架构以提供低延迟的面向用户的分析这篇文章将是一篇很长的文章。所以让我总结一下重要的事情。什么是面向用户的分析？面向用户的分析的商业价值是什么为什么很难实现面向用

物流、航运和运输需要实时信息来构建高效的应用程序和创新的业务模型，通过数据流支持相关的决策、建议和警报。这篇博文探讨了 Kafka在USPS、瑞士邮政、奥地利邮政、DHL 和 Hermes 等公司的几个真实案例研究，用例包括云原生中间件现代化、跟

如今，越来越多的企业意识到，更多的数据并不等于更深入的知识和更好的业务决策。元数据元数据描述数据并包括诸如数据的年代、创建位置、所有者以及与哪些概念（或其他数据）相关的信息。它使我们能够理解我们的数据，因

Apache Pulsar、Apache Flink SQL as a Service、Apache Pinot等流Stream架构技术预测： Apache Pulsar2023年，Pulsar的新版本将提

对用于将事务数据库的近实时副本创建到分析数据库中的新高效机制的需求正在增长。主要原因是传统事务数据库副本不适用于分析工作负载 (OLAP)。它们无法针对长时间运行的分析 (OLAP) 查询进行扩展。跨数据库连接也不容易并且通常跨越多个事务域边界。

Apache Druid是一个开源数据库，专为低延迟的近实时和历史数据分析而设计，

作为印度领先的时尚电子商务门户网站，数据驱动的决策在 Myntra 中发挥着重要作用：了解客户及其不断变化的需求是提高参与度、提供正确的搜索结果、个性化推荐、相关和有针对性的通知、奖励忠诚度等的驱动因素。这是通过从多个来源摄取的数据实现的，这些来源包括交易系统中的数千个表、来自点击流

在过去十年中，实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据，以便他们能够做出最新的明智决策。GumGum使用实时数据 (1) 在为我们的活动提供服

多合一数据堆栈是未来吗？Ben 的文章来得正是时候，因为 dbt 揭开了语义层的面纱，成为了分析生态系统的枢纽。作者比较了五个可用的一体化数据平台，并讨论了它们的优缺点。现代数据堆栈在 2020 年和 2021 年风靡一时，但在 2021 年后期

似乎认证是数据工程的最新时尚之一。每个人都希望能够展示他们对特定工具的深入了解，还有什么比通过官方考试更好的方式来做到这一点？有哪些不同的认证目标？ AWS当然，AWS 并不是唯一的云平台，但它是目前最受欢

在这篇文章中，我将尝试从我的角度来解释，包括我自己在Blibli.com开发沿袭Lineage追踪器的个人经验。随着最近越来越多的人关注数据线（Data Lineage），有几个积极开发的开源工具和库开始出现，并做出了突破性的改变，诱人地被采用。

Lyft 撰写了有关其基于 Apache Beam 的流式管道架构的演变。该博客讲述了初始版本是如何从 cron 作业开始的，以及为简化管道创建而进行的持续改进。背景2017 年，我们 Marketpla

大数据处理生成的日志太大而无法处理和索引？Uber 写了如何使用与 Log4J appender 集成的 CLP 来有效地压缩和索引 Spark 日志。CLP(Compressed Log Processor) 是一款能够无损压缩文本日志并在不解压的情况下搜索压缩日志的工具。

Apache Spark 是领先的开源数据处理引擎，用于批处理、机器学习、流处理和大规模 SQL（结构化查询语言）。它旨在使大数据处理更快、更容易。自诞生以来，Spark 作为一个大数据处理框架获得了极大的普及，并被处理大量数据的不同行业和企业广泛使用。

在过去的几周里，数据合约一直是一个热门话题： Chad 发表了数据合约的工程指南， Jake 发表了