大数据架构指南

数据线、数据沿袭(Data Lineage)最新技术和实施比较 -Dion

22-10-17 1900 1 2K

在这篇文章中，我将尝试从我的角度来解释，包括我自己在Blibli.com开发沿袭Lineage追踪器的个人经验。随着最近越来越多的人关注数据线（Data Lineage），有几个积极开发的开源工具和库.

Lyft 市场中流媒体管道的演变

22-10-17 762

Lyft 撰写了有关其基于 Apache Beam 的流式管道架构的演变。该博客讲述了初始版本是如何从 cron 作业开始的，以及为简化管道创建而进行的持续改进。背景2017 年，我们 Marketp.

Uber使用 CLP 将日志记录成本降低两个数量级

22-10-17 898

大数据处理生成的日志太大而无法处理和索引？Uber 写了如何使用与 Log4J appender 集成的 CLP 来有效地压缩和索引 Spark 日志。CLP(Compressed Log Proce.

使用 Spark 优化加速大数据处理 - Gaurav

22-10-17 1031 7K

Apache Spark 是领先的开源数据处理引擎，用于批处理、机器学习、流处理和大规模 SQL（结构化查询语言）。它旨在使大数据处理更快、更容易。自诞生以来，Spark 作为一个大数据处理框架获得了.

Schema Ops是数据合约更好的命名？ - Ananth

22-10-17 805

在过去的几周里，数据合约一直是一个热门话题： Chad 发表了数据合约的工程指南， Jake 发表了合约驱动的平台， David 发表了关于数据合约的三部分系列 Yali Sassoon 发表了为什么.

数据架构的演变

22-08-25 1211 4K

数据与业务运营和各种分析工作负载（BI、数据科学、认知解决方案等）的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的，因此需要将它们与运行业务运营的 IT 系统分开，以便运营工.

数据湖仓比较：Apache Hudi、Delta Lake、Apache Iceberg

22-08-22 2294 10K

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。目前发表的大多数比较文.

DoorDash使用 Kafka 和 Flink 构建可扩展的实时事件处理

22-08-15 1173 11K

在 DoorDash，实时事件是深入了解我们业务的重要数据源，但构建能够处理数十亿实时事件的系统具有挑战性。事件由我们的服务和用户设备生成，需要处理并传输到不同的目的地，以帮助我们在平台上做出数据驱动.

贝宝：基于DDD的下一代数据平台是数据网格

22-08-15 938 7K

PayPal 撰写了关于采用数据网格原则的策略。该博客承认尚无标准实施，但建立了一个商业案例，说明 PayPal 在其数据策略中需要 DataMesh 原则。这是一个令人兴奋的从 PayPal 观察的.

2022 年数据工程现状 - LakeFS

22-06-22 2021 7K

我们在过去一年看到的主要主题是整合。1、数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是Airbyte的急剧崛起。Airbyte 成立于 2020 年，直.

Pinterest使用MemQ、Singer和Kafka优化大数据摄取

22-05-06 819 4K

在 Pinterest，Logging Platform 团队维护着每天摄取数 TB 数据的数据摄取基础设施的骨干。MemQ：使用 Netty 实现内存高效的批量数据交付MemQ是内部构建的下一代数据.

Java大型数据集合实现并行加速处理几种方法 - DZone

22-05-03 1310 2 8K

在这篇文章中，一个非常简单的转换操作将被应用于一个大型的Java数据集合。转换操作对于转换操作，我们定义了一个函数接口。它只是接收一个R类型的元素，应用一个转换操作，并返回一个S类型的转换对象。@Fu.

Airbyte如何使用Temporal扩展工作流程编排?

22-04-15 2711 2 7K

Airbyte 的作用是提供一种在源和目标之间执行数据同步的简单方法。工作流程编排很重要，因为它确保数据按照客户指定的频率同步。在本文中，我们将讨论能够支持 Airbyte 数据同步的编排器所必需的特.

使用Kafka分区扩展Spring Batch大数据调度批处理 – Arnold

22-03-31 1170 1 21K

假设有一个您需要定期运行的流程，例如一天结束 (EOD)。假设这个流程中需要处理的数据量在不断增加。最初，你可以做一个非常简单的 Spring 调度（或者 Quartz 或者你有什么），它只执行一个方.

Apache Wayang ：跨平台数据处理系统

22-03-18 1027

Wayang 使用户能够在多个数据处理平台上运行数据分析。为此，Wayang 在现有平台之上提供了一个抽象，以便在任何平台集之上运行数据分析任务。因此，用户可以专注于其应用程序的逻辑，而不是底层平台的.

Netflix万亿级实时数据基础设施的四个创新阶段

22-03-04 823 1

徐振中于201 年加入 Netflix，担任实时数据基础架构团队的创始工程师，后来领导了流处理引擎团队。他分享了他的团队的主要成就：在 Netflix 的所有组织中将流数据用例从 0 增加到 200.

Spark和Hadoop之间的主要技术差异和选择

22-03-02 847

Hadoop 和 Spark 都是开源软件的集合，由 Apache 软件基金会维护，用于大规模数据处理。Hadoop 是两者中较老的一个，曾经是处理大数据的首选。然而，自从 Spark 推出以来，它的.

Apache Druid是基于事件的亚秒级的万亿行响应的开源数据库

22-02-23 1056 2K

Netflix 使用开源 Druid 分析数据库来了解和量化用户设备如何处理浏览和播放。一家名为 Metamarkets 的广告技术公司最初于 2011 年将 Druid 设计为分布式实时数据存储，.

如何面对后Hadoop时代?

22-02-18 1639 2 2K

Apache Hadoop作为一个完整的开源大数据套件，在过去十年深刻影响了整个大数据世界。然而，随着各种新兴技术的发展，Hadoop生态系统发生了翻天覆地的变化。2021 年 4 月，Apache .

为什么 LinkedIn 改变了他们的数据分析技术堆栈 - Quastor

22-01-20 882 2K

LinkedIn 之前使用Teradata 第三方专有平台进行数据分析技术堆栈，这种方法导致了扩展问题，并使系统难以发展，LinkedIn 转而使用开源软件和 Hadoop 生态系统。Steven C.

五十种大数据分析工具和软件

22-01-18 3049 5K

数据也以不同的格式存在，如结构化数据、半结构化数据和非结构化数据。大数据分析是一个用于提取有意义的见解的过程，例如隐藏的模式、未知的相关性、市场趋势和客户偏好。大数据分析提供了各种优势——它可以用于更.

Hadoop的故事

22-01-18 1000

今天云原生技术的大数据中心取代了Hadoop，Kubernetes 取代了 YARN 作为工作负载编排器，亚马逊S3 兼容的对象存储取代了 HDFS 来存储海量数据。但是在 2011 年，Hadoop.

使用Rustlang的Async Tokio运行时处理CPU密集型任务

22-01-17 1952 7K

Rust 内置了对异步 ( async) 编程模型的支持，类似于 JavaScript 等语言。要充分利用多核和异步 I/O，必须使用运行时，虽然 Rust 社区有多种替代方案，但 Tokio 是事实.

数据湖+数据仓库 = 数据湖库架构

22-01-13 1062 3K

传统OLAP和OLTP是分离，数据是从业务数据存储库中提取，然后将其存储在数据湖中，下一步就是进行ETL数据提取转换和分析，然后，将这些数据的关键子集转移到数据仓库中，以生成用于决策的业务洞察力。这样.

未来Hadoop还会有生命吗？

22-01-08 1253 2K

在过去的几年里，Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口，想知道 Had.

数据网格与Data Fabric的区别 - thenewstack

22-01-07 1856

Data Fabric和Data Mesh数据网格都认为：在物理上集中所有数据是徒劳的。他们都认识到数据量只会增长，而数据源只会成倍增加。结果，这两者有时往往会混为一谈。但是它们在理念和实施方面都非常.

使用WSL2在Windows 11上安装Hadoop

22-01-06 2450 1 7K

在这篇文章中，我们将看到如何使用 WSL 在同一台 Windows 11 机器上安装完整的 Hadoop 环境。安装依赖您需要安装两个重要的依赖项才能使Hadoop正常工作。这些不是可选的，除非您已.

大数据领域的国外公司、产品和技术列表

22-01-04 1321

以下数据来自福布斯，“大数据景观”： - 日志数据应用程序：Splunk、Loggly、Sumo Logic - 垂直应用：Predictive Policing、BloomReach、Atigeo、.

2021年数据库回顾 - OtterTune

21-12-30 1691 1 4K

对于数据库行业来说，这是疯狂的一年，随着年底的临近，在我们进入 2022 年时值得反思和评估。以下是一些亮点以及我对它们对数据库领域可能意味着什么的一些想法。 PostgreSQL 的统治地位开发人员.

Apache Oozie 教程：使用 Oozie 调度 Hadoop 作业

21-12-30 1587 2K

在这个 Apache Oozie 教程博客中，我们将介绍： Apache Oozie 简介 Oozie 工作流 Oozie 协调员 Oozie 捆绑包字数统计工作流作业基于时间的字数统计协调员工.