中台数据工程教程

     
  • 使用 Apache Fury 实现极快的序列化

    15 5K

    在本文中,我们将了解Apache 软件基金会下的一个孵化项目Apache Fury。该库承诺提供极快的性能、强大的功能和多语言支持。我们将研究该项目的一些基本功能并将其性能与其他框架进行比较。使用 A.

  • Apache Pinot 简介

    13 2K

    Apache Pinot最初由 LinkedIn 开发,是一个实时分布式OLAP(在线分析处理)数据存储,旨在为分析查询提供低延迟和高吞吐量。在本文中,我们将探索 Apache Pinot 的主要功能.

  • 数据管道架构概述

    21 8K

    在当今数据驱动的世界中,组织高度依赖对大量数据的有效处理和分析,以获得洞察力并做出明智的决策。这种能力的核心是数据管道——现代数据基础设施的重要组成部分。数据管道是数据从各种来源无缝移动到指定目的地的.

  • 什么是反向 ETL?概述、用例和主要优点

    22 4K

    在不断发展的数据工程领域,反向 ETL 已成为企业利用其数据仓库和其他数据平台超越传统分析的关键流程。反向 ETL 或反向“提取、转换、加载”是将数据从集中式数据仓库或数据湖移动到数据管道内的操作系统.

  • Pinterest 弃用 HBase

    28 1

    Pinterest 工程团队的博客文章“Pinterest 弃用 HBase”概述了 Pinterest 弃用分布式 NoSQL 数据库 Apache HBase 并迁移到开源分布式 SQL 数据库 .

  • 比较 Pandas、Polars 和 PySpark:基准分析

    66 2K

    比较 Pandas、Polars 和 PySpark 三种工具的不同数据集,得出数据处理未来发展方向的结论。PandasPandas 一直是数据操作、探索和分析的主要工具。由于 Pandas 与 R .

  • 数据Redpanda平台简介

    66 10K

    Redpanda 是一个开源流媒体平台,旨在快速、可扩展且可靠,满足现代数据密集型应用程序的需求。它提供了与 Apache Kafka 兼容的 API,可以轻松迁移现有应用程序。本文将探讨 RedPa.

  • DuckDB简介

    247 7K

    DuckDB是一个内存分析型关系数据库,主要用于数据分析。由于其列式存储性质(单独存储每列的数据),它被视为分析数据库。相比之下,传统的关系数据库采用基于行的存储,逐行存储数据。DuckDB 的优点包.

  • 使用Pandas IO工具流式传输源数据

    46 2K

    在当今数据驱动的世界中,有效处理流数据的能力变得越来越重要。无论您是处理实时传感器读数、金融市场更新还是社交媒体源,能够在数据到达时对其进行处理都可以提供有价值的见解并实现及时决策。Pandas 库是.

  • Scikit-learn可扩展学习简介

    46 2K

    随着机器学习模型变得越来越复杂和数据集变得越来越大,可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法,但其有效处理大型数据集的.

  • Postgres正在蚕食数据库世界

    254 1 7K

    PostgreSQL 不仅仅是一个简单的关系数据库;它是一个数据管理框架,有可能吞没整个数据库领域。“一切皆用 Postgres”的趋势不再局限于少数精英团队,而是正在成为主流最佳实践。OLAP 的新.

  • Arroyo:基于Arrow和DataFusion的新SQL引擎

    156 1 4K

    Arroyo 0.10 拥有一个使用 Apache Arrow 和 DataFusion 构建的全新 SQL 引擎。它更快、更小、更容易运行。这篇文章将详细介绍 Arroyo 当前的实现以及为什么会发.

  • 实时数据处理:Kafka 和 Flink

    79 3K

    在大数据时代,实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢?Apache Kafka 和 Apache Flink登场,这对实时数据处理带来革命性变革的梦之队。这对充满活力的二人组协.

  • Java中大数据生态和4个工具介绍

    63 2K

    大数据 和 Java 形成强大的协同作用。大数据以其高 容量、 高速度和 多样性为特征,已成为各行业的游戏规则改变者。什么是大数据?使用传统数据处理技术难以处理和处理的异常大的数据集被称为“大数据”。.

  • PySpark DataFrame教程与演示

    61 5K

    PySpark DataFrame 是 PySpark 库中的基本抽象,专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分,提供了一种强大且绿色的方式来大规模处理结.

  • 2024年数据中台工程十大趋势

    118 4K

    在当今世界,创新和决策需要实时数据管道和实时数据处理,对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法,持续为公司提供有关如何克服所面临挑战的见解。什么是数据中台工程?数据中台工程是设计.

  • 案例:Postgres中构建客户数据仓库

    89 4K

    在 Tembo(,我们希望拥有一个客户数据仓库来跟踪和了解客户的使用情况和行为。我们希望快速回答​​诸如 “我们部署了多少个 Postgres 实例?”、 “谁是我们最活跃的客户?”之类的问题。以及 .

  • 将Postgres转变为快速OLAP数据库

    243 5K

    pg_analytics 是一个扩展,可将任何 Postgres 数据库的本地分析性能提高 94 倍。安装 pg_analytics 后,Postgres 的速度比 Elasticsearch 快 8.

  • Postgres不适合用于全文搜索的几种场景

    107 3K

    与以搜索为中心的数据库相比,Postgres 全文搜索存在不足的九个领域的概述。什么是全文搜索?全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分.

  • 什么是数据分析中的仪表板?

    83

    了解数据是当今世界任何组织做出最佳决策的关键。然而,即使是最精通数据的人也可能会因某一时刻可用的信息量而不知所措。创建一个可以在一个位置方便地显示所有数据可视化的仪表板是让技术和非技术用户轻松掌握数据.

  • Apache Spark:释放大数据力量

    85

    Apache Spark是一个强大的开源分布式计算系统,已成为大数据处理领域的基石。凭借其多功能的特性和强大的功能,Spark 已成为处理海量数据集的组织的首选解决方案。让我们探讨一下它的主要特性、优.

  • Apache Calcite 简介

    169 10K

    在本教程中,我们将了解Apache Calcite。它是一个功能强大的数据管理框架,可用于与数据访问有关的各种用例。它专注于从任何来源检索数据,而不是存储数据。此外,其查询优化功能可以实现更快、更高效.

  • 分布式数据库系统中主从、主主和无主三种复制算法

    124 12K

    分布式系统中的复制对于确保数据一致性、可用性和系统弹性至关重要。这是一种将数据存储在多个节点或服务器上的策略,即使在服务器故障或维护期间也可以防止数据丢失并实现不间断访问。1、单领导者主从复制:涉及一.

  • 案例:使用 Web UI 探索近乎实时的流数据

    91

    Expedia Group是世界领先的在线旅游平台之一,他们开发了一个工具,帮助用户使用Kafka、Postgres和WebSockets查询和获取实时流数据,并通过Web浏览器获取实时事件他们面临的.

  • 数据库的6个缺点

    162 5K

    这里讨论的是关于数据库在概念上存在的问题,并且已经存在了几十年。1、全局可变状态是有害的每个程序员很早就学会尽量减少使用全局变量中的状态。全局变量偶尔也有合理的用途,但一般来说,全局变量会导致代码纠结.

  • 简单介绍Iceberg与数据湖屋由来

    123 2K

    本文从数据存储格式的演变介绍了数据工程领域的大数据处理框架发展,从Hive到Iceberg、Delta Lake以及数据湖屋的发展过程:数据如何存储(在文件和内存中)开源文件格式(如Avro、Parq.

  • RisingWave:分布式SQL流数据库

    214 2K

    RisingWave是一个分布式SQL流数据库,可以简单、高效、可靠地处理流数据。在当今以数据为中心的世界中,流数据已经变得无处不在传统的批处理越来越不能满足业务的实时性要求。RisingWave流数.

  • 当前流行技术栈一览列表

    630 1

    每项任务的最佳技术: Web api:NextJS(Spring Boot 紧随其后) SQL 数据库:PostgresPostgres NoSQL 数据库:DynamoDB 图数据库:Neo4j 前.

  • Polyjuice:通过并发控制动态学习实现高性能事务

    125 4K

    Polyjuice 专为单节点多核设置而设计。它假设所有事务类型都是事先已知的,并且可以作为存储过程运行(请参阅下面的策略表部分)。它不支持 MVCC,因为它是在Silo 框架之上实现的。Polyju.

  • PolarDB-SCC:阿里低延迟强一致性读取的云数据库分析

    152 6K

    阿里巴巴组的这篇论文讨论了如何在PolarDB数据库部署中从从节点执行低延迟强一致性读取。发表在VLDB'23 上。PolarDB采用关系型数据库规范的主从架构。主节点是读写 (RW) 节点,辅助节点.