大数据架构指南 - 第2页

Postgres正在蚕食数据库世界

PostgreSQL 不仅仅是一个简单的关系数据库；它是一个数据管理框架，有可能吞没整个数据库领域。 “一切皆用 Postgres”的趋势不再局限于少数精英团队，而是正在成为主流最佳实践。

批处理与事件流区别？

随着数据成为现代企业中越来越重要的一部分，组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。批处理批处理涉及通常在预定的时间间隔（例如每天或每周）内一次处理数据。常用于不需要实时处理的任务和可以

可组合数据系统之路：对过去15年和未来的思考

来自韦斯·麦金尼文章： 15年前，也就是2008年4月，我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“Python化”。这不仅是为了让新一代的数据从业者更容易获得数据科学，也是为了让现有的数据科学家更有效率。

MotherDuck：大数据已死

十多年来，人们很难从他们的数据中获得可操作的洞察力，这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了"，而治疗方法是购买一些能够处理大规模的新的花哨的技术。当然，在大数据工作组购买了所有新的工具并从遗留系统迁移之后，人们发现他们仍然难以理解他们的数据。 <

哈特奖：压缩算法竞赛奖

Hutter 奖是一项奖励智能压缩器/数据压缩程序开发的竞赛，目前总奖金为 23,034 欧元。目标是将 1GB 文件 enwik9 压缩到小于当前记录的约 114MB。根据所达到的压缩程度，获胜者有资格获得高达 500,000 欧元的奖金。竞赛

2023年保险数据流的状况

这篇博文探讨了 2023 年保险行业的数据流状态。索赔处理、客户服务、远程信息处理和新业务模式的发展需要实时的端到端可见性、可靠且直观的B2B 和 B2C 通信，并与人工智能/机器学习等前沿技术集成以进行图像识别。数据流允许实时集成和关联任何规模的数据，从而以更具成本效益的方式改进保险行业的大多数业

什么是反向 ETL？概述、用例和主要优点

在不断发展的数据工程领域，反向 ETL 已成为企业利用其数据仓库和其他数据平台超越传统分析的关键流程。反向 ETL 或反向“提取、转换、加载”是将数据从集中式数据仓库或数据湖移动到数据管道内的操作系统和应用程序的过程。这使企业能够将其分析操作化，通过将数据反馈到最需要它的日常工作流程和系统中，使数据

什么是数据工程中的流处理？

数据流处理可分为三个不同的数据处理阶段：收集处理呈现让我们更详细地了解这三个阶段，并举例说明。步骤 1：收集数据要处理数据流，首先需要数据流！幸运的是，几

Apache Spark：释放大数据力量

Apache Spark是一个强大的开源分布式计算系统，已成为大数据处理领域的基石。凭借其多功能的特性和强大的功能，Spark 已成为处理海量数据集的组织的首选解决方案。让我们探讨一下它的主要特性、优点、优势和用例。 Apache Spark 的主要特性<

使用Pandas IO工具流式传输源数据

在当今数据驱动的世界中，有效处理流数据的能力变得越来越重要。无论您是处理实时传感器读数、金融市场更新还是社交媒体源，能够在数据到达时对其进行处理都可以提供有价值的见解并实现及时决策。 Pandas 库是 Python 中处理流数据的一种强大工具，它提供了多

实时数据处理：Kafka 和 Flink

在大数据时代，实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢？ Apache Kafka 和 Apache Flink登场，这对实时数据处理带来革命性变革的梦之队。这对充满活力的二人组协同工作，

Java中大数据生态和4个工具介绍

大数据和 Java 形成强大的协同作用。大数据以其高容量、高速度和多样性为特征，已成为各行业的游戏规则改变者。</

Spring Batch中构建自定义读取器和写入器

在 Spring Batch 中，自定义读取器和写入器是您可以创建的组件，用于以符合应用程序要求的选定方式读取和写入数据。这些组件在批处理作业中用于处理记录的输入和输出。自定义读取器：Spring Batch 中的自定义读取器负责分析来自数据源的

查询引擎：推Push与拉Pull

本文讨论了“推”和“拉”查询引擎的区别。推式查询引擎是指生产者主动将数据传递给下游操作符，而拉式查询引擎是指消费者主动请求数据。推式查询引擎能够高效处理有向无环图(DAG)的查询计划，并提高缓存效率。文章还解释了为什么推式系统能够处理DAG计划以及如何提高缓存

RisingWave：分布式SQL流数据库

RisingWave是一个分布式SQL流数据库，可以简单、高效、可靠地处理流数据。在当今以数据为中心的世界中，流数据已经变得无处不在传统的批处理

什么是开放表格式OTF？

如果您从事数据领域，您可能听说过开放表格式，例如 Apache Iceberg、Apache Hudi 或 Delta Lake。开放表格式是数据存储的包装器，并使用一系列文件来跟踪表上的架构/分区 (DDL) 更改。跟

Netflix 使用Psyberg简化数据工程

在 Netflix，我们的会员和财务数据工程团队利用与计划、定价、会员生命周期和收入相关的各种数据来推动分析、为各种仪表板提供支持并做出基于数据的决策。 Netflix 财务报告中的许多指标均由我们团队的努力提供支持和协调！鉴于我们在这条关键路径上

Apache Doris是Elasticsearch + Grafana Loki优点的综合

理想的日志处理系统应该支持：高吞吐量实时数据摄取：它应该能够批量写入博客，并使它们立即可见。低成本存储：它应该能够存储大量的日志而不需要花费太多的资源。实时文本搜索：它应该能够快速搜索文本。业界常