大数据架构指南

21-12-04 1086 3K

当您将遥测数据发送到 Honeycomb 时，Honeycomb 的基础架构需要先缓冲您的数据，然后再在我们的“检索器”列式存储数据库中进行处理。在 Honeycomb 的整个存在过程中，我们一直使用.

21-11-04 2476 2K

PGSync是一个变更数据捕获工具，用于将数据从Postgres转移到Elasticsearch。它允许你保留Postgres作为你的真实来源，并在Elasticsearch中公开结构化的非规范化文档.

21-10-19 1303 2K

大多数流数据技术需要开发人员的思维方式不同于使用传统关系数据库的思维方式。但是现在，专注于时间序列数据库的初创公司Deephaven Data Labs发布了Deephaven Community C.

21-10-12 1516 3K

CDC（Change Data Capture）是一个软件过程，它捕获源数据库中所做的更改（DDL 和 DML）以同步另一个数据存储库，例如数据库、内存缓存、数据仓库或数据湖。CDC 用于本文不会讨.

21-08-10 666 2K

通过广泛的数据质量、准确性和异常检查获得对数据的信任。Airbnb 已经开始了一个大规模的项目，以确保整个公司的数据可信。为了使员工能够更快地利用数据做出决策并为业务指标监控提供更好的支持，我们引入了.

21-08-08 1826 3K

我们生活在一个技术时代，大数据、物联网、机器学习都已成为不可避免的现实。在当今世界，决策过程依赖于可以跨越各种数据源（例如社交媒体、日志文件、传感器数据等）的数据。虽然数据的异构性增加了多方面，但随之.

21-07-29 1718 8K

下面我们分享“基本”数据平台的样子，并列出每个空间中的一些热门工具：数据摄取与几乎所有现代数据平台的情况一样，需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂，数据团队面临着从各.

21-07-26 962 7K

调度是指在特定时间或特定时间间隔后执行任务，以带来减少时间、减少资源、最大化吞吐量的好处。调度的诞生是为了处理诸如收集每日报告、每月报告或在一段时间后处理数据之类的任务。Spring 提供了一组大部分.

21-07-14 1442 2K

Apache Heron是实时、分布式、容错的流处理引擎。自 2014 年以来，Heron 为 Twitter 的各种用例提供了所有实时分析的支持。事件报告下降了一个数量级，证明了经过验证的可靠性.

21-07-02 996

过去，大多数 Web 工程师会很快否定 API 端点的想法，即流式输出无限数量的行，他们认为应尽快处理 HTTP 请求！处理请求所花费的时间超过几秒钟都是一个危险信号，现在应该重新考虑某些事情。Web.

21-07-01 1089 8K

具有大量增长数据的基于微服务的扩展应用程序在有效交付聚合数据（如顶级列表）方面面临挑战。在本文中，我将向您展示如何使用 Redis 缓存聚合数据。而数据库将项目/行数据存储为“真实来源”并使用分片进行.

21-05-29 1125 6K

几个月前我一直在考虑撰写“什么是新的企业数据平台？” 在过去的几年中，我一直是新数据平台的数据解决方案架构师和产品负责人。我学到了很多东西，我想与社区分享我的经验。当我们设计和构建数据平台时，我们致力.

21-05-26 4420 13K

Apache Arrow是是各种大数据工具（包括BigQuery）使用的一种流行格式，它是平面和分层数据的存储格式。它是一种加快应用程序内存密集型。数据处理和数据科学领域中的常用库： Apache A.

21-05-17 2212 1

ClickHouse最初是Yandex Metrica中用于Web分析的解决方案，Metrica是一项用于分析网站流量的流行服务，目前在Google Analytics（分析）之后排名第二。2008年.

21-05-15 4425 3K

QuestDB是一个快速开源时间序列数据库，QuestDB是一个用于时间序列，事件和分析工作负载的开源数据库，主要关注性能（https://github.com/questdb/questdb）。诞.