中台数据工程教程 - 第24页

我们生活在一个技术时代，大数据、物联网、机器学习都已成为不可避免的现实。在当今世界，决策过程依赖于可以跨越各种数据源（例如社交媒体、日志文件、传感器数据等）的数据。虽然数据的异构性增加了多方面，但随之而来的是快速反应的需求。现代软件架构旨在满足这个不断变化的商业世界中的此类需求。随着

DuckDB-Wasm 是一个用于浏览器的进程内分析 SQL 数据库。它由 WebAssembly 提供支持，可以流利地使用 Arrow 语言，读取由文件系统 API 或 HTTP 请求支持的 Parquet、CSV 和 JSON 文件，并且已经过 Chrome、Firefox、Safari

PGSync是一个变更数据捕获工具，用于将数据从Postgres转移到Elasticsearch。它允许你保留Postgres作为你的真实来源，并在Elasticsearch中公开结构化的非规范化文档。这对于构建后端服务以驱动文本搜索应用或构建实时仪表盘应用非常有用。对嵌套实

今天为数据分析、数据报告或机器学习构建数据湖已经是一种常见的做法。在这篇博文中，我们将描述一种构建数据湖的简单方法。该解决方案使用基于 Debezium 的实时数据管道，支持 ACID 事务、SQL 更新并且具有高度可扩展性。并且不需要 Apache Kafka 或 Apache S

今天构建的大多数应用程序都需要某种方式的调度机制。常见的例子是轮询 API 或数据库、频繁检查系统健康状况、将日志转储到存档等。Kubernetes和

在数据仓库应用程序中，我们需要想办法有效地回填我们的数据并大规模快速运行我们的 SQL。回填是指我们想要在表中填充过去 X 天的数据。为此，我们的 SQL 必须是可重复和可水平扩展的。我们需要以不会泄漏数据或导致重复的方式一次填充数天的数据。以下是实现这一目标的一些技巧。 <

以分布式和容错的方式对内容进行爬取、抓取、提取和大规模存储。首先，我们了解了

在不断变化的环境中，对于许多公司，数据工程师、分析师和数据科学家的角色和职责正在发生变化，这迫使我们引入一个新角色：分析工程师。分析工程师处于数据科学家、分析师和数据工程师技能集的交叉点。他们为分析师和数据科学家的工作带来了正式而严格的软件工程实践，他们为数据工程的工作带来了分析和业

在Twitter，我们每天实时处理大约 4000 亿个事件并生成 PB 级数据。我们消费数据的事件源有很多种，它们在不同的平台和存储系统中产生，例如 Hadoop、Vert

mobilewalla已经发布了一个新的#Opensource项目：Anovos，它可以用来创建功能设计一个高效的数据管道，从摄入到功能创建和存储。在Mobilew

EVCache是一种基于 memcached 的分布式内存缓存解决方案。它是 Netflix 的一个 Tier-0 系统，其足迹遍布约 18,000 台服务器，拥有约 14 PB 的数据，并且仍在快速增长。我们之前已经概述了我们如何在 EVCache 集群上执行

几年前，一位首席数据官CDO问我：“一美元的成本节省与一美元的收入是一样的吗？” 我的回答是响亮的“不”。数据和分析计划必须与业务目标保持一致。如果一家公司处于增长模式，一心想抓住思想和市场份额，洞察团队会优先考虑创收而不是成本节约。在经济低迷时期，当生存模式启动时，优先事项可能会有所不同。

在本文中，我们将讨论 HDF5 是最流行和最可靠的非表格数字数据格式之一。但是这种格式并未针对深度学习工作进行优化。本文建议应该采用什么样的 ML 原生数据格式才能真正满足现代数据科学家的需求。

大多数流数据技术需要开发人员的思维方式不同于使用传统关系数据库的思维方式。但是现在，专注于时间序列数据库的初创公司Deephaven Data Labs发布了Deep

CDC（Change Data Capture）是一个软件过程，它捕获源数据库中所做的更改（

优步Uber提供按需出租车服务，只需按一下按钮。在本文中，我们将探讨 Uber 背后特定功能的工程设计。计算预计到达时间当你拿出你的手机；打开优步应用并叫车，然后那些聪明的小算法会告诉你司机需要多长时间才能到达。预计到达时间在大多数

Verinovum 总部位于俄克拉荷马州塔尔萨，提供干净、完整和准确的临床数据，使医疗保健支付者、提供者和合作伙伴组织能够改善业务和患者结果。与电子健康记录 (EHR) 系统相关的界面和操作流程可能不同，从而产生大量数据变化。许多医院系统使用自己的代码系统，因此我们需要使用标准化规则

通过广泛的数据质量、准确性和异常检查获得对数据的信任。Airbnb 已经开始了一个大规模的项目，以确保整个公司的数据可信。为了使员工能够更快地利用数据做出决策并为业务指标监控提供更好的支持，我们引入了