中台数据工程

     

InfluxDB正式从Go切换到Rust

4

InfluxDB 是一个用 Rust 编写的开源时间序列数据库,使用 Apache Arrow、Apache Parquet 和 Apache DataFu.

可组合数据系统之路:对过去15年和未来的思考

221 6K

来自韦斯·麦金尼文章: 15年前,也就是2008年4月,我开始构建数据分析工具。我当时所感知到的是数据科学的迫切“.

如何通过业务架构和IT架构提供价值?

178 3K

企业 架构 需要足够的资源来规.

从数据库导出数据CDC的几种方式

253
变更数据捕获是一个从数据库获取数据的过程,用于复制针对操作数据库执行的操作,以供下游应用程序使用。 CDC可用于将针对源数.

一张图解释数据合同如何实施

212
数据管道中的数据合约是什么?如何实施? 最简单的数据合同是数据生产者和数据消费者之间就所生产的数据应是什么样子、应满足什么.

本周多篇机器学习用于推荐系统的大科技文摘

215 6K

有选择地从科技公司的工程博客中挑选了博客文章: [Meta] .

七月大科技工程文摘

358 5K

本文摘包含Airbnb优化数据访问、Etsy 实时广告个性化、Pinterest 时间序列数据工作、Wix 大迁移等! <.

6个Python日志记录库比较

457 18K

虽然 Python 在其标准库中提供了强大且功能丰富的日志记录解决方案,但第三方日志记录生态系统提供了一系列引人注目的替代方案。根据您的要求,这些外部库可能更适合您.

PostgreSQL和Oracle物化视图比较

242 5K

对于最终用户来说,物化视图基本上只是一个表,物化视图只是将结果 .

10个Postgres使用高级技巧

474 8K

PostgreSQL不仅仅是另一个数据库,它是一个包含可以改变您处理数据方式的功能的系统。 1、元.

东南亚Grab如何降低Kafka流量成本?

316 4K

Grab 是东南亚领先的超级应用平台,提供对消费者重要的日常服务。Grab 不仅仅是一款叫车和送餐应用程序,还在该地区提供广泛的按需服务,包括移动、食品、包.

什么是向量数据库VectorDatabase?

1108

随着基础模型的兴起,VectorDatabase(矢量数据库/向量数据库)的受欢迎程度直线上升。事实上,向量数据库在大型语言模型的 .

数据序列化工具比较:Avro vs Protobuf

778 12K

两种流行的数据序列化系统是 Google 的 Pro.

MongoDB vs. PostgreSQL vs. ScyllaDB

554 1 5K

工控系统如何为其实时机器学习环境选择最佳数据库? 当谈论数据库时,人们会想到很多选项。然而,我们首先决定关注那些拥.

让Postgres快30%的方法

528 26K
任何一个大规模运行Postgres的人都知道,性能是有代价的。典型的玩法是在数据库前放置一个像PgBouncer这样的池子,并打开事务模式。这使得多个客户端.

解决方案架构师25道面试题

811 13K

在这里,在这篇文章中,我想为你提供一份关于解决方案 .

Apache Doris是Elasticsearch + Grafana Loki优点的综合

646 6K

理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大.

Apache Flink 是实时流处理的行业标准

380

在 Decodable,我们长期以来一直认为 .

SQL 二次兴起 - IEEE Spectrum

278

SQL 在今年 .

盛宝银行基于数据网格的分布式领域驱动架构最佳实践

390 15K
这篇博客文章概述了如何 盛宝银行 .

分布式数据库的内部工作原理

529 12K
由于我的新电动自行车在商店里而无法再次骑着它去上班(这次是因为电线问题导致自行车无法运行!),我开始考虑如何在我的自行车中创造一些冗余设置,这样我就不会因为.

MotherDuck:大数据已死

542 5K

十多年来,人们很难从他们的数据中获得可操作的洞察力,这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了",而治疗方法是购买一些能够.

pandas 2.0 新变化

587

Pandas 2.0来了!这是自Pandas诞生以来最大的一次大修,而且已经酝酿了多年。 然而,你可能不会注意到太.

MLOps 主要是数据工程 - cpard

372 5K

MLOps 作为管理数据基础设施的一类新工具出现,专门针对 ML 用例,主要假设是 ML 具有独特的需求。 几年后.

数据中台的数据建模

765 6K

我们探讨了数据建模在数据工程中的重要性、数据建模的历史以及数据日益复杂的情况。我们还谈到了理解数据格局的重要性、其挑战以及业务需求在推动成功的数据项目中的关.

揭密Tweepcred:Twitter推荐引擎背后的力量

489 6K

您已经在 Twitter 上看到一些人具有某种影响力,他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么? .

数据工程中的三种数据创建方式比较

514 1 6K

所有成功的数据驱动组织都有一个共同点;他们有一个高质量和高效的数据创建过程。数据创建通常是数据团队成功与失败之间的区别。 .

Bitcask - 日志结构的快速 KV 存储

769 2K

Bitcask 是最高效的嵌入式键值 (KV) 数据库之一,旨在处理生产级流量。向世界介绍 Bitcask 的论文称它是一个用于快速键/值数据的 .

四种分布式数据库介绍

628

许多 分布式系统 有效地使用专.

CDC变更数据捕获实施模式

574 5K

在本文中,我想讨论实现 CDC 的几种不同方法,以及一些关键应用程序是什么以及 CDC 如何融入现代数据流 .