Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
数据工程中的三种数据创建方式比较
所有成功的数据驱动组织都有一个共同点;他们有一个高质量和高效的数据创建过程。数据创建通常是数据团队成功与失败之间的区别。 数据创建的架构模式在数据创建中,有三种类型的架构模式:事件溯源EventSourcing变更
解决方案架构师25道面试题
在这里,在这篇文章中,我想为你提供一份关于解决方案架构师角色最常见的25个面试问题的指南!在这篇文章中,我将深入介绍成为一名解决方案架构师所需的条件,并对你在这个职位的面试中最有可能被问到的问题提供详细的回答。我使用了第一人称的语言和一些背景故事,使阅读更有亲和力。大部分的回答来自于我自己的
Apache Doris是Elasticsearch + Grafana Loki优点的综合
理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大量的日志而不需要花费太多的资源。 实时文本搜索:它应该能够快速搜索文本。 业界常
数据中台的数据建模
我们探讨了数据建模在数据工程中的重要性、数据建模的历史以及数据日益复杂的情况。我们还谈到了理解数据格局的重要性、其挑战以及业务需求在推动成功的数据项目中的关键作用。 坚实的数据建模基础可帮助组织创建高效、可扩展且灵活的数据架构,以满足各种分析和处理
什么是 PageRank 算法?
谷歌创始人拉里佩奇和谢尔盖布林需要一种算法来对页面进行排名并为用户提供最佳搜索结果:PageRank算法。
Bitcask - 日志结构的快速 KV 存储
Bitcask 是最高效的嵌入式键值 (KV) 数据库之一,旨在处理生产级流量。向世界介绍 Bitcask 的论文称它是一个用于快速键/值数据的
分布式数据库的内部工作原理
由于我的新电动自行车在商店里而无法再次骑着它去上班(这次是因为电线问题导致自行车无法运行!),我开始考虑如何在我的自行车中创造一些冗余设置,这样我就不会因为简单的维护或供应链问题而一次被困在地铁上数周。如果我在修理当前自行车时要骑另一辆自行车怎么办?这肯定会有帮助,但电动自行车很贵,而且我在
pandas 2.0 新变化
Pandas 2.0来了!这是自Pandas诞生以来最大的一次大修,而且已经酝酿了多年。 然而,你可能不会注意到太多的变化,你现有的Pandas代码很可能会像以前一样运行。 所有的主要变化都在引擎盖下。<
SQL 应该是数据工程管道的默认选择
SQL 应该是新数据工程工作的首选。它坚固、快速、面向未来且可测试。稍加注意,它就会清晰易读。一个新的 SQL 引擎 - DuckDB - 使 SQL 与其他高性能数据框架库竞争,使 SQL 成为各种规模数据的良好候选者。 SQL的优点
MotherDuck:大数据已死
十多年来,人们很难从他们的数据中获得可操作的洞察力,这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了",而治疗方法是购买一些能够处理大规模的新的花哨的技术。当然,在大数据工作组购买了所有新的工具并从遗留系统迁移之后,人们发现他们仍然难以理解他们的数据。 <
四种分布式数据库介绍
许多分布式系统有效地使用专用存储,例如: 时间序列 blob存储 图形数据库 空间数据库 下面是对它们的简要介绍: 时间序列
CDC变更数据捕获实施模式
在本文中,我想讨论实现 CDC 的几种不同方法,以及一些关键应用程序是什么以及 CDC 如何融入现代数据流架构的大局。 有几种从数据库中提取变更事件的方法,每一种都有自己的优点和缺点。因此,让我们仔细看看每种方法。
揭密Tweepcred:Twitter推荐引擎背后的力量
您已经在 Twitter 上看到一些人具有某种影响力,他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么? 今天,我们将深入 Tweepcred 的神秘世界,这是计算用户在 Twitter 上的声誉的幕后服务。您无需成
批处理与事件流区别?
随着数据成为现代企业中越来越重要的一部分,组织经常发现自己需要处理大量数据。处理数据的两种常见方法是批处理和事件流。 批处理 批处理涉及通常在预定的时间间隔(例如每天或每周)内一次处理数据。 常用于不需要实时处理的任务和可以
Apache Flink 是实时流处理的行业标准
在 Decodable,我们长期以来一直认为Apache Flink是最好的流处理系统,在满足世界上一些最大和最复杂的企业(如 Netflix、Uber、Stripe 等
盛宝银行基于数据网格的分布式领域驱动架构最佳实践
这篇博客文章概述了如何 盛宝银行 通过采用一种
MLOps 主要是数据工程 - cpard
MLOps 作为管理数据基础设施的一类新工具出现,专门针对 ML 用例,主要假设是 ML 具有独特的需求。 几年后,随着炒作消失,很明显,MLOps 与数据工程的重叠比大多数人认为的要多。让我们看看为什么以及这对 MLOps 生态系统意味着什么。<
SQL 二次兴起 - IEEE Spectrum
SQL 在今年IEEE Spectrum的顶级编程语言互动排名中占据主导地位。
上页
下页
关闭