Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
什么是函数式数据工程?
数据建模一直是
为什么每个人都想杀死 Airflow?
Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。 Apache Airflow 从根本上没有错,它是一流的数据工程工具,长期以来一直在推动数据管道向前发展。而
构建微服务分布式作业调度器 - Mesut
本文将帮助您以您可以配置的标准方式自动化您的工作。它还可以通过各种方式触发您的作业并执行您的业务代码。调度作业的方法有很多,包括cron 作业和Windows 任务调度程序,但这些解决方案对用户不友好并且依赖于平台。如果你在云环境(AWS、GCP、Azure 等)上运行,那么你可以使
信息检索的几种方法
信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将获得一个排名匹配的资源列表作为搜索结果。 我们有多种方法可以解决这个问题。下面列出了一些方法
数据帧比较:Polars vs. Spark vs. Pandas vs. DataFusion性能对比
在 Spark 真正成为主流之前,数据科学家仍在大量使用 Pandas。现在每个人都想要一块 DataFrame 蛋糕!
Druid:实时分析数据存储
Apache Druid是一个开源数据库,专为低延迟的近实时和历史数据分析而设计,
CDC:一种将交易数据复制到数据湖的有效方法
对用于将事务数据库的近实时副本创建到分析数据库中的新高效机制的需求正在增长。主要原因是 传统事务数据库副本不适用于分析工作负载 (OLAP)。 它们无法针对长时间运行的分析 (OLAP) 查询进行扩展。 跨数据库连接也不容易并且通常跨越多个事务域边界。
什么是反向ETL?
了解有关反向 ETL 的所有信息、它如何适应现代数据堆栈以及它与 ETL 的不同之处。 在过去的六年里,数据生态系统发生了巨大的变化,我们目睹了几种不同技术的兴衰。然而,有一个不变的东西保持不变:云数据仓库。
用 Snowflake Snowpipe 替换 Apache Druid
在过去十年中,实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据,以便他们能够做出最新的明智决策。GumGum使用实时数据 (1) 在为我们的活动提供服
Janus:Myntra 的数据处理框架
作为印度领先的时尚电子商务门户网站,数据驱动的决策在 Myntra 中发挥着重要作用:了解客户及其不断变化的需求是提高参与度、提供正确的搜索结果、个性化推荐、相关和有针对性的通知、奖励忠诚度等的驱动因素。这是通过从多个来源摄取的数据实现的,这些来源包括交易系统中的数千个表、来自点击流
基于CDC实现源数据库和派生数据库之间的强数据一致性
在源数据库和派生数据库之间保持强数据一致性对于基于CDC的流数据管道至关重要。目标数据库必须反映对源数据库所做的最新更改,因为数据更改速度很快。像Apache Pinot这样的实时OLAP数据库利用其upsert功能来提供可靠的端到端数据一致性。Upsert确保摄取的数据集始终准确并
2023年数据工程预测
需求是发明之母,我预测2023年将是技术的辉煌一年,这些技术可以帮助团队保存数据运维方面的时间、收入和资源
核心数据团队之外有人从事类似工作怎么办?
当您开始看到核心数据团队之外的整个团队都在从事类似数据团队的工作时,情况会更加复杂。这些人通常被引入从事关键业务工作,例如制作预测模型来确定哪些支持代理应该在何时工作或构建数据模型来确定客户的信用评分。 如果做错了,这些团队会带来数据可靠性下降的风险,并可能降低整个公司的决策质量。
Google AI数据卡攻略:数据集文档透明化工具包
Google发布了数据卡,这是一个数据集文件框架,早在提供高数据集生命周期的透明度。数据卡包包括以下内容:
Java流比pyspark性能提高了几十倍 - Reddit
我试图在一些大 CSV 文件的每一行上运行一些自定义逻辑,大约 10 GB数据。尝试过 python 数据帧、python 中的多处理、pyspark。他们都没有在可接受的时间内完成。然后我发现了java流。我有一个使用 pyspark 需要 70 分钟的工作流程。使用 Ja
如何构建连接数据目录? - Tony
如何将组织中的所有数据连接在一起,同时将数据还能留在原处? 什么是数据目录?Gartner 将数据目录定义为“通过发现、描述和组织数据集 [构建] 的数据资产清单。目录提供上下文,使数据分析师、数据科学家、
数据工具本身不是问题,问题在于流程和人员 - angadsg
在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由BI工具解决的,不如说是由人和流程解决的。 Creation > Ingestion > Wa
Auto Trader如何构建实时的客户数据搜索平台?
Auto Trader的CDP是一个专门构建的实时数据库,它从我们的行为数据平台Snowplow获取跟踪事件:每次客户与 Auto Trader 网站或我们的本
上页
下页
关闭