• 微服务架构促进了去中心化的数据管理实践,其中每个服务都将其数据保密并仅通过定义良好的 API 接口将其公开。尽管这是为了更大的利益,但开发人员发现实现跨越多个服务边界的查询具有挑战性。 一个微服务经常联系几个依赖服务来完成一个读取请求。例如, ShippingService 查询 Custo
  • 数据工程的所有最新工具和趋势: 数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是 icon
  • 数据管道是任何公司数据基础架构中的关键组件。许多公司用来管理其数据提取和转换的一种框架是 Airflow。无论是 100% 使用 Airflow 及其各种运算符,还是使用 Airflow 编排其他组件,例如 Airbyte 和 icon
  • 最初,Airflow 有点像“超级 cron”,因此运行作业的方式与框架本身高度耦合。今天,您必须克服的最大挑战是消除调度和作业之间的耦合。 1)Airflow是一个编排框架,而不是一个执行框架:对于您的工 icon
  • 如果您在 Kubernetes 集群上部署 Airflow,并且正在寻找将 DBT 集成到 Airflow 中的方法,那么本文可能会给您一些启发。需要对 Airflow、DBT(数据构建工具)和 Kubernetes 有一些基本的了解。 icon
  • 如何构建流数据管道以捕获 MySQL 数据库更改并通过 Debezium 和 Kafka 将它们流式传输到 Apache Pinot? icon
  • 我在 Hadoop/Bigdata 的早期阶段开始研究数据管道,当时大数据是一个流行词。Apache Oozie (有人还记得 Oozie 吗?)是一种用于编排数据管道的 icon
  • Snowflake 和 Debezium 在现代数据堆栈中获得了当之无愧的地位,现在很容易找到有关使用这些技术的在线资源。在这篇博客中,我们更进一步,回顾了我们(在 Shippeo)使用 Debezium 近乎实时地将大规模数据复制到 Snowflake 中学到的经验教训。数据是 S icon
  • 牛津词典中定义的幂等“是集合中的一个元素,当它自身相乘或以其他方式运算时,其值不变。” 1.什么是幂等数据管道运行从源获取数据并将其多次加载到关系数据库中的管道可能会导致数据库中存在重复值,从而导致错误的指 icon
  • Adobe使用Kafka处理数据的流量规模:310B msg/day,300 TB/day IN和920 TB/day OUT,今天我们将分享我们在 Kafka Client icon
  • AWS Redshift 是最早的云数据仓库之一,可以说是 Hadoop 之后的一代。Amazon Redshift 是云中完全托管的 PB 级数据仓库服务。该服务适用于小至几百 GB 的数据量,并且可以扩展到高达 PB 或更多的数据量,使您能够处理数据以识别您的业务或客户的新见解 icon
  • 自从数据科学进入 IT 游戏并开始构建大量模型和项目以来,对工作编排的需求已经上升。由于 Jellysmack 的业务主要集中在帮助视频创作者在观众和质量方面增长,我们的许多团队都依赖从 YouTube(或其他社交平台,如 Facebook、Snapchat 等)提取的数据。这正是定义工作的 icon
  • GoCardless 的 ETL 方法侧重于将数据视为 API,避开已经开始巩固的行业标准 ELT 现代数据仓库方法。 上游数据质量挑战在上游遛弯时发现,工程师在修改服务时没有意识到像删除字段这样简单的事情 icon
  • 一张图详列SQL常规操作: icon
  • 如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数十万 TB 的数据,访问正确的信息是保持相关性的关键。从原始、无组织的数据中提取相关信息的能力仍然是业务决策的关键要素。 icon
  • Replibyte 是一种速度极快的工具,可以在您的数据库中植入生产数据,同时保证敏感数据的安全。 特点: 支持 PostgreSQL、MySQL 和 MongoDB 的数据转储和恢复 用虚假数据替换敏感数据 适用于 icon
  • DataBathing可以将 SQL 解析为 JSON,以便我们可以将其转换为其他数据存储! 沃尔玛团队已经成功地从 Hive SQL 驱动转变为数据工程的代码驱动。我们每天都在使用 Spark(Scala 或 Python),我们的计算性能显着提 icon