Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
Airbyte如何使用Temporal扩展工作流程编排?
Airbyte 的作用是提供一种在源和目标之间执行数据同步的简单方法。工作流程编排很重要,因为它确保数据按照客户指定的频率同步。在本文中,我们将讨论能够支持 Airbyte 数据同步的编排器所必需的特性以及我们如何利用 Temporal。然后,我们将详细介绍如何构建长期运行的 Tem
报告:上海荣获2022年世界第一智慧城市
分析公司瞻博网络
比较Apache Kafka与各大云计算的分布式日志技术 - scottlogic
Apache Kafka、Amazon Kinesis、Microsoft Event Hubs 和 Google Pub/Sub 等分布式日志技术在过去几年中已经成熟,并且在为某些用例移动数据时添加了一些很棒的新型解决方案。据
Java大型数据集合实现并行加速处理几种方法 - DZone
在这篇文章中,一个非常简单的转换操作将被应用于一个大型的Java数据集合。 转换操作对于转换操作,我们定义了一个函数接口。它只是接收一个R类型的元素,应用一个转换操作,并返回一个S类型的转换对象。
什么是SIEM?
SIEM 代表安全、信息和事件管理( Security, Information, and Event Management.)。SIEM 技术将日志数据、
数据治理和合规的好处
数据合规性是指组织确保所有敏感数据的管理和组织方式能够满足其业务规则以及法律和政府法规,而数据治理涉及使用内部设定的规则和政策来管理组织数据的可用性、安全性、可用性和质量的过程。 数据合规性涉及到个人信息的隐私以及企业和组织如何存储、检索和保护这些敏感数据。组织和企业,特别是
深入了解Python的Dask分布式调度程序 - selectfrom
Dask 是一个强大的 Python 库,可让您使用一个代码将数据工程从一台机器扩展到多台机器,并具有 Python 的可扩展性。这种分布式电源的核心是 Dask 分布式调度程序。 从本质上讲,Dask调度器将工作交给某个工作者worker。如果该
变更数据捕获CDC几种应用场景 - RTInsights
在现代微服务驱动架构中,CDC 通过提供连接传统数据库与云原生、事件驱动架构的桥梁而获得了新的重要性。变更数据捕获 (CDC) 是一种数据集成模式,用于跟踪数据中何时以及发生了哪些变化,然后提醒其他必须响应这些变化的系统和服务。CDC 帮助维护所有依赖数据的系统的一致性和功能。
Apache Wayang :跨平台数据处理系统
Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台的复杂性。Apache Wayang 是 5 年综合研究的成果,已经发表了十几篇论文,
是否存在大型存储过程和视图的可视化工具 ? - Reddit
我正在做一个古老而古怪的asp.net webform项目,它用存储过程和视图直接从服务器上进行大部分的CRUD操作。当每个存储过程超过300行时,我很难在头脑中想象出每个存储过程的作用,用手画UML图需要太多的时间,特别是当这些存储过程中的任何一个被改变时,更新UML将是非常痛苦的
ploomber:建立ML数据管道的最有效率方式
Jupyter等开发工具在数据科学家中很流行,因为它们提供了一个环境以可视化和交互方式探索数据。但是,在部署项目时,我们必须确保分析能够在 Airflow 或 Argo 等生产环境中可靠运行;这导致数据科学家在他们的notebooks和这些生产工具之间来回移动代码。此外,数据科学家必
Apache Airflow 2.3.0 发布
Apache Airflow 2.3.0发布了! 它是一个工作流编排器,用于构建数据管道并按计划运行它们。 这是自2.0.0以来最大的Apache Airflow版本。 自2.2以来有700多个提交,包括50个新功能,99个改进,85个错误修复
使用Avro处理不兼容的架构变动 - Elliot
Apache Avro有数据结构模式兼容性的概念,它允许我们确定一个数据结构是否与一个或多个较早或较新的数据结构在某些兼容性约束方面兼容。我们可以有兼容的变化,这必然意味着我们也可以有不兼容的变化。在这种情况下,我们可以做什么来实现这些破坏性的变化,同时尽量减少对消费者的干扰,不管是
使用150行SQL创建PostgreSQL通用审计解决方案 - supabase
数据审计是一个跟踪表内容随时间变化的系统。PostgreSQL 具有一组强大的功能,我们可以利用这些功能在 150 行 SQL 中创建通用审计解决方案。 审计对于历史分析特别有用。为了证明这一点,设想你有一个用户表,跟踪用户何时在线。你可以
每天会生成巨大的数据库,请教系统设计方法?- Reddit
我最近加入了一家仍处于成长阶段的金融科技初创公司。我们管理的平台基本上是投资组合管理。我们考虑来自用户银行的账户交易、汇率、资产价格(来自路透社等第三方),并计算投资组合估值和业绩。所以流程可以概括为:security transactions -> asset un
使用Sqoop在MySql和Cassandra之间传输数据
Sqoop 是一个 Apache Software Foundation 工具 ,用于在 RDBMS 数据源和 Had
Lyft如何存储支持其ML模型的大规模特征数据?
机器学习是 Lyft 应用程序的支柱,Lyft 的 Feature Serving 服务负责为这些 ML 模型提供特征数据。 Lyft 如何使用 Flyte 和 Apache Flink 存储特征定义并将特征数据提取到服务中。 Lyft 如何使用 Redis、Dyna
MLOps是过度工程吗?- Reddit
数据工程比 DS数据科学 更受欢迎。不幸的是,ML(过度)工程是造成这种情况的一个原因。以前可以使用 crontab 和 15 行 shell 自动化模型;而现在,你需要在你的 XGBoost 模型后面有一大堆 Airflow、Kafka、Snowflake、Spark、Stitch
上页
下页
关闭