#数据工程

Airbyte如何使用Temporal扩展工作流程编排?

22-04-15 462 2 banq

Airbyte 的作用是提供一种在源和目标之间执行数据同步的简单方法。工作流程编排很重要,因为它确保数据按照客户指定的频率同步。 在本文中,我们将讨论能够支持 Airbyte 数据同步的编排器所必需... 详细

Java大型数据集合实现并行加速处理几种方法 - DZone

22-05-03 442 2 banq

在这篇文章中,一个非常简单的转换操作将被应用于一个大型的Java数据集合。 转换操作 对于转换操作,我们定义了一个函数接口。它只是接收一个R类型的元素,应用一个转换操作,并返回一个S类型的转... 详细

报告:上海荣获2022年世界第一智慧城市

22-04-03 472 1 banq

分析公司瞻博网络 发布了 2022 年 全球智慧城市排名,上海位居榜首。该研究评估了智慧城市的几个不同组成部分,包括基础设施、交通、能源和照明以及城市... 详细

Apache Airflow 2.3.0 发布

22-05-02 197 banq

Apache Airflow 2.3.0发布了! 它是一个工作流编排器,用于构建数据管道并按计划运行它们。  这是自2.0.0以来最大的Apache Airflow版本。 自2.2以来有70... 详细

MLOps是过度工程吗?- Reddit

22-04-25 224 banq

数据工程比 DS数据科学 更受欢迎。不幸的是,ML(过度)工程是造成这种情况的一个原因。 以前可以使用 crontab 和 15 行 shell 自动化模型;而现在,你需要在你的 XGBoost 模... 详细

每天会生成巨大的数据库,请教系统设计方法?- Reddit

22-04-24 271 banq

我最近加入了一家仍处于成长阶段的金融科技初创公司。我们管理的平台基本上是投资组合管理。 我们考虑来自用户银行的账户交易、汇率、资产价格(来自路透社等第三方),并计算投资组合估值和业绩。 所以流程可以... 详细

使用Sqoop在MySql和Cassandra之间传输数据

22-04-21 166 banq

Sqoop 是一个  Apache Software Foundation 工具  ,用于在 RDBMS 数据源和 Hadoop 或其他数据源(例如 NoSQL  )之间传输数据。 Sq... 详细

Lyft如何存储支持其ML模型的大规模特征数据?

22-04-19 204 banq

机器学习是 Lyft 应用程序的支柱,Lyft 的 Feature Serving 服务负责为这些 ML 模型提供特征数据。 Lyft 如何使用 Flyte 和 Apache Flink 存储... 详细

数据治理和合规的好处

22-04-16 302 banq

数据合规性是指组织确保所有敏感数据的管理和组织方式能够满足其业务规则以及法律和政府法规,而数据治理涉及使用内部设定的规则和政策来管理组织数据的可用性、安全性、可用性和质量的过程。 数据合规性涉... 详细

深入了解Python的Dask分布式调度程序 - selectfrom

22-04-15 234 banq

Dask 是一个强大的 Python 库,可让您使用一个代码将数据工程从一台机器扩展到多台机器,并具有 Python 的可 扩展性 。这种分布式电源的核心是 Dask 分布式调度程序。 从本质... 详细

是否存在大型存储过程和视图的可视化工具 ? - Reddit

22-04-12 287 banq

我正在做一个古老而古怪的asp.net webform项目,它用存储过程和视图直接从服务器上进行大部分的CRUD操作。 当每个存储过程超过300行时,我很难在头脑中想象出每个存储过程的作用,用手画U... 详细

变更数据捕获CDC几种应用场景 - RTInsights

22-04-03 213 banq

在现代 微服务 驱动 架构 中,CDC 通过提供连接传统数据库与 云原生 、事件驱动架构的桥梁而获得了新的重要性。 变更数据捕获 (CDC) 是一种数据集成模式,用于跟踪数据中何时以及发... 详细

什么是SIEM?

22-04-03 490 banq

SIEM 代表安全、信息和事件管理(  S ecurity, I nformation, and E vent M anagement.)。SIEM 技术将日志数据、安全警报和事件聚合到一个集... 详细

使用150行SQL创建PostgreSQL通用审计解决方案 - supabase

22-03-28 203 banq

数据审计是一个跟踪表内容随时间变化的系统。PostgreSQL 具有一组强大的功能,我们可以利用这些功能在 150 行 SQL 中创建通用审计解决方案。 审计对于历史分析特别有用。 为了证明这一点... 详细

ploomber:建立ML数据管道的最有效率方式

22-03-25 206 banq

Jupyter等开发工具在数据科学家中很流行,因为它们提供了一个环境以可视化和交互方式探索数据。但是,在部署项目时,我们必须确保分析能够在 Airflow 或 Argo 等生产环境中可靠运行;这导致... 详细

共有 215 上一页 1 2 3 4 5 ... 15 下一页