#数据工程

Malloy会取代SQL语言吗?- Carlin

22-09-20 219 1 banq

SQL的基础是在关系型数据库的黎明时期奠定的。那时,还没有数据仓库,没有商业智能工具,当然也没有分析工程师这样的东西。然而,SQL仍然是大多数数据专业人员与他们的原始材料进行交互的主要用户界面。底层... 详细

大规模实时流计算的系统设计 - Kashyap

22-09-20 204 1 banq

使用 Spring、Pub/Sub、Dataflow、Redis、Reentrant Lock 模式和 guava 缓存构建实时视图计数服务以处理 20k tps 规模。 ​ 系统 . 详细

BinChengZhao/delicate :Rust编写一个轻量的分布式的任务调度平台

22-09-20 154 banq

delicate 一个轻量的分布式的任务调度平台通过rust编写. : 特性 友好的用户界面: [前端]方便地管理任务和执行器,监控其状态,支持手动维护运行中的任务等。 灵活的操作: 灵活的... 详细

批处理中的数据质量如何保证? - Weingarten

22-09-20 158 banq

下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 博客 类似。 当我在尼尔森时,还没有一个数据质量的总体框架或平台,所以我们“开发”的只是内部供我们自己使... 详细

三代商业智能工具BI综述

22-09-20 139 banq

商业智能平台的使命是启迪......商业决策,这一点并不令人意外。有两种方法可以做到这一点。 提供一个出色的技术平台,允许数据团队向运营团队自我提供高质量的数据。 组织运营团队与数据团队完全... 详细

什么是数据沿袭、数据世系(data lineage)?

22-09-20 153 banq

在 Back Market 的数据工程实习期间,我专注于为我们的内部数据消费者设计和集成数据沿袭平台。本文收集了我学到的关于如何快速识别不同类型的数据沿袭(数据世系data lineage)的关键经... 详细

什么是全栈数据科学家?

22-09-19 176 banq

在 Shopify,我们接受了全栈数据科学的理念,并且经常被问到“成为全栈数据科学家意味着什么?”。该术语最近在数据行业中出现了激增,但似乎没有就定义达成共识。因此,我们与几位 Shopify 数据... 详细

Claimforce为何使用湖仓统一数据湖和数据仓库?

22-09-18 198 banq

在 Claimforce,我们最初的大数据方法是一个两层 架构 ,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段( 此处 概述)。随着时间的推移,我... 详细

如何使用 Kubernetes 和 GIT 部署 Airflow ?

22-09-15 198 banq

Apache Airflow 给我留下了深刻的印象。引擎快如闪电,编写管道真的很容易。 另一个很棒的功能是它与源代码控制同步。这样,我就知道在环境中执行了哪些内容。 一个好的提示:拥有从主分支读取的... 详细

数据网格的注意事项 - Kineret

22-09-13 227 banq

数据网格是一种思维方式的改变,一种从一个团队拥有多个可交付成果到多个数据团队各自拥有一个可交付成果的视角转变。数据网格是数据民主化和实现每个组织的梦想的关键--真正的数据驱动。 在BlaBlaCa... 详细

如何用事件总线实现数据合约?- mehdio

22-09-13 206 banq

如果您从事数据工作,那么您很有可能多次遇到这个问题:数据是错误的,您不知道为什么。数据上游似乎有问题,但是您的内部同事都不知道为什么,我们该怎么办?我们应该联系谁? 由于数据不是一等公民,数据团队... 详细

Apache Iceberg 英文学习资料

22-09-13 215 banq

Apache Iceberg 是一种开源数据湖库表格式,已席卷大数据分析世界。  在本文中,您将找到一个 101 视频课程,以及您在概念和实践方面快速了解 Apache Iceberg 所需的所有资... 详细

Apache Flink回应Akka许可证收费事件

22-09-09 335 banq

Akka的新许可证给Apache Flink带来了许多问题,因为它在内部使用Akka 进行集群协调。 但是,Apache Flink的许可证不会改变。将不会再使用 Akka 2.7+,这将确保用户不... 详细

经验教训:Instacart 的实时机器学习之旅 - shu

22-09-09 303 banq

Instacart 广泛地结合了机器学习,以提高我们“四面市场”中所有参与者的体验质量——在 Instacart 应用程序上下订单以在 30 分钟内获得交货的客户,可以随时上网以满足客户需求的购物者... 详细

数据摄取的 7 个最佳实践

22-09-09 274 banq

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。 如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过去 2 年都生活在山洞里。 到底是什么炒作? 为... 详细

共有 2671 2 3 4 ... 18 下一页