• Meta 撰写了有关 Velox 的文章,这是其用于数据工作负载的开源统一执行引擎。该项目是一个令人兴奋的项目它正在远离默认的基于 JVM 的执行引擎,带有 Spark 和 Presto,但提供了完整的查询兼容性。数据帧库可以将执行计划表示为 Velox 计
  • 我们在过去一年看到的主要主题是整合。 1、数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。 这里值得一 icon
  • 数据是当今分析世界的宝贵资产。在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。每条记录都包含有效时间和到期时间,以标识记录处 icon
  • 两个月前我组装了ngods(新一代开源数据堆栈),并从那时起将它用于我的朋友的两个项目。 icon
  • 在线食品订购和配送是一个竞争激烈的市场,速度是生存的关键。Coupang Eats(简称Eats)是韩国电商巨头Coupang的外卖子公司。在这篇文章中,我们将详细介绍 Eats 数据平台团队如何构建通用且配置驱动的数据处理系统,通过自动化关键业务运营来加速我们的增长。 icon
  • 在 Claimforce,我们最初的大数据方法是一个两层架构,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段( icon
  • 分区和分桶用于最大化收益,同时最小化不利影响。它可以减少洗牌的开销、序列化的需要和网络流量。 icon
  • 与Apache Hive相比,新一代数据湖表格式(Apach icon
  • “数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。如果您还没有看到对数据工程的需求呈天文数字增长,那么您很可能在过去 2 年都生活在山洞里。到底是什么炒作?为了试图回答这个问题,我们必须首先探索, icon
  • 在 Java 应用程序中处理 txt、csv、json、xml 和 xls 等开放格式的数据文件是很常见的。Java 中的硬编码非常复杂,因此我们经常求助于某些现成的开源包。但每个包都有其弱点。 解析库这种 icon
  • 下面是我在尼尔森工作时的实现,这在 Airflow 中使用 Soda 来实施数据质量检查的 icon
  • Spark icon
  • Apache Spark 是领先的开源数据处理引擎,用于批处理、机器学习、流处理和大规模 SQL(结构化查询语言)。它旨在使大数据处理更快、更容易。自诞生以来,Spark 作为一个大数据处理框架获得了极大的普及,并被处理大量数据的不同行业和企业广泛使用。 icon
  • Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台的复杂性。Apache Wayang 是 5 年综合研究的成果,已经发表了十几篇论文, icon
  • Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它的增长速度远快于 Hadoop,后者不再是该领域无可争议的领导者。随着 Spark 的 icon
  • DataBathing可以将 SQL 解析为 JSON,以便我们可以将其转换为其他数据存储! 沃尔玛团队已经成功地从 Hive SQL 驱动转变为数据工程的代码驱动。我们每天都在使用 Spark(Scala 或 Python),我们的计算性能显着提 icon
  • 最近,我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看,他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多架构选项。我们对数据处理的主要要求包括: 1)平台必须具有高度的变化灵活性,支持不同类型的结构化和非结构化 icon