ApacheSpark大数据教程

Blaze：基于Rust加速器用更少资源加速Spark作业

超快的查询执行引擎使用 Apache Spark 语言，并以 Arrow-DataFusion 为核心。 Apache Spark 的 Blaze 加速器利用本机矢量化执行来加速查询处理。它结合了

2022 年数据工程现状 - LakeFS

我们在过去一年看到的主要主题是整合。 1、数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一

Claimforce为何使用湖仓统一数据湖和数据仓库？

在 Claimforce，我们最初的大数据方法是一个两层架构，包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段（

Apache Spark：分区和分桶 - Nivedita

分区和分桶用于最大化收益，同时最小化不利影响。它可以减少洗牌的开销、序列化的需要和网络流量。

Apache Iceber能将Amazon S3 成本降低了 90%

与Apache Hive相比，新一代数据湖表格式（Apach

数据摄取的 7 个最佳实践

“数据工程是 2022 年最性感的新工作”它在需求和职业机会方面已经超过了数据科学。如果您还没有看到对数据工程的需求呈天文数字增长，那么您很可能在过去 2 年都生活在山洞里。到底是什么炒作？为了试图回答这个问题，我们必须首先探索，

SPL：专门处理开放格式文件 (txt/csv/json/xml/xls)的Java库

在 Java 应用程序中处理 txt、csv、json、xml 和 xls 等开放格式的数据文件是很常见的。Java 中的硬编码非常复杂，因此我们经常求助于某些现成的开源包。但每个包都有其弱点。解析库这种

JSLLightNLP：使用Spring和LightPipelines为Spark NLP实现API服务的项目

Spark

Spark和Hadoop之间的主要技术差异和选择

Hadoop 和 Spark 都是开源软件的集合，由 Apache 软件基金会维护，用于大规模数据处理。Hadoop 是两者中较老的一个，曾经是处理大数据的首选。然而，自从 Spark 推出以来，它的增长速度远快于 Hadoop，后者不再是该领域无可争议的领导者。随着 Spark 的

DataBathing：将查询传输到 Spark 代码的框架

DataBathing可以将 SQL 解析为 JSON，以便我们可以将其转换为其他数据存储！沃尔玛团队已经成功地从 Hive SQL 驱动转变为数据工程的代码驱动。我们每天都在使用 Spark（Scala 或 Python），我们的计算性能显着提

使用 Spark 优化加速大数据处理 - Gaurav

Apache Spark 是领先的开源数据处理引擎，用于批处理、机器学习、流处理和大规模 SQL（结构化查询语言）。它旨在使大数据处理更快、更容易。自诞生以来，Spark 作为一个大数据处理框架获得了极大的普及，并被处理大量数据的不同行业和企业广泛使用。

在 Data Lakehouse 中统一批处理和流处理

最近，我们在 ALTEN 的一位客户表示希望开始从他们的操作系统中提取和集中数据。从分析的角度来看，他们的信息环境处于未开发状态。这为创建集中式分析平台留下了许多架构选项。我们对数据处理的主要要求包括： 1）平台必须具有高度的变化灵活性，支持不同类型的结构化和非结构化

批处理中的数据质量如何保证？ - Weingarten

下面是我在尼尔森工作时的实现，这在 Airflow 中使用 Soda 来实施数据质量检查的

Eats数据平台：用数据赋能企业

在线食品订购和配送是一个竞争激烈的市场，速度是生存的关键。Coupang Eats（简称Eats）是韩国电商巨头Coupang的外卖子公司。在这篇文章中，我们将详细介绍 Eats 数据平台团队如何构建通用且配置驱动的数据处理系统，通过自动化关键业务运营来加速我们的增长。

Velox 简介：数据平台统一执行引擎

Meta 撰写了有关 Velox 的文章，这是其用于数据工作负载的开源统一执行引擎。该项目是一个令人兴奋的项目它正在远离默认的基于 JVM 的执行引擎，带有 Spark 和 Presto，但提供了完整的查询兼容性。数据帧库可以将执行计划表示为 Velox 计

沃尔玛如何使用 Apache Hudi 和 Spark 实现 SCD-2（渐变维度）？

数据是当今分析世界的宝贵资产。在向最终用户提供数据时，跟踪数据在一段时间内的变化非常重要。渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。在 SCD 的类型中，我们将特别关注类型 2（SCD 2），它保留了值的完整历史。每条记录都包含有效时间和到期时间，以标识记录处

Iceberg+Spark+Trino+Dagster大数据分析开源技术栈 | by ZD

两个月前我组装了ngods（新一代开源数据堆栈），并从那时起将它用于我的朋友的两个项目。

Apache Wayang ：跨平台数据处理系统

Wayang 使用户能够在多个数据处理平台上运行数据分析。为此，Wayang 在现有平台之上提供了一个抽象，以便在任何平台集之上运行数据分析任务。因此，用户可以专注于其应用程序的逻辑，而不是底层平台的复杂性。Apache Wayang 是 5 年综合研究的成果，已经发表了十几篇论文，