Apache Spark 4.0简介：增强SQL语言功能

2025-06-10 banq

Apache Spark 4.0引入了重大改进，包括增强的SQL语言功能，如SQL脚本，可重用的SQL UDF和PIPE语法，Spark Connect的重大改进，为Python和Scala客户端提供了近乎完整的功能对等，以及对Go，Swift和Rust的新支持。

该版本还强调了可靠性和生产力，默认启用ANSI SQL模式，用于半结构化数据的新VARIANT数据类型，结构化JSON日志记录，新的Python API功能，如基于Plotly的本地绘图和Python数据源API，以及结构化流的进步，如transformWithState API用于任意状态处理和状态存储数据源用于改进可观察性。

Apache Spark 4.0标志着Spark分析引擎发展的一个重要里程碑。此版本带来了全面的重大进步-从SQL语言增强和扩展的连接性，到新的Python功能，流改进和更好的可用性。Spark 4.0的设计比以往任何时候都更强大，符合ANSI标准，用户友好，同时保持与现有Spark工作负载的兼容性。

在这篇文章中，我们将解释Spark 4.0中引入的主要功能和改进，以及它们如何提升您的大数据处理体验。

Spark 4.0的主要亮点包括：

SQL语言增强功能：新功能包括带有会话变量和控制流的SQL脚本、可重复使用的SQL用户定义函数（UDF）和直观的PIPE语法，可简化复杂的分析工作流。
Spark Connect增强功能：Spark Connect-Spark的新客户端-服务器架构-现在在Spark 4.0中实现了与Spark Classic的高功能对等。此版本增加了Python和Scala之间增强的兼容性，多语言支持（带有Go，Swift和Rust的新客户端），以及通过新的spark.API.mode设置更简单的迁移路径。开发人员可以从Spark Classic无缝切换到Spark Connect，从而受益于更模块化、可扩展和灵活的架构。
可靠性和&生产力增强：默认启用的ANSI SQL模式可确保更严格的数据完整性和更好的互操作性，并辅以VARIANT数据类型，以有效处理半结构化JSON数据和结构化JSON日志记录，以提高可观察性并简化故障排除。
Python API Advances：直接在PySpark DataFrames上进行基于原生Plotly的绘图，一个支持自定义Python批处理流连接器的Python数据源API，以及用于动态模式支持和更大灵活性的多态Python URTF。
Structured Streaming Advances：新的任意状态处理API（在Scala中称为transformWithState）、Java Python（用于健壮和容错的自定义状态逻辑）、状态存储可用性改进，以及新的状态存储数据源（用于改进可调试性和可观察性）。

原文点击标题

Apache Spark 4.0简介：增强SQL语言功能

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道