Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
ChatGPT
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
GitHub工具
更多话题
Blaze:基于Rust加速器用更少资源加速Spark作业
22-05-25
banq
超快的查询执行引擎使用 Apache Spark 语言,并以 Arrow-DataFusion 为核心。
Apache Spark 的 Blaze 加速器利用本机矢量化执行来加速查询处理。它结合了
Apache Arrow-DataFusion
库的强大功能和 Spark 分布式计算框架的规模。
Blaze 从 Spark 获取一个完全优化的物理计划,将其映射到 DataFusion 的执行计划中,并在 Spark 执行器中执行本机计划计算。
Blaze 由以下高级组件组成:
Blaze Spark 扩展:将整个加速器连接到 Spark 执行生命周期中。
Native Operators:定义每个 SparkPlan 如何映射到其本机执行对应项。
JNI 网关:通过 JNI 边界传递数据和控制。
Plan SerDe:使用 protobuf 对 DataFusion 计划进行序列化和反序列化。
Columnarized Shuffle:以 Arrow-IPC 格式组织的 shuffle 数据文件。
基于 DataFusion 固有的明确定义的可
扩展性
,Blaze 可以轻松扩展以支持:
各种对象存储。
运营商。
简单和聚合函数。
文件格式。
1
RUST语言
ApacheSpark大数据工具
Hadoop大数据
数据工程