Rust的数据DataFrame库有哪些?


DataFrame 是一种数据结构,可将数据组织成由行和列组成的二维表,类似于电子表格。DataFrames 是现代数据分析中最常用的数据结构之一,因为它们是一种灵活且直观的存储和处理数据的方式。

Rust 有惊人的Data/DataFrame 库,而且它们会变得更好:

  • Polars是一个速度极快的 DataFrame 库,具有漂亮的用户界面和很棒的入门指南。令人印象深刻的 h2o 基准测试结果让 Polars 获得了很多用户。
  • arrow-datafusion是另一个很棒的 DataFrame 库,特别是如果您喜欢运行 SQL 查询。使用 DataFusion 使用 SQL 查询 Parquet / CSV 数据集非常容易。我已经运行了本地基准测试,而且速度非常快。DataFusion 文档有点缺乏,对于这样一个开发和惊人的库来说,这是一种耻辱。我希望让这些变得更好,并帮助向世界传播这个 lib 的真正神奇之处。
  • arrow2parquet2是 Rust 中优秀的基础库和 DataFrame 库。
  • delta-rs,它将 Delta Lake 的力量带到了 Rust 社区。CSV / Parquet Lakes 是有限的,而 Delta Lakes 提供了大量优势(版本化数据、时间旅行、ACID 事务、模式执行等)。我们正在努力为 delta-rs 带来完整的 Polars 和 DataFusion 支持,请参阅路线图
  • arrow-datafusion 是 influxDB 下一次迭代的核心组件,influx_iox 也是如此。
  • 对于在 Rust 中获取流输入数据并将其作为结构化/压缩输出保存到对象存储:kafka-delta-ingest是将流数据导入 Delta Lake 的好项目

Rust 正迅速成为处理 DataFrame 工作负载的最佳语言之一。它的速度快得令人震惊。