DFLib:内存中的 Java DataFrame 库


DFLib 是一个开源纯 Java DataFrame 库。它非常适合编写数据转换、ETL、“笔记本”数据分析、使用图表可视化数据以及许多其他功能。它由ObjectStyle与社区合作开发和支持。

今天的 GA 版本是多年开发的结晶,旨在为普通 Java 开发人员提供完整的数据处理体验,否则只能在 Python 和大数据领域找到。DFLibDataFrame拥有强大而一致的 API 来处理表格数据。一系列内存和 CPU 优化使无需集群即可处理大型数据集。不断发展的可视化框架允许仅用几行代码从 DataFrames生成半交互式 JavaScript 图表。

1.0.0 令人兴奋,我们有一个积极的路线图 - 表达语言、更多图表、更多数据源和连接器、内存映射文件、流媒体等。敬请期待!

分布式数据库
DFLib(“DataFrame 库”)是通用数据结构的轻量级纯 Java 实现DataFrame。DataFrames 存在于 Python(pandas)、R、Spark 和其他语言和框架中。DFLib 的 DataFrame 专门用于 Java 和 JVM 语言。

使用 DataFrame API,您可以获得与 SQL 中相同的数据操作功能(例如连接等),只是您将其应用于内存中和动态定义的“表”对象。虽然 SQL 是“声明式的”,但 DataFrame允许逐步转换,这在某种程度上更容易理解,也更容易编写。

DataFrame用途极其广泛,可用于对各种数据任务进行建模。ETL、日志分析、电子表格处理只是其中的一些示例。DFLib 附带多种数据格式的连接器:CSV、Excel、RDBMS、Avro、Parquet、JSON,并且可以轻松适应其他格式(例如基于 Web 的格式,如 Google Sheets 等)。

DFLib 提供与 Apache Echarts 的集成,以可视化 DataFrame 数据。图表以 HTML/JavaScript 代码的形式生成,可在 Jupyter 以及常规 Web 应用程序中使用。

虽然 DFLib 适用于任何 Java 应用程序,但它与 Jupyter Notebook有[url=https://dflib.org/jjava/docs/1.x/]特殊的集成[/url],Jupyter Notebook是一个基于浏览器的交互式数据探索和分析环境,深受数据科学家和数据工程师的欢迎。事实上,我们的社区为 Jupyter 维护了一个 Java“内核”, 作为 DFLib 的姊妹项目。

演示视频