- 将表或查询从 Postgres 导出到 Parquet 文件
- 将数据从 Parquet 文件导入到 Postgres
- 检查现有 Parquet 文件的架构和元数据
为什么选择 pg_parquet?
Parquet 是一种出色的列式文件格式,可提供高效的数据压缩。在系统之间共享数据时,使用 Parquet 格式的数据非常有意义。您可能要存档较旧的数据,或者存档适合分析而非事务工作负载的格式。虽然有很多工具可以使用 Parquet,但 Postgres 用户只能自己摸索。现在,借助 pg_parquet,Postgres 和 Parquet 可以轻松原生地协同工作。更好的是,您可以使用 Parquet,而无需维护另一个数据管道。
等等,什么是 Parquet? Apache Parquet 是一种开源、标准、面向列的文件格式,诞生于大数据的 Hadoop 时代。Parquet 使用文件以针对 SQL 查询进行优化的方式存储数据。在数据湖的世界里,Parquet 无处不在。
使用 pg_parquet
通过扩展 Postgrescopy命令,我们能够在本地服务器或 s3 中高效地将数据复制到 Parquet 或从 Parquet 复制数据。
-- Copy a query result into a Parquet file on the postgres server |
检查 Parquet 文件
除了将数据复制进或复制出 parquet 之外,您还可以探索现有的 Parquet 文件以开始了解它们的结构。
-- Describe a parquet schema |
Postgres 长期以来一直被信任用于处理事务工作负载,但我们相信在不久的将来,它将同样有能力进行分析。我们很高兴发布pg_parquet,这是让 Postgres 成为您唯一需要的数据库的又一步。