Apache Hive支持许多文件格式,用于存储表格数据。有关 更多信息,请参阅以下链接。让我们测试其中的一些并尝试它之间的一些转换。
再次让我们假设我们的movies.txt文件在tests / dir HDFS目录中。
[root@sandbox ~]# cat movies.txt |
1. TextFile CSV -> Hive ORC
// CSV Table |
Zeppelin output:
import org.apache.spark.sql.hive.HiveContext |
2. Transformation query -> 新的Dataframe -> 导入新的orc表...
现在让我们添加以下scala测试:
// Transformation query -> New Dataframe -> Import to new orc table... |
Zeppelin output:
import org.apache.spark.sql.hive.HiveContext |
3. Dataframe with ORC data -> HDFS Parquet -> HDFS Parquet back to Dataframe
// ORC DF -> parquet |
Zeppelin output:
import org.apache.spark.sql.hive.HiveContext |
有趣的是将数据帧保存为parquet格式后'/ tests / parquetTabule'HDFS目录的内容:
[root@sandbox ~]# hdfs dfs -ls /tests/parquetTabule |
注意压缩数据。
整个测试代码见这里