WebHDFS :通过Web访问Hadoop分布式文件系统 (HDFS)的开源工具

22-01-27 banq

Hadoop是一个框架,可为您提供任何类型的数据存储,并允许您在商品硬件集群上运行计算。许多机构使用 Hadoop 分布式文件系统 (HDFS)作为大数据项目的战略存储平台,因为它具有容错性、高并行化和海量存储能力。
WebHDFS 是一种定义公共 HTTP REST API 的协议,因此您可以通过浏览器访问它。WebHDFS 保持原生 Hadoop 协议提供的安全性,并使用并行性来提高吞吐量。

MATLABWebHDFS 接口允许您通过 REST API 处理存储在 Hadoop 中的文件和文件夹。您可以执行常见的操作,例如读取、写入、上传和下载文件。
WebHDFS 是对在 MATLAB 中访问和处理 Hadoop 数据的其他方式(例如 Hive 或 Spark)的补充,这可能更适合在大型数据集中进行操作。
WebHDFS 是一种定义公共 HTTP REST API 的协议,该 API 允许客户端通过 Web 访问 Hadoop 分布式文件系统 (HDFS)。它保留了本机 Hadoop 协议提供的安全性并使用并行性,以获得更好的吞吐量。要使用此工具箱,需要在 Hadoop服务器中启用 webhdfs 功能。
该工具箱提供了一组功能,使用户能够通过REST API直接处理存储在 Hadoop 中的文件和文件夹,并执行常见操作,例如读取、写入、上传和下载文件。
 
什么时候应该使用 WebHDFS?
使用 Hadoop 文件时,WebHDFS 不是唯一的替代方案,您可能需要根据手头的任务考虑其他替代方案。


这些工具可能更适合对大型数据集进行分析,而 webhdfs 界面可能是执行小型操作的更好工具,因为数据需要通过 Internet 来回传输。
点击标题Github

猜你喜欢