Hadoop是一个框架,可为您提供任何类型的数据存储,并允许您在商品硬件集群上运行计算。许多机构使用 Hadoop 分布式文件系统 (HDFS)作为大数据项目的战略存储平台,因为它具有容错性、高并行化和海量存储能力。
WebHDFS 是一种定义公共 HTTP REST API 的协议,因此您可以通过浏览器访问它。WebHDFS 保持原生 Hadoop 协议提供的安全性,并使用并行性来提高吞吐量。
MATLAB的WebHDFS 接口允许您通过 REST API 处理存储在 Hadoop 中的文件和文件夹。您可以执行常见的操作,例如读取、写入、上传和下载文件。
WebHDFS 是对在 MATLAB 中访问和处理 Hadoop 数据的其他方式(例如 Hive 或 Spark)的补充,这可能更适合在大型数据集中进行操作。
WebHDFS 是一种定义公共 HTTP REST API 的协议,该 API 允许客户端通过 Web 访问 Hadoop 分布式文件系统 (HDFS)。它保留了本机 Hadoop 协议提供的安全性并使用并行性,以获得更好的吞吐量。要使用此工具箱,需要在 Hadoop服务器中启用 webhdfs 功能。
该工具箱提供了一组功能,使用户能够通过REST API直接处理存储在 Hadoop 中的文件和文件夹,并执行常见操作,例如读取、写入、上传和下载文件。
什么时候应该使用 WebHDFS?
使用 Hadoop 文件时,WebHDFS 不是唯一的替代方案,您可能需要根据手头的任务考虑其他替代方案。
- 对于大数据应用程序,您可以使用tall 数组或我们的Spark API在 MATLAB 中对算法进行原型设计,并将它们直接部署在支持 Spark 的 Hadoop 集群上
- 您可以使用 Hive 和 Impala 访问您的文件,并运行任何 SQL 或 HQL 命令。此工具可能更适合对大量数据运行查询。
这些工具可能更适合对大型数据集进行分析,而 webhdfs 界面可能是执行小型操作的更好工具,因为数据需要通过 Internet 来回传输。
点击标题Github