Hadoop的HDFS 入门使用
HDFS for the Batch Layer | Architects Zone一文详细介绍了Hadoop的两个组成部分之一HDFS。
当我们上传一个文件到HDFS,将自动分块到各个数据节点上。对于初学者,文章建议下载Cloudera, Hortonworks, 和 MapR 的Hadoop虚拟机,节省配置时间。
上传文件大概步骤:
$ hadoop fs -mkdir /logins
$ hadoop fs -put logins-2012-10-25.txt /logins
这是将logins-2012-10-25.txt 日志文件上传到logins目录。查询可见:
$ hadoop fs -ls -R /logins
-rw-r--r-- 3 hdfs hadoop 175802352 2012-10-26 01:38
/logins/logins-2012-10-25.txt
能够如Linux的shell命令一下查看文件内容:
$ hadoop fs -cat /logins/logins-2012-10-25.txt
alex 192.168.12.125 Thu Oct 25 22:33 - 22:46 (00:12)
bob 192.168.8.251 Thu Oct 25 21:04 - 21:28 (00:24)
...
为了查看上传的日志文件分块到哪些服务器数据节点上,用如下命令:
|
这个文件被存成两块,其对应的IP地址和端口。