大数据分布式存储框架Hadoop入门

HDFS的shell操作

hadoop的bin/hadoop fs 查看具体命令

常用命令实操

启动hadoop集群

帮助命令

显示目录信息

在HDFS上创建目录

追加一个文件到已经存在的文件末尾

显示文件内容

从本地文件系统中拷贝文件到HDFS路径去

从HDFS的一个路径拷贝到HDFS的另一个路径

设置HDFS中文件的副本数量

HDFS客户端操作（开发重点）

HDFS 客户端操作

HDFS 的 API 操作

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode返回是否可以上传。
客户端请求第一个Block上传到哪几个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。

采用distcp命令实现两个Hadoop集群之间的递归数据复制

bin/hadoop distcp hdfs://haoop102:9000user/test/hello.txt hdfs://hadoop103:9000/user/test/hello.txt