Hadoop 笔记(四)运行一个程序

之前的几篇文章介绍了 Hadoop 安装配置,以及 HDFS、Map ReduceYARN 的体系架构。

这篇文章分别演示在不同模式下如何运行程序。

单机模式运行 grep 程序

单机模式不用做任何配置,使用本地文件系统。

如果进行了配置,运行程序就会报错。

在本地目录下创建 input 文件夹,复制一些文件到其中。

mkdir input
cp etc/hadoop/*.xml input

执行一个程序,在 share/hadoop/mapreduce 文件下有许多示例程序。要指定运行的程序,以及输入输出路径。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'

输出路径不能存在。

查看运行结果。

cat output/*

伪分布式模式运行 wordcount

伪分布式按照集群模式进行配置,但实际只有一台计算机。可做测试使用。

按照这篇文章中伪分布式配置方法进行配置。在配置并启动文件系统之后,就可以创建文件夹。

bin/hdfs dfs -mkdir -p /user/username/input

把文件输入其中。

bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input
bin/hdfs dfs -ls /user/username/input

在浏览器中输入 localhost:50070/,可以看到集群信息,也可以看到文件系统里的目录和文件。

运行程序,查看结果。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/username/input/ /user/username/output
bin/hdfs dfs -cat /user/hadoop/output/

输入 localhost:8088/ 可以查看到任务信息。

把输出结果文件下载到本地,并把文件系统上的结果删除。

bin/hdfs dfs -get /user/hadoop/output/part-r-00000 ./wcountput/
bin/hdfs dfs -rm -r /user/hdoop/output

完全分布式模式

按照这篇文章中完全分布式配置方法进行配置。同样地,先创建文件夹,并输入一些文件到其中。

bin/hdfs dfs -mkdir -p /user/cmaster/input
bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input

在浏览器中输入 localhost:50070/,可以看到集群信息,也可以看到文件系统里的目录和文件。

运行程序,查看结果。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcouont /user/username/input /user/username/output
bin/hdfs dfs -cat output/*

或者把输出结果复制到本地系统中。

bin/hdfs dfs -get output output

版权声明:本文为Yu_L2原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。