单机模式运行 grep 程序

单机模式不用做任何配置，使用本地文件系统。

如果进行了配置，运行程序就会报错。

在本地目录下创建 input 文件夹，复制一些文件到其中。

mkdir input
cp etc/hadoop/*.xml input

执行一个程序，在 share/hadoop/mapreduce 文件下有许多示例程序。要指定运行的程序，以及输入输出路径。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'

输出路径不能存在。

查看运行结果。

cat output/*

伪分布式模式运行 wordcount

伪分布式按照集群模式进行配置，但实际只有一台计算机。可做测试使用。

按照这篇文章中伪分布式配置方法进行配置。在配置并启动文件系统之后，就可以创建文件夹。

bin/hdfs dfs -mkdir -p /user/username/input

把文件输入其中。

bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input
bin/hdfs dfs -ls /user/username/input

在浏览器中输入 localhost:50070/，可以看到集群信息，也可以看到文件系统里的目录和文件。

运行程序，查看结果。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/username/input/ /user/username/output
bin/hdfs dfs -cat /user/hadoop/output/

输入 localhost:8088/ 可以查看到任务信息。

把输出结果文件下载到本地，并把文件系统上的结果删除。

bin/hdfs dfs -get /user/hadoop/output/part-r-00000 ./wcountput/
bin/hdfs dfs -rm -r /user/hdoop/output

完全分布式模式

按照这篇文章中完全分布式配置方法进行配置。同样地，先创建文件夹，并输入一些文件到其中。

bin/hdfs dfs -mkdir -p /user/cmaster/input
bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input

在浏览器中输入 localhost:50070/，可以看到集群信息，也可以看到文件系统里的目录和文件。

运行程序，查看结果。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcouont /user/username/input /user/username/output
bin/hdfs dfs -cat output/*

或者把输出结果复制到本地系统中。

bin/hdfs dfs -get output output

原文链接：https://blog.csdn.net/Yu_L2/article/details/123986986