之前的几篇文章介绍了 Hadoop 安装 与配置,以及 HDFS、Map Reduce 和YARN 的体系架构。
这篇文章分别演示在不同模式下如何运行程序。
单机模式运行 grep 程序
单机模式不用做任何配置,使用本地文件系统。
如果进行了配置,运行程序就会报错。
在本地目录下创建 input 文件夹,复制一些文件到其中。
mkdir input
cp etc/hadoop/*.xml input
执行一个程序,在 share/hadoop/mapreduce 文件下有许多示例程序。要指定运行的程序,以及输入输出路径。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
输出路径不能存在。
查看运行结果。
cat output/*
伪分布式模式运行 wordcount
伪分布式按照集群模式进行配置,但实际只有一台计算机。可做测试使用。
按照这篇文章中伪分布式配置方法进行配置。在配置并启动文件系统之后,就可以创建文件夹。
bin/hdfs dfs -mkdir -p /user/username/input
把文件输入其中。
bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input
bin/hdfs dfs -ls /user/username/input
在浏览器中输入 localhost:50070/,可以看到集群信息,也可以看到文件系统里的目录和文件。
运行程序,查看结果。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/username/input/ /user/username/output
bin/hdfs dfs -cat /user/hadoop/output/
输入 localhost:8088/ 可以查看到任务信息。
把输出结果文件下载到本地,并把文件系统上的结果删除。
bin/hdfs dfs -get /user/hadoop/output/part-r-00000 ./wcountput/
bin/hdfs dfs -rm -r /user/hdoop/output
完全分布式模式
按照这篇文章中完全分布式配置方法进行配置。同样地,先创建文件夹,并输入一些文件到其中。
bin/hdfs dfs -mkdir -p /user/cmaster/input
bin/hdfs dfs -put etc/hadoop/*.xml /user/username/input
在浏览器中输入 localhost:50070/,可以看到集群信息,也可以看到文件系统里的目录和文件。
运行程序,查看结果。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcouont /user/username/input /user/username/output
bin/hdfs dfs -cat output/*
或者把输出结果复制到本地系统中。
bin/hdfs dfs -get output output
版权声明:本文为Yu_L2原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。