1.hadoop官网上下载hadoop2.7.2.tar.gz 并且配置成环境变量
开始之前必须配置本地的hadoop环境
HADOOP_HOME=H:\source\hadoop\hadoop-2.7.2
PATH中增加 %HADOOP_HOME%\bin
配置完成后,通过cmd 执行hadoop 如果能够成功证明环境配置完成。
2.下载windows-hadoop-bin的压缩包(windows下运行MR 必备的)
bin2.7.2 包我会提供出来
bin2.7.2 这个是windows-hadoop-bin 的压缩包,解压完了后用解压的bin包替换成hadoop-2.7.2 里面的bin。
注意是替换
3.将解压出来bin目录中的hadoop.dll也放入C:\Windows\System32(最好操作)
4.1901 这个是天气的测试数据包(后续解压在hadoop MR 的输入文件夹中)
5.windows运行时中可能出现的错误
No valid local directories in property: mapreduce.cluster.local.dir
如果出现这个错误,可以在代码中通过这个配置会默认在本地的hadoop目录下中建立data,不需要手动建立
======例如我的 H:\source\hadoop\hadoop-2.7.2\data====
Job job = new Job();
Configuration conf = job.getConfiguration();
conf.set("mapreduce.cluster.local.dir","H:\\source\\hadoop\\hadoop-2.7.2\\data");
job=new Job(conf);
6.Winodws 运行出现
解决org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
11.本地还需要配置log4j的配置文件,查看具体的日志12. hadoop-2.7.2的tag.gz 包
13.windows-hadoop-bin 的包
###本体调试时,不能加上yarn.site.xml 和map-reduce.xml 需要用默认的。如果发现IDEA调试时,存在缓存,需要清除项目中的class文件,然后重新Debug即可。
遇到的缓存情况,就是在本地把上面两个.xml文件删除,但是发现加载时总会存在,就是之前IDEA编译的class 需要重新编译