spark是一种计算框架,如果只是想学习,完全可以脱离hadoop而独立运行,当然这样就没法使用hdfs进行数据存储。
windows环境下,使用java语言添加spark依赖包就可以直接使用spark了。
一、maven添加spark依赖:

这个jar包还是挺大的,下载需要点时间。
二、随便写个map操作
import org.apache.commons.lang3.StringUtils;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.util.Arrays;
public class TestMainQF {
public static void main(String [] args){
System.out.println("hello word");
TestMainQF test = new TestMainQF();
test.test();
}
private void test() {
SparkConf conf = new SparkConf().setMaster("local").setAppName("TestQF");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<Integer> inRDD = sc.parallelize(Arrays.asList(1,2,3,4,5));
JavaRDD<Integer> outRDD = inRDD.map(s->s+10);
System.out.println(StringUtils.join(outRDD.collect(),","));
}
}这段代码会正确运行,但日志里会看到hadoop找不到的提示。

没关系,win本地安装一个hadoop就好:https://blog.csdn.net/qq_15903671/article/details/96478320

这个版本的spark依赖包主要是找hadoop的bin路径下的这个winutils.exe文件。加压好hadoop,将winutils加压内容(bin、etc文件夹)覆盖进去, HADOOP_HOME环境变量配置好就OK了。

正常的运行结果。
版权声明:本文为qq_15903671原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。