大数据学习——java调用spark学习测试

spark是一种计算框架，如果只是想学习，完全可以脱离hadoop而独立运行，当然这样就没法使用hdfs进行数据存储。

windows环境下，使用java语言添加spark依赖包就可以直接使用spark了。

一、maven添加spark依赖：

这个jar包还是挺大的，下载需要点时间。

二、随便写个map操作

import org.apache.commons.lang3.StringUtils;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class TestMainQF {
    
    public static void main(String [] args){
        System.out.println("hello word");
        TestMainQF test = new TestMainQF();
        test.test();
    }

    private void test() {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("TestQF");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<Integer> inRDD = sc.parallelize(Arrays.asList(1,2,3,4,5));
        JavaRDD<Integer> outRDD = inRDD.map(s->s+10);
        System.out.println(StringUtils.join(outRDD.collect(),","));
    }
}

这段代码会正确运行，但日志里会看到hadoop找不到的提示。

没关系，win本地安装一个hadoop就好：https://blog.csdn.net/qq_15903671/article/details/96478320

这个版本的spark依赖包主要是找hadoop的bin路径下的这个winutils.exe文件。加压好hadoop，将winutils加压内容（bin、etc文件夹）覆盖进去， HADOOP_HOME环境变量配置好就OK了。

正常的运行结果。

原文链接：https://blog.csdn.net/qq_15903671/article/details/96839875