spark3.0.1 on yarn 配置参数

spark-defaults.conf  常用配置

官方文档地址:  https://spark.apache.org/docs/3.0.1/running-on-yarn.html

中文文档地址:  https://www.kancloud.cn/kancloud/spark-programming-guide

spark.yarn.historyServer.addressSpark历史服务器,默认 none
spark.history.ui.port Spark历史服务器 端口,默 18080
spark.eventLog.enabledspark事件日志是否开,默认 false
spark.eventLog.dir

如果 spark.eventLog.enabled true 

需要指定事件日志地址 默认: file:///tmp/spark-events 

spark.history.fs.logDirectory用于为历史记录程序提供文件系统,包含要加载的应用程序事件日志的目录URL
spark.executor.memory executor的内存大小,默认 1g
spark.driver.memorydriver的内存大小,默认1g
spark.yarn.jars包含spark运行所需要的jar目录。默认spark会使用本地的jar。该配置可以允许YARN在各个节点缓存文件,从而避免每次上传
spark.yarn.archivespark运行所需要的文件,如果配置该属性会替换spark.yarn.jars。
spark.yarn.queue提交yarn任务的队列
spark.executor.instances

如果开启 spark.dynamicAllocation.enabled,则初始值会有这么大

动态分配的executor数量,默认 2

spark.yarn.preserve.staging.files任务结束是否保存缓存文件( 默认 false ),如果配置为true,当应用执行完成时,不会删除相关的spark jar, app jar, 分布式缓存文件等
spark.yarn.stagingDir提交程序时暂存目录(包括:spark运行需要的jar 和 conf 文件等)
spark.yarn.submit.file.replication默认是HDFS的副本数量3,上传到hdfs的文件副本数量,包括spark jar包,app jar包,以及其他的分布式缓存文件。
spark.shuffle.sort.bypassMergeThreshold调节SortShuffle排序操作阈值, 默认200 
spark.shuffle.compresssparkshuffle是否开启压缩输出,默认是 true
spark.io.compression.codec指定压缩格式,默认 lz4 ,可选 lzf, snappy, zstd等
spark.shuffle.file.buffershuffle缓存文件大小,默认是32kb (可以提高到64)
spark.shuffle.io.maxRetries

shuffle时,因io导致shuffle不稳重试次数,默认 3

如果设置为 0,IO相关异常就会失败

有助于在遇到长时间GC暂停或暂时的网络连接问题时稳定shuffle

spark.shuffle.io.retryWait重试等待时间,默认 5s


版权声明:本文为m0_58149226原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。