spark3.0.1 on yarn 配置参数

spark-defaults.conf 常用配置

官方文档地址: https://spark.apache.org/docs/3.0.1/running-on-yarn.html

中文文档地址: https://www.kancloud.cn/kancloud/spark-programming-guide

spark.yarn.historyServer.address	Spark历史服务器,默认 none
spark.history.ui.port	Spark历史服务器端口,默 18080
spark.eventLog.enabled	spark事件日志是否开,默认 false
spark.eventLog.dir	如果 spark.eventLog.enabled true 需要指定事件日志地址默认: file:///tmp/spark-events
spark.history.fs.logDirectory	用于为历史记录程序提供文件系统，包含要加载的应用程序事件日志的目录URL
spark.executor.memory	executor的内存大小,默认 1g
spark.driver.memory	driver的内存大小,默认1g
spark.yarn.jars	包含spark运行所需要的jar目录。默认spark会使用本地的jar。该配置可以允许YARN在各个节点缓存文件，从而避免每次上传
spark.yarn.archive	spark运行所需要的文件，如果配置该属性会替换spark.yarn.jars。
spark.yarn.queue	提交yarn任务的队列
spark.executor.instances	如果开启 spark.dynamicAllocation.enabled，则初始值会有这么大动态分配的executor数量,默认 2
spark.yarn.preserve.staging.files	任务结束是否保存缓存文件( 默认 false ),如果配置为true，当应用执行完成时，不会删除相关的spark jar, app jar, 分布式缓存文件等
spark.yarn.stagingDir	提交程序时暂存目录(包括:spark运行需要的jar 和 conf 文件等)
spark.yarn.submit.file.replication	默认是HDFS的副本数量3，上传到hdfs的文件副本数量，包括spark jar包，app jar包，以及其他的分布式缓存文件。
spark.shuffle.sort.bypassMergeThreshold	调节SortShuffle排序操作阈值, 默认200
spark.shuffle.compress	sparkshuffle是否开启压缩输出,默认是 true
spark.io.compression.codec	指定压缩格式,默认 lz4 ,可选 lzf, snappy, zstd等
spark.shuffle.file.buffer	shuffle缓存文件大小,默认是32kb (可以提高到64)
spark.shuffle.io.maxRetries	shuffle时,因io导致shuffle不稳重试次数,默认 3 如果设置为 0,IO相关异常就会失败有助于在遇到长时间GC暂停或暂时的网络连接问题时稳定shuffle
spark.shuffle.io.retryWait	重试等待时间,默认 5s

版权声明：本文为m0_58149226原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/m0_58149226/article/details/126178567