spark-defaults.conf 常用配置
官方文档地址: https://spark.apache.org/docs/3.0.1/running-on-yarn.html
中文文档地址: https://www.kancloud.cn/kancloud/spark-programming-guide
| spark.yarn.historyServer.address | Spark历史服务器,默认 none |
| spark.history.ui.port | Spark历史服务器 端口,默 18080 |
| spark.eventLog.enabled | spark事件日志是否开,默认 false |
| spark.eventLog.dir | 如果 spark.eventLog.enabled true 需要指定事件日志地址 默认: file:///tmp/spark-events |
| spark.history.fs.logDirectory | 用于为历史记录程序提供文件系统,包含要加载的应用程序事件日志的目录URL |
| spark.executor.memory | executor的内存大小,默认 1g |
| spark.driver.memory | driver的内存大小,默认1g |
| spark.yarn.jars | 包含spark运行所需要的jar目录。默认spark会使用本地的jar。该配置可以允许YARN在各个节点缓存文件,从而避免每次上传 |
| spark.yarn.archive | spark运行所需要的文件,如果配置该属性会替换spark.yarn.jars。 |
| spark.yarn.queue | 提交yarn任务的队列 |
| spark.executor.instances | 如果开启 spark.dynamicAllocation.enabled,则初始值会有这么大 动态分配的executor数量,默认 2 |
| spark.yarn.preserve.staging.files | 任务结束是否保存缓存文件( 默认 false ),如果配置为true,当应用执行完成时,不会删除相关的spark jar, app jar, 分布式缓存文件等 |
| spark.yarn.stagingDir | 提交程序时暂存目录(包括:spark运行需要的jar 和 conf 文件等) |
| spark.yarn.submit.file.replication | 默认是HDFS的副本数量3,上传到hdfs的文件副本数量,包括spark jar包,app jar包,以及其他的分布式缓存文件。 |
| spark.shuffle.sort.bypassMergeThreshold | 调节SortShuffle排序操作阈值, 默认200 |
| spark.shuffle.compress | sparkshuffle是否开启压缩输出,默认是 true |
| spark.io.compression.codec | 指定压缩格式,默认 lz4 ,可选 lzf, snappy, zstd等 |
| spark.shuffle.file.buffer | shuffle缓存文件大小,默认是32kb (可以提高到64) |
| spark.shuffle.io.maxRetries | shuffle时,因io导致shuffle不稳重试次数,默认 3 如果设置为 0,IO相关异常就会失败 有助于在遇到长时间GC暂停或暂时的网络连接问题时稳定shuffle |
| spark.shuffle.io.retryWait | 重试等待时间,默认 5s |
版权声明:本文为m0_58149226原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。