一.排查长时等待调度

在这里插入图片描述
submit和start的启动间隔过长，则需要去查看所在队列信息。

二.Map任务读取小文件和大文件

一个map task的信息：
在这里插入图片描述

2021-04-21 18:56:37,942 INFO [main] org.apache.hadoop.mapred.MapTask: Processing split: 
Paths:/hive/student_tb_seq/000000_0:0+134217728,/hive/student_tb_seq/000000_0:134217728+134217728InputFormatClass: org.apache.hadoop.mapred.SequenceFileInputFormat

文件后面的偏移量＋bytes大小：0+134217728，134217728+134217728

128MB是一个split，但是会合并两个split，一个map会一起读取。

要注意如果读取的文件数多数远小于128MB，没配置小文件合并，则效率会低很多。（hive默认开启了小文件合并）

一个可拆文件过大，会产生大量网络IO，尽量计算本地性。