MapReduce的shuffle机制

MapReduce原理篇
1.1 MapReduce的shuffle机制
1.1.1 概述：
 mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；
 shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；
 具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序；

1.1.2 主要流程：
Shuffle缓存流程：

在这里插入图片描述

shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作：
1、分区partition
2、Sort根据key排序
3、Combiner进行局部value的合并

3.1.3 详细流程
1、 maptask收集我们的map()方法输出的kv对，放到内存缓冲区中
2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3、多个溢出文件会被合并成大的溢出文件
4、在溢出过程中，及合并的过程中，都要调用partitoner进行分组和针对key进行排序
5、 reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据
6、 reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）
7、合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快
缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认100M
mapred-default.xml
3.1.4 详细流程示意图

在这里插入图片描述

1.2. MAPREDUCE中的序列化
1.2.1 概述
Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），不便于在网络中高效传输；
所以，hadoop自己开发了一套序列化机制（Writable），精简，高效
1.2.3 自定义对象实现MR中的序列化接口
如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序,此时，自定义的bean实现的接口应该是：
public class FlowBean implements WritableComparable
需要自己实现的方法是：

/**
 * 反序列化的方法，反序列化时，从流中读取到的各个字段的顺序应该与序列化时写出去的顺序保持一致
 */
@Override
public void readFields(DataInput in) throws IOException {
	
	upflow = in.readLong();
	dflow = in.readLong();
	sumflow = in.readLong();
	

}

/**
 * 序列化的方法
 */
@Override
public void write(DataOutput out) throws IOException {

	out.writeLong(upflow);
	out.writeLong(dflow);
	//可以考虑不序列化总流量，因为总流量是可以通过上行流量和下行流量计算出来的
	out.writeLong(sumflow);

}

@Override
public int compareTo(FlowBean o) {
	
	//实现按照sumflow的大小倒序排序
	return sumflow>o.getSumflow()?-1:1;
}

2.3. MapReduce与YARN
2.3.1 YARN概述
Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序
2.3.2 YARN的重要概念
1、 yarn并不清楚用户提交的程序的运行机制
2、 yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）
3、 yarn中的主管角色叫ResourceManager
4、 yarn中具体提供运算资源的角色叫NodeManager
5、这样一来，yarn其实就与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序，tez ……
6、所以，spark、storm等运算框架都可以整合在yarn上运行，只要他们各自的框架中有符合yarn规范的资源请求机制即可
7、 Yarn就成为一个通用的资源调度平台，从此，企业中以前存在的各种运算集群都可以整合在一个物理集群上，提高资源利用率，方便数据共享

MAPREDUCE实践篇（2）
4.1. Mapreduce中的排序
4.1.1 需求
对日志数据中的上下行流量信息汇总，并输出按照总流量倒序排序的结果
数据如下：

1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 24681 200
1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200
1363157991076 13926435656 20-10-7A-28-CC-0A:CMCC 120.196.100.99 2 4 132 1512 200
1363154400022 13926251106 5C-0E-8B-8B-B1-50:CMCC 120.197.40.4 4 0 240 0 200

在这里插入图片描述

4.1.2 分析
基本思路：实现自定义的bean来封装流量信息，并将bean作为map输出的key来传输

MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前，会排序)，排序的依据是map输出的key
所以，我们如果要实现自己需要的排序规则，则可以考虑将排序因素放到key中，让key实现接口：WritableComparable
然后重写key的compareTo方法

4.1.3 实现
1、自定义的bean

public class FlowBean implements WritableComparable<FlowBean>{
	
	private long upflow;
	private long downflow;
	private long sumflow;
	
	//如果空参构造函数被覆盖，一定要显示定义一下，否则在反序列时会抛异常
	public FlowBean(){}
	
	public FlowBean(long upflow, long downflow) {
		super();
		this.upflow = upflow;
		this.downflow = downflow;
		this.sumflow = upflow + downflow;
	}
	
	public long getSumflow() {
		return sumflow;
	}

	public void setSumflow(long sumflow) {
		this.sumflow = sumflow;
	}

	public long getUpflow() {
		return upflow;
	}
	public void setUpflow(long upflow) {
		this.upflow = upflow;
	}
	public long getDownflow() {
		return downflow;
	}
	public void setDownflow(long downflow) {
		this.downflow = downflow;
	}

	//序列化，将对象的字段信息写入输出流
	@Override
	public void write(DataOutput out) throws IOException {
		
		out.writeLong(upflow);
		out.writeLong(downflow);
		out.writeLong(sumflow);
		
	}

	//反序列化，从输入流中读取各个字段信息
	@Override
	public void readFields(DataInput in) throws IOException {
		upflow = in.readLong();
		downflow = in.readLong();
		sumflow = in.readLong();
		
	}
	
	
	@Override
	public String toString() {
		return upflow + "\t" + downflow + "\t" + sumflow;
	}
	@Override
	public int compareTo(FlowBean o) {
		//自定义倒序比较规则
		return sumflow > o.getSumflow() ? -1:1;
	}
}
2.Mapper和Reducer
public static class FlowCountMapper extends Mapper<LongWritable, Text, FlowBean, Text> {
		private Text v = new Text();
		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			//拿到每一行数据
			String lines = value.toString();
			//将每一个字段封装到数组里面
			String[] fields = lines.split("\t");
			
		
			//拿到手机号
			String phoneNum = fields[1];
			//获取上行流量
			long upflow = Long.parseLong(fields[fields.length - 3]);
			//获取下行流量
			long downflow = Long.parseLong(fields[fields.length - 2]);
			//把上行和下行流量封装到FlowBean类中
			FlowBean flowBean = new FlowBean(upflow, downflow);
			v.set(phoneNum);
			context.write(flowBean, v);
		}
	}
reducer
//reducer类
	public static class FlowCountReducer extends Reducer<FlowBean, Text, Text, FlowBean> {
		
		@Override
		protected void reduce(FlowBean bean, Iterable<Text> phoneNum, Context context)
				throws IOException, InterruptedException {
			Text phoneN = phoneNum.iterator().next();
			context.write(phoneN, bean);
		}
		
	}

main()方法
public static void main(String[] args) throws Exception {
		//1. 创建Job对象
		Job job = Job.getInstance(new Configuration(), "FlowApp");
		//2. 设置jar包的主class类
		job.setJarByClass(FlowCount.class);
		//3. 设置mapper类和reducer类
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);
		//4. 设置mapper类的输出类型
		job.setMapOutputKeyClass(FlowBean.class);
		job.setMapOutputValueClass(Text.class);
		//5. 设置reducer类的输出类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		//6. 指定要处理的文件的位置
		FileInputFormat.setInputPaths(job, new Path(""));
		//7. 指定程序结束后文件的输出结果
		FileOutputFormat.setOutputPath(job, new Path("/out"));
		//8. 提交job任务
		job.waitForCompletion(true);
	}

打包测试代码

使用maven打包
选择项目—》右键----》run as —》Maven build…
输入命令：clean package

在这里插入图片描述

原文链接：https://blog.csdn.net/eyexin2018/article/details/110005653