sqoop --split-by详解

其实sqoop中相对来说最有意思的就是–split-by了,咱们来唠唠
这里写图片描述
假设有一张表test,sqoop命令中–split-by ‘id’,-m 10,会发生怎样奇特的事情。首先呢,sqoop会去查表的元数据等等,重点说一下sqoop是如何根据–split-by进行分区的。首先sqoop会向关系型数据库比如mysql发送一个命令:select max(id),min(id) from test。然后会把max、min之间的区间平均分为10分,最后10个并行的map去找数据库,导数据就正式开始啦!66666~

注意点:
1.–split-by对非数字类型的字段支持不好。一般用于主键及数字类型的字段


版权声明:本文为jsjsjs1789原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。