hive 中order by 与 sort by 的区别

相信大家在执行Hive语句时要进行排序时总会第一想到order by,我也是!

但每次只要是涉及到order by 都发现MapReduce了好久

今天我尝试了用sort by 代替了order by惊讶地发现MapReduce时间远远比使用order by的时间更短!

以下是具体的

执行了select ip,count(ip) from ip_to_country group by ip order by ip;

发现MapReduce过程如下第一张图


执行了select ip,count(ip) from ip_to_country group by ip sort  by ip;

发现MapReduce过程如下第二张图


可以通过观察所花时间看出来!

还有因为在这个过程中每个执行语句都涉及到两个MapReduce任务,所以每张图才会有两个mapreduce过程!



版权声明:本文为u013457065原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。