大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比


presto/spark/mapreduce 计算引擎对比


对比的表结构为146列, 15920816 行数据,数据压缩前的大小15G。


对于执行语句的效率,单位秒

TextFile格式

执行的SQLprestosparkmr
SELECT COUNT(*) FROM tmp.mb_crm1  59.26421.711
SELECT sum(lately_land_btw) FROM tmp.mb_crm1;717.2325.781
SELECT sum(cast(lately_land_btw as bigint)) num,mb_name FROM 
tmp.mb_crm1 where age>=25 group by mb_name order by num desc
820.265128.811


Parquet格式

执行的SQLprestosparkmr
SELECT COUNT(*) FROM tmp.mb_crm1  15.25524.142
SELECT sum(lately_land_btw) FROM tmp.mb_crm1;13.18142.893
SELECT sum(cast(lately_land_btw as bigint)) num,mb_name FROM 
tmp.mb_crm1 where age>=25 group by mb_name order by num desc
311.48666.903

可看出presto优势明显,spark次之,mr 最慢。

使用列式储存后,presto提速明显。


版权声明:本文为kwu_ganymede原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。