Hive 优化案例1: Hive 压缩

MapReduce 支持的压缩编码

压缩格式

是否可切分
DEFAULT
Gzip
bzip2
LZO
Snappy

压缩参数配置

输入端压缩io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codeccore-site.xml
Mapper 输出mapreduce.map.output.compresstrue 表示开启 Mapper 压缩
Mapper 输出mapreduce.map.output.compress.codec
Reducer 输出mapreduce.output.fileoutputformat.compresstrue 表示开启 Reducer 压缩
Reducer 输出mapreduce.output.fileoutputformat.compress.codec

案例1: 开启 Map 输出阶段压缩格式为 snappy

set hive.exec.compress.intermediate=true;
set mapreduce.map.output.compress=true;
set mapreduce.map.output.compress.codec=
 org.apache.hadoop.io.compress.SnappyCodec;

案例2: 开启 Reduce 输出阶段压缩格式为 snappy

set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
设置 MapReduce 最终压缩格式为块压缩
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

版权声明:本文为qq_20519927原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。