Hive的常见压缩格式(ORC,Parquet,Sequencefile,RCfile,Avro)的区别

读写查询性能测试:
https://blog.csdn.net/wx1528159409/article/details/88417457
在这里插入图片描述
在这里插入图片描述

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;并且SEQUENCEFILE是存储为二进制文件

ORC和PARQUET是基于列式存储的

行列混合存储的RCFile,该存储结构遵循的是“先水平划分,再垂直划分”的设计理念。先将数据按行水平划分为行组,这样一行的数据就可以保证存储在同一个集群节点;然后在对行进行垂直划分,RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件,

参考:https://www.cnblogs.com/sunpengblog/p/11912958.html#%E5%9F%BA%E4%BA%8E%E8%A1%8C%E5%AD%98%E5%82%A8%E7%9A%84%E4%BC%98%E7%82%B9%E5%92%8C%E7%BC%BA%E7%82%B9


版权声明:本文为wj1298250240原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。