Impala的基本概念

什么是Impala

Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟交互式SQL查询功能

基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。

是CDH平台首选的PB级大数据实时查询分析引擎。

 

Impala的优缺点

优点

  1. 基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。
  2. 无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。
  3. 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。
  4. 支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。
  5. 可以访问hive的metastore,对hive数据直接做数据分析。

缺点

  1. 对内存的依赖大,且完全依赖于hive。
  2. 实践中,分区超过1万,性能严重下降。
  3. 只能读取文本文件,而不能直接读取自定义二进制文件。
  4. 每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。

版权声明:本文为m0_37294838原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。