Impala – 源码巴士

在高响应低延迟的SQL查询

直接从HDFS上获取数据

几秒或几分钟返回数据而非Hive的很多分钟或小时

Impala的特性如何和你已经熟悉的技术，如DBMS、数据仓库、或其他Hadoop组件如Hive、HDFS、HBase

The Impala Daemon

Impala核心组件是一个运行在DataNode上的守护进程。这个守护进程读和写数据文件，接收来自impala-shell、Hue、JDBC、ODBC的查询。通过集群均匀分配查询和分布工作，把查询的结果返回到中央控制节点。

你可以向任何运行着Impala守护进程的DataNode提交查询，而那个DataNode的守护进程实例将作为这次查询的中央控制节点。其他的节点传输部分返回后结果到中央控制节点，组成最终的查询结果集。当运行实验功能通过Impala-shell命令，你可能为了便利总是连接到相同的Impala守护进程。为集群负载，你或许要通过循环的方式提交每个查询到不同的Impala进程。

Impala守护进程经常与statestore交互的方式去确认哪个节点是正常的可以接受新的工作。

他们也接受来自catalogd进程的广播信息。无论何时集群中的任何Impala节点被创建、更新、删除对象的任何类型，或当insert或load data statment通过Impala被处理。

原文链接：https://blog.csdn.net/fujiaxiaoshao/article/details/52623271