在高响应低延迟的SQL查询
直接从HDFS上获取数据
几秒或几分钟返回数据而非Hive的很多分钟或小时
Impala的特性如何和你已经熟悉的技术,如DBMS、数据仓库、或其他Hadoop组件如Hive、HDFS、HBase
The Impala Daemon
Impala核心组件是一个运行在DataNode上的守护进程。这个守护进程读和写数据文件,接收来自impala-shell、Hue、JDBC、ODBC的查询。通过集群均匀分配查询和分布工作,把查询的结果返回到中央控制节点。
你可以向任何运行着Impala守护进程的DataNode提交查询,而那个DataNode的守护进程实例将作为这次查询的中央控制节点。其他的节点传输部分返回后结果到中央控制节点,组成最终的查询结果集。当运行实验功能通过Impala-shell命令,你可能为了便利总是连接到相同的Impala守护进程。为集群负载,你或许要通过循环的方式提交每个查询到不同的Impala进程。
Impala守护进程经常与statestore交互的方式去确认哪个节点是正常的可以接受新的工作。
他们也接受来自catalogd进程的广播信息。无论何时集群中的任何Impala节点被创建、更新、删除对象的任何类型,或当insert或load data statment通过Impala被处理。
版权声明:本文为fujiaxiaoshao原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。