hive
hive是基于Hadoop的数据仓库工具,可以将结构化数据文件映射为数据库表。并提供简单的sql功能,可以将sql转化为mr任务运行。因为sql学习成本低,不必专门开发mr应用,十分适合数据仓库的统计分析。
hbase
HBase是建立在HDFS之上,提供高可靠性的列存储,实时读写的数据库系统。它介于Nosql和关系型数据库之间,仅通过主键和主键的range来检索数据,仅支持单行事务。主要用来存储非结构化和半结构化的松散数据。
区别
Hive和Hbase是两种基于Hadoop的不同技术:Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL的Key/vale数据库,只支持简单的行列操作。当然,这两种工具是可以同时使用的。Hive可以用来进行统计查询,HBase可以用来进行快速的实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
扩展:
在哪种场景下,使用哪种技术。
1.当所存储数据需要快速插入查询时,使用hbase,所以storm或sparksteaming常常存储入hbase。
2.当数据需要大量聚合运算,计算分析结果时,使用hive存储,所以hive是数仓,etl的常用工具。
版权声明:本文为u011110301原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。