Hive中行转列和列转行问题

1、行转列

(1) 相关函数说明

  • CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,
    支持任意个输入字符串;
  • CONCAT_WS(separator, str1, str2,…):它是一个特殊形式的CONCAT()。
    第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是NULL,返回值也将为NULL。这个函数会跳过分隔符参数后的任何NULL 和空字符串。分隔符将被加到被连接的字符串之间;
  • 注意: CONCAT_WS must be “string or array”
  • COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生Array 类型字段。

(2) 数据准备

在这里插入图片描述

(3) 需求

把星座和血型一样的人归类到一起。结果如下:

射手座,A 大海|凤姐
白羊座,A 孙悟空|猪八戒
白羊座,B 宋宋|苍老师

(4) 数据准备

  • 创建本地constellation.txt,导入数据
[root@master datas]# vim constellation.txt
孙悟空 白羊座 A
大海 射手座 A
宋宋 白羊座 B
猪八戒 白羊座 A
凤姐 射手座 A
苍老师 白羊座 B
  • 创建hive 表并导入数据
create table person_info(
	name string,
	constellation string,
	blood_type string
) row format delimited fields terminated by ",";

load data local inpath "/usr/local/soft/data/constellation.txt" into table person_info;

(5) 按需求查询数据

SELECT
	t1.c_b,
	CONCAT_WS("|",collect_set(t1.name))
FROM (
	SELECT
		NAME,
		CONCAT_WS(',',constellation,blood_type) c_b
	FROM 
		person_info
) t1
GROUP BY t1.c_b
  • 说明
    使用concat()函数做字符串的拼接;
    使用concat_ws()和collect_set()进行合并行将上面列表中一个user 可能会占用多行转换为每个user 占一行的目标表格式,实际是“列转行”
    collect_set 的作用:
    (1)去重,对group by 后面的user 进行去重;
    (2)对group by 以后属于同一user 的形成一个集合,结合concat_ws 对集合中元素使用,进行分隔形成字符串。

2、列转行

(1) 函数说明

  • EXPLODE(col):将hive 一列中复杂的Array 或者Map 结构拆分成多行。
  • LATERAL VIEW
    用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias
    解释:用于和split, explode 等UDTF函数 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
  • LATERAL VIEW语法中的tableAlias指表别名,columnAlias指列别名,且可以是多个列。

(2) 数据准备

在这里插入图片描述

(3) 需求

将电影分类中的数组数据展开。结果如下:

《疑犯追踪》	悬疑
《疑犯追踪》	动作
《疑犯追踪》	科幻
《疑犯追踪》	剧情
《Lie to me》	悬疑
《Lie to me》	警匪
《Lie to me》	动作
《Lie to me》	心理
《Lie to me》	剧情
《战狼2》	战争
《战狼2》	动作
《战狼2》	灾难

(4) 数据准备

  • 创建本地movie.txt,导入数据
[root@master datas]# vi movie_info.txt
《疑犯追踪》悬疑,动作,科幻,剧情
《Lie to me》悬疑,警匪,动作,心理,剧情
《战狼2》战争,动作,灾难
  • 创建hive 表并导入数据
create table movie_info(
	movie string,
	category string)
row format delimited fields terminated by "\t";

load data local inpath "/usr/local/soft/data/movie.txt" into table movie_info;

(5) 按需求查询数据

SELECT
	movie,
	category_name
FROM
	movie_info
lateral VIEW explode(split(category,",")) movie_info_tmp AS category_name;

版权声明:本文为qq_40078490原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。