1、行转列
(1) 相关函数说明
- CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,
支持任意个输入字符串; - CONCAT_WS(separator, str1, str2,…):它是一个特殊形式的CONCAT()。
第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是NULL,返回值也将为NULL。这个函数会跳过分隔符参数后的任何NULL 和空字符串。分隔符将被加到被连接的字符串之间; - 注意: CONCAT_WS must be “string or array”
- COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生Array 类型字段。
(2) 数据准备
(3) 需求
把星座和血型一样的人归类到一起。结果如下:
射手座,A 大海|凤姐
白羊座,A 孙悟空|猪八戒
白羊座,B 宋宋|苍老师
(4) 数据准备
- 创建本地constellation.txt,导入数据
[root@master datas]# vim constellation.txt
孙悟空 白羊座 A
大海 射手座 A
宋宋 白羊座 B
猪八戒 白羊座 A
凤姐 射手座 A
苍老师 白羊座 B
- 创建hive 表并导入数据
create table person_info(
name string,
constellation string,
blood_type string
) row format delimited fields terminated by ",";
load data local inpath "/usr/local/soft/data/constellation.txt" into table person_info;
(5) 按需求查询数据
SELECT
t1.c_b,
CONCAT_WS("|",collect_set(t1.name))
FROM (
SELECT
NAME,
CONCAT_WS(',',constellation,blood_type) c_b
FROM
person_info
) t1
GROUP BY t1.c_b
- 说明
使用concat()函数做字符串的拼接;
使用concat_ws()和collect_set()进行合并行将上面列表中一个user 可能会占用多行转换为每个user 占一行的目标表格式,实际是“列转行”
collect_set 的作用:
(1)去重,对group by 后面的user 进行去重;
(2)对group by 以后属于同一user 的形成一个集合,结合concat_ws 对集合中元素使用,进行分隔形成字符串。
2、列转行
(1) 函数说明
- EXPLODE(col):将hive 一列中复杂的Array 或者Map 结构拆分成多行。
- LATERAL VIEW
用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解释:用于和split, explode 等UDTF函数 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。 - LATERAL VIEW语法中的tableAlias指表别名,columnAlias指列别名,且可以是多个列。
(2) 数据准备
(3) 需求
将电影分类中的数组数据展开。结果如下:
《疑犯追踪》 悬疑
《疑犯追踪》 动作
《疑犯追踪》 科幻
《疑犯追踪》 剧情
《Lie to me》 悬疑
《Lie to me》 警匪
《Lie to me》 动作
《Lie to me》 心理
《Lie to me》 剧情
《战狼2》 战争
《战狼2》 动作
《战狼2》 灾难
(4) 数据准备
- 创建本地movie.txt,导入数据
[root@master datas]# vi movie_info.txt
《疑犯追踪》悬疑,动作,科幻,剧情
《Lie to me》悬疑,警匪,动作,心理,剧情
《战狼2》战争,动作,灾难
- 创建hive 表并导入数据
create table movie_info(
movie string,
category string)
row format delimited fields terminated by "\t";
load data local inpath "/usr/local/soft/data/movie.txt" into table movie_info;
(5) 按需求查询数据
SELECT
movie,
category_name
FROM
movie_info
lateral VIEW explode(split(category,",")) movie_info_tmp AS category_name;
版权声明:本文为qq_40078490原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。