1.关于正则表达式的符号及意义
正则表达式由标准的元字符(metacharacters)所构成:
| / | 做为转义,即通常在“/”后面的字符不按原来意义解释,如/b/匹配字符“b”,当b前面加了反斜杠后//b/,转义为匹配一个单词的边界。-或-对正则表达式功能字符的还原,如““匹配它前面元字符0次或多次,/a/将匹配a,aa,aaa,加了"/"后,/a//将只匹配”a“。 |
|---|---|
| ^ | 匹配一个输入或一行的开头 ,/^a/匹配”an A“,而不匹配”An a“ |
| $ | 匹配一个输入或一行的结尾,/a$/匹配”An a“,而不匹配”an A“ |
| * | 匹配前面原字符0次或多次,/ba*/将匹配b,ba,baa |
| + | 匹配前面元字符1次或多次,/ba*/将匹配ba,ba,baaa |
| ? | 匹配前面元字符0次或1次,/ba?/将匹配b,ba |
| (x) | 匹配x保存x在名为$1…$9的变量中 |
| {n} | 精确匹配n次 |
| {n,} | 匹配n次以上 |
| {n,m} | 匹配n-m次 |
| [xyz] | 字符集(character set),匹配这个集合中任一一个字符(或元字符) |
| [^xyz] | 不匹配这个集合中的任何一个字符 |
| [/b] | 匹配一个退格符 |
| /b | 匹配一个单词的边界 |
| /B | 匹配一个单词的非边界 |
| /d | 匹配一个数字字符,//d/=/[0-9]/ |
| /D | 匹配一个非数字字符,//D/=/[^0-9]/ |
| /n | 匹配一个换行符 |
| /r | 匹配一个换行符 |
| /S | 匹配一个空白字符,包括/n,/r,/f,/t,/v等 |
| /w | 匹配一个可以组成单词的字符,包括下划线,如[/w]匹配”$5.98“中的5,等于[a-zA-Z0-9] |
| /W | 匹配一个不可以组成单词的字符,如[/W]匹配”5.98“中的$,等于[^a-zA-Z0-9] |
‘( )’ 标记一个子表达式的开始和结束的位置。
'[]'标记一个中括号表达式。
/num匹配num,其中num是一个正整数。对锁获取的匹配的引用。
2.regexp_extract函数
regexp_extract(str,regexp[,idx)
字符串正则表达式解析函数。
参数解释:
其中:
str 是被解析的字符串或字段名。
regexp 是正则表达式。
idx 是返回结果 取表达式的哪一部分 默认值是1。
0 是表示把整个表达式对应的结果全部返回
1 表示返回正则表达式中第一个()对应的结果 依次类推
注意事项:
idx的数字不能大于表达式中()的个数,否则会报错。
实例:
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',0);
得到结果:
itde
过程分析:
(i)表示匹配到字符i开始
(.?) (e) 为非贪婪模式 ,就是匹配尽可能少的字符。在这里匹配到任意的字符直到匹配到字符e结束。倘若有n个e并列,仅仅会渠道首个。
如果表达式为(.)(e)为贪婪模式,假如有n个e并列,则会匹配到这n个e。
2)
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',1);
得到结果:
i
返回完整结果中的第一个()中的元素。
3)
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',2);
得到结果:td
返回第二个括号中对应的元素。
4)
select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) ;
得到结果:abc
此时,当前的语句只有2个()表达式分别为([0-9]+)表示匹配到的数字出现1次或多次以及([a-z])表示匹配到的字母出现1次或多次。
如果,当都idx>=3时,就会报错。
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '3': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer) with arguments {x=a3&x=18abc&x=2&y=3&x=4,x=([0-9]+)([a-z]+),3}:No group 3
版权声明:本文为qq_38651064原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。