第3关:基础正则表达式--区间与区间取反

任务描述
本关任务:运用正则表达式的区间表示方法,编写一个能从文本中快速匹配到数字与不是数字字符的小程序。
相关知识
为了完成本关任务,你需要掌握:

  1. 正则表达式区间的表达方式;
  2. 正则表达式区间取反的表达方式。

本关来学习正则表达式区间与区间取反的相关知识。
1.区间
有一些常见的字符组非常大,比如,我们要匹配的是任意数字,如果依照上述代码,每次我们都需要使用[0123456789] 这种方式明显很不明智,而如果要匹配从a-z的字母,我们也这样编写代码的话,肯定会让我们崩溃。

为了适应这一点,正则表达式引擎在字符组中使用连字符(-)代表区间,所以我们匹配任意数字可以使用[0-9],所以如果我们想要匹配所有小写字母,可以写成[a-z],想要匹配所有大写字母可以写成[A-Z]。

可能我们还有个需求:匹配连字符。因为-会被正则表达式引擎理解为代表连接区间,所以这个时候我们需要对-进行转义。

示例:

a = re.findall(r'[0-9]','xxx007abc')  
b = re.findall(r'[a-z]','abc001ABC')  
c = re.findall(r'[A-Za-z0-9]','abc007ABC')  
d = re.findall(r'[0-9\-]','0edu 007-edu')  
print(a)  
print(b)  
print(c)  
print(d)  

执行结果如下:

['0', '0', '7']  
['a', 'b', 'c']  
['a', 'b', 'c', '0', '0', '7', 'A', 'B', 'C']  
['0', '0', '0', '7', '-']  

2.区间取反
到目前为止,我们定义的字符组都是由可能出现的字符定义,不过有时候我们可能希望根据不会出现的字符定义字符组,例如:匹配不包含数字的字符组。

a = re.findall(r'[^0-9]','xxx007abc')  
b = re.search(r'[^0-9]','xxx007abc')  
print(a)  
print(b)  

执行结果如下:

['x', 'x', 'x', 'a', 'b', 'c']  
<re.Match object; span=(0, 1), match='x'>  

可以通过在字符数组开头使用 ^ 字符实现取反操作,从而可以反转一个字符组(意味着会匹配任何指定字符之外的所有字符)。
接下来再看一个表达式:n[^e] 这意味着字符n接下来的字符是除了e之外所有的字符。

a = re.findall(r'n[^e]','final')  
b = re.search(r'n[^e]','final')  
c = re.findall('r[n[^e]]','Python')  
print(a)  
print(b)  
print(c)  

执行结果如下:

['na']  
<re.Match object; span=(2, 4), match='na'>  
[]  

这里我们可以发现a和b匹配的是na,字符a因为不是e所以可以被匹配,而变量c的值为空,在这里正则表达式引擎只匹配到了字符串n的位置,而n之后没有任何可以匹配[^e]的字符了,所以这里也匹配失败。

[]  
<re.Match object; span=(0, 6), match='master'>  

编程要求
请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,具体任务如下:

  1. 匹配数字字符信息;
  2. 匹配不是数字字符的信息。

测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。
测试输入:Python3 and python2.7;
预期输出:

['3', '2', '7']
['P', 'y', 't', 'h', 'o', 'n', ' ', 'a', 'n', 'd', ' ', 'p', 'y', 't', 'h', 'o', 'n', '.']
# coding=utf-8

import re

input_str = input()

# 1、编写获取到数字的正则,并输出匹配到的信息
########## Begin ##########
is_digit = re.findall(r'[0-9]',input_str)
print(is_digit)

########## End ##########

# 2、编写获取到不是数字的正则,并输出匹配到的信息
########## Begin ##########
except_digit = re.findall(r'[^0-9]',input_str)
print(except_digit)
########## End ##########





版权声明:本文为SorrymakerS原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。