一、正则表达式基础语法（Regular Expression）

1、正则表达式的创建方式：对象new RegExp(“正则表达式”, “修饰符”) 或者 /正则表达式/修饰符

伪代码

import re
# 给regExp正则表达式、给string1要匹配的内容
pattern = re.compile(regExp, re.I)
match = pattern.match(string1)

如 [ab|cd]，既可以匹配 ab 也可以匹配 cd。
选择项的尝试匹配次序是左——>右，因此，[a | ab]中当a匹配之后，就不匹配 ab 了，即使 ab 更优。所以书写顺序应该是从繁到简。

作为整体，加上重复次数，如

regExp = "java(script)?"

可以匹配java和javascript
定义子模式，方便后面通过\加数字引用，例如

regExp = "['][a-z][']"
regExp = "(['])[a-z]\1"

效果相同

\o \t \n \v \f \r
^$.*+?=|!/:{}()[] 需要\转译

正则是贪婪的，在全体满足匹配条件的情况下，尽可能贪婪。

符号	意义
`^`	匹配字符串的开头，在多行检测中，匹配一行的开头
`$`	匹配字符串的结尾，在多行检测中，匹配一行的结尾
`\\b`	匹配一个单词边界的位置
`\\B`	匹配非单词边界的位置
`(?=p)`	零宽正向先行断言（要求接下来的字符都与p匹配，但不能包含匹配p的那些字符）
`(?!p)`	零宽负向先行断言（要求接下来的字符不与p匹配）

符号	意义
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响 ^ 和 $
`re.S`	使 . 匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

从开始位置开始匹配

pattern = re.compile("([a-z]+) ([a-z]+)", re.I)
string1 = "hello world I love you"
match = pattern.match(string1)
print(match)

结果，返回对象

<_sre.SRE_Match object; span=(0, 11), match='hello world'>

从任何一个开始匹配

pattern = re.compile("([a-z]+) ([a-z]+)", re.I)
string1 = "hello world I love you"
search = pattern.search(string1)
print(search)

结果，返回对象

<_sre.SRE_Match object; span=(0, 11), match='hello world'>

从任何一个开始匹配所有满足情况的字符

pattern = re.compile("((\d*)(\d+)(\d+))")
list1 = pattern.findall("4324892fja 212 fdsa 43")
print(list1)

结果，返回对象

[('4324892', '43248', '9', '2'), ('212', '2', '1', '2'), ('43', '', '4', '3')]

字符串替换

phone = "158-1115-5899 # 电话号码"
pattern = "\D"
sub = re.sub(pattern, "", phone)
print(sub)

结果，返回列表

15811155899

字符串转列表

split = re.split("[\s\n,]", "kdsajfk fdsa,iii,fdsa\n")
print(split[:-1])

结果，返回列表

['kdsajfk', 'fdsa', 'iii', 'fdsa']