python正则表达式之获取a标签href属性

url = re.compile(r'<h2.*?><a\b[^>]+\bhref=\\"([^"]*)"[^>]*>.+?</a></h2>').findall(li)

<h2.?> #表示在h2标签内
<a\b #匹配a标签的开始
[^>]+ #匹配a标签中href之前的内容
\bhref="([^"])" #匹配href的值，并将匹配内容捕获到分组1当中
[^>]*> #匹配a标签中href之后的内容
.+? #匹配a标签内的内容
#匹配a标签的结束

（）表示需要取的内容
我们要根据自己的文本做适当的改变，匹配都得对应上，再能取到我们需要的内容