python正则表达式之获取a标签href属性

url = re.compile(r'<h2.*?><a\b[^>]+\bhref=\\"([^"]*)"[^>]*>.+?</a></h2>').findall(li)

<h2.?> #表示在h2标签内
<a\b #匹配a标签的开始
[^>]+ #匹配a标签中href之前的内容
\bhref="([^"]
)" #匹配href的值,并将匹配内容捕获到分组1当中
[^>]*> #匹配a标签中href之后的内容
.+? #匹配a标签内的内容
#匹配a标签的结束

()表示需要取的内容
我们要根据自己的文本做适当的改变,匹配都得对应上,再能取到我们需要的内容


版权声明:本文为weixin_38924500原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。