Python 网页解析 – 源码巴士

活动地址：CSDN21天学习挑战赛

在网页中提取内容一般使用两种方式，一是利用正则表达式做匹配，二是使用现成的解析工具。

正则表达式的功能强大，但对于复杂的网页并不友好。Python 中的解析网页的工具有lxml与BeautifulSoup

这里写一下lxml

lxml库

lxml是Python的一个第三方库，功能丰富且好用，使用C语言开发，执行效率高，同时支持XPath, 用来检索XML和HTML文档内容。

安装命令

pip install lxml

导入相关的库

from lxml import etree

当导入出现异常时。则需要下载lxml 库

pip install lxml-4.3.1-cp37-cp37m-win-amd64.whl

1.通过路径定位元素是最基本的方法

调用etree.HTML方法，将HTML字符串片段，转换为lxml.etree_Element类型，然后就可以使用XPath语法定位元素。

2.通过属性定位元素并获取内容提高了XPath的灵活性，这在提取文档时尤为有用。

3.通过text 和String 方法获取内容：text方法可获取当前级别的内容，string 方法可以获取当前级别与所有子级的内容。

4.XPath功能强大，除了前面示例描述的语法外，还支持谓词查找、通配符查找、“|”运算符查找、Axes语法查找。