python中html解析库使用

python中解析网页常用的两个库
对于新手来说是利器

from bs4 import BeautifulSoup
from lxml import etree

from bs4 import BeautifulSoup
soup=BeautifulSoup(html,'lxml')
kuai=sou.select('li.gl-item')#获取内容块
for i in kuai:
    print(i.select('li.gl-item').text)

select方法可以套用获取到块内容时可以
.text 取内容
[0] 返回列表取列表
[‘herd’] 取字典方法取标签
#定位id[#]定位类[.]定位标签[ ]

from lxml import etree
html = etree.HTML(html)  # 调用HTML类进行初始化
ret = tree.xpath('//*[@id="main"]/div[3]/div[2]/ul/li/a')#定位内容【/】
for i in ret:
    print(i.xpath('a/div[2]/text()'))
    print(i.xpath('a/@href'))

xpath方法一样可以套用
/text()方法是获取文本
a/@href获取元素内容

原文链接：https://blog.csdn.net/qq_45572062/article/details/107722124