python中解析网页常用的两个库
对于新手来说是利器
from bs4 import BeautifulSoup
from lxml import etree
from bs4 import BeautifulSoup
soup=BeautifulSoup(html,'lxml')
kuai=sou.select('li.gl-item')#获取内容块
for i in kuai:
print(i.select('li.gl-item').text)
select方法可以套用获取到块内容时可以
.text 取内容
[0] 返回列表取列表
[‘herd’] 取字典方法取标签
#定位id[#]定位类[.]定位标签[ ]
from lxml import etree
html = etree.HTML(html) # 调用HTML类进行初始化
ret = tree.xpath('//*[@id="main"]/div[3]/div[2]/ul/li/a')#定位内容【/】
for i in ret:
print(i.xpath('a/div[2]/text()'))
print(i.xpath('a/@href'))
xpath方法一样可以套用
/text()方法是获取文本
a/@href获取元素内容
版权声明:本文为qq_45572062原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。