以这篇文章https://finance.sina.com.cn/money/smjj/smdt/2020-08-12/doc-iivhvpwy0527268.shtml为例,
在抓取文章内容时,不抓取【今日直播】的模块内容

抓取文章内容代码:
from pyquery import PyQuery as pq
import requests
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
}
url = 'https://finance.sina.com.cn/money/smjj/smdt/2020-08-12/doc-iivhvpwy0527268.shtml'
res = requests.get(url,headers=headers)
response = pq(bytes(res.text, res.encoding).decode('utf-8', 'ignore')) # 转码
content_1 = response("#artibody p").text() # 获取内容
print(content_1)【注】由于抓取文章时,内容为乱码,所以需要进行转码,转码可参考爬取网页时文本乱码解决办法
此时获取的内容中含有【今日直播】
解析网页得到【今日直播】的标签

利用代码
response("#artibody blockquote").remove()将【今日直播】标签模块删除
response("#artibody blockquote").remove()
content_2 = response("#artibody p").text()
print(content_2)此时得到的内容中已无【今日直播】
版权声明:本文为weixin_44606217原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。