关于爬虫304的解决

但是最近在网络爬虫的过程中,发现一个让人头大的问题。Python3使用requests 抓取信息时遇到304状态码。。。这有些让我摸不着头脑,从返回的状态码来看,应该抓取的内容没有抓取到,查询资料得知是由于请求的header中包含以下两个键值对,那么每次请求将这两个值赋值为空解决了问题:If-None-Natch,If-Modified-Since

def get_header():
    return {
        'User-Agent': random.choice(USER_AGENTS),
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en-US,en;q=0.5',
        'Connection': 'keep-alive',
        'Accept-Encoding': 'gzip, deflate',
        'If-None-Natch':'',
        'If-Modified-Since':''
    }

希望下次遇到该问题的小伙伴们,可以从这里去找到灵感,解决问题。


版权声明:本文为weixin_45580706原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。