1.UA检测
即User-Agent检测,是最常见的反爬虫方法。服务器通过确认用户代理是否为真实的浏览器,从而做出接受或拒绝响应请求。
解决办法:
通过在请求头上添加一个用户代理来伪装成真实的浏览器
headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15"
} #UA伪装
text = request.get(url=url,headers=headers) #请求时加入请求头
2.IP封锁
当服务器在一段时间内同时收到了来自同一个ip的多次请求时,服务器可能会采取封锁该ip的方式,拒绝提供响应
解决办法:
通过在请求头上添加代理字段,使用代理
以快代理为例,网址:https://www.kuaidaili.com/free/
点击免费代理获得代理ip
补充几个注意点:
(1)匿名度分为三个等级:
透明(服务器知道你使用了代理,并且知道你的真实ip)
匿名(服务器知道你使用了代理,但不知道你真实的ip)
高匿名(服务器不知道你使用了代理,且不知道你的真实ip)
(2)类型要对应你访问的网站,网站是http就用http类型,是https就用https类型
text = request.get(url=url,headers=headers,proxies={"http":"152.136.62.181"})
版权声明:本文为weixin_48826751原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。