python爬虫训练项目4-采取多线程爬取

今天采取多线程的方式爬取下载某图片网站的图片，利用的是线程池的方式实现（ThreadPoolExecutor）。

1.对网站进行请求（requests的get方式，请求头headers建议写全，这样能够防止”防盗链图片“的出现导致你无法进行后续步骤）

2.用Beautifulsoup进行解析，此处我将”图片封面所对应的网站“放在列表里，以便后续对该图片封面的图集进行下载，然后返回（return）”存放网站的列表“

3.将第2步的返回（return）”存放网站的列表“进行进一步解析，用for循环遍历列表里面的每一个网站，然后用Beautifulsoup进行解析并获得对应的图片总数和图片地址，同样的将所有图片地址放入到一个列表里，以便后续调用。

4.将存放图片地址的列表用for循环进行遍历，用with open的方式下载对应地址的图片到指定位置中。

笔者主要是在第3步和第4步采取了多线程的方式，前面两步对整体爬取速率影响不大。

建立一个ip池进行爬取，目前设计的爬虫程序容易被封ip