Python爬虫框架

Scrapy是一个为了爬取网站数据、提取数据而编写的应用型框架，一个非常强大的爬虫框架。今天我们就来用scrapy框架爬取网站上的基本信息，我们要爬取的网站是西刺网，目的是爬取西刺网上的ip地址、端口号以及服务器地址

使用scrapy框架的步骤：
（1）下载scrapy
（2）创建项目
（3）创建爬虫文件

我们要爬取的页面：
在这里插入图片描述

下载scrapy框架（pip install scrapy），这里我已经下载了scrapy，下载scrapy会引入一些需要的模块，要花一些时间，要耐心等待
创建一个项目，命令为scrapy startproject xxx(项目名)
创建爬虫文件，命令为scrapy genspider xxx(爬虫名) xxx(域名）
将文件导入python环境中，这里我们用的是pycharm
我们在爬取信息之前要关闭robot协议
添加请求头
在我们创建的爬虫文件中写程序

# -*- coding: utf-8 -*-
import scrapy

class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://www.xicidaili.com/']   #采集的网址

    def parse(self, response):
        selectors=response.xpath('//tr')  #选择所有的tr标签
        #循环遍历tr标签下的td标签
        for selector in selectors:
            ip=selector.xpath('./td[2]/text()').get()   #获取ip
            port=selector.xpath('./td[3]/text()').get()    #获取端口号
            address=selector.xpath('./td[4]/text()').get()   #获取服务器地址
            print('ip地址：',ip,'端口号：',port,'服务器地址：',address)

在控制台运行，命令为scrapy crawl xicidaili(爬虫名)

这样，简单的入门实例就运行完成了！！

原文链接：https://blog.csdn.net/weixin_43497769/article/details/105956632