python框架—scrapy实例

Python爬虫框架

Scrapy是一个为了爬取网站数据、提取数据而编写的应用型框架,一个非常强大的爬虫框架。今天我们就来用scrapy框架爬取网站上的基本信息,我们要爬取的网站是西刺网,目的是爬取西刺网上的ip地址、端口号以及服务器地址

使用scrapy框架的步骤:
(1)下载scrapy
(2)创建项目
(3)创建爬虫文件

我们要爬取的页面:
在这里插入图片描述

  1. 下载scrapy框架(pip install scrapy),这里我已经下载了scrapy,下载scrapy会引入一些需要的模块,要花一些时间,要耐心等待
    在这里插入图片描述
  2. 创建一个项目,命令为scrapy startproject xxx(项目名)
    在这里插入图片描述在这里插入图片描述
  3. 创建爬虫文件,命令为scrapy genspider xxx(爬虫名) xxx(域名)
    在这里插入图片描述
    在这里插入图片描述
  4. 将文件导入python环境中,这里我们用的是pycharm
    在这里插入图片描述
  5. 我们在爬取信息之前要关闭robot协议
    在这里插入图片描述
  6. 添加请求头
    在这里插入图片描述
  7. 在我们创建的爬虫文件中写程序
# -*- coding: utf-8 -*-
import scrapy

class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://www.xicidaili.com/']   #采集的网址

    def parse(self, response):
        selectors=response.xpath('//tr')  #选择所有的tr标签
        #循环遍历tr标签下的td标签
        for selector in selectors:
            ip=selector.xpath('./td[2]/text()').get()   #获取ip
            port=selector.xpath('./td[3]/text()').get()    #获取端口号
            address=selector.xpath('./td[4]/text()').get()   #获取服务器地址
            print('ip地址:',ip,'端口号:',port,'服务器地址:',address)
  1. 在控制台运行,命令为scrapy crawl xicidaili(爬虫名)
    在这里插入图片描述
    在这里插入图片描述这样,简单的入门实例就运行完成了!!

版权声明:本文为weixin_43497769原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。