Scrapy&&案例

网址:http://www.4399.com/flash/

新建Scrapy后,会有自定义取好的名字

在这里插入图片描述

用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间,链接等信息

在这里插入图片描述
注意:
运行: scrapy crawl 爬虫名字
实例:scrapy crawl xiaoyouxi

编写pipeline.对数据进行简单的保存

数据传递到pipeline, 我们先看一下在pipeline中的样子.
首先修改settings.py文件中的pipeline信息
```python
ITEM_PIPELINES = {
# 前面是pipeline的类名地址
# 后面是优先级, 优先级月低越先执行
‘mySpider_2.pipelines.Myspider2Pipeline’: 300,
}

如下(图)

pipelines在这里插入图片描述在这里插入图片描述

items

class GameItem(scrapy.Item):
# 定义数据结构
name = scrapy.Field()
category = scrapy.Field()
date = scrapy.Field()

以下代码在spider中的parse替换掉原来的字典

item = GameItem()
item[“name”] = name
item[“category”] = category
item[“date”] = date
yield item

crapy使用小总结

至此, 我们对scrapy有了一个非常初步的了解和使用. 快速总结一下. scrapy框架的使用流程:

  1. 创建爬虫项目. scrapy startproject xxx
  2. 进入项目目录. cd xxx
  3. 创建爬虫 scrapy genspider 名称 抓取域
  4. 编写item.py 文件, 定义好数据item
  5. 修改spider中的parse方法. 对返回的响应response对象进行解析. 返回item
  6. 在pipeline中对数据进行保存工作.
  7. 修改settings.py文件, 将pipeline设置为生效, 并设置好优先级
  8. 启动爬虫 scrapy crawl 名称

版权声明:本文为weixin_48321071原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。