网址：http://www.4399.com/flash/

新建Scrapy后，会有自定义取好的名字

在这里插入图片描述

用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间，链接等信息

在这里插入图片描述
注意：
运行： scrapy crawl 爬虫名字
实例：scrapy crawl xiaoyouxi

编写pipeline.对数据进行简单的保存

数据传递到pipeline, 我们先看一下在pipeline中的样子.
首先修改settings.py文件中的pipeline信息
```python
ITEM_PIPELINES = {
# 前面是pipeline的类名地址
# 后面是优先级, 优先级月低越先执行
‘mySpider_2.pipelines.Myspider2Pipeline’: 300,
}

如下（图）

pipelines

items

class GameItem(scrapy.Item):
# 定义数据结构
name = scrapy.Field()
category = scrapy.Field()
date = scrapy.Field()

以下代码在spider中的parse替换掉原来的字典

item = GameItem()
item[“name”] = name
item[“category”] = category
item[“date”] = date
yield item

crapy使用小总结

至此, 我们对scrapy有了一个非常初步的了解和使用. 快速总结一下. scrapy框架的使用流程:

创建爬虫项目. scrapy startproject xxx
进入项目目录. cd xxx
创建爬虫 scrapy genspider 名称抓取域
编写item.py 文件, 定义好数据item
修改spider中的parse方法. 对返回的响应response对象进行解析. 返回item
在pipeline中对数据进行保存工作.
修改settings.py文件, 将pipeline设置为生效, 并设置好优先级
启动爬虫 scrapy crawl 名称

原文链接：https://blog.csdn.net/weixin_48321071/article/details/124001099