scrapy中的链接提取

关于scrapy的一小部分(链接提取)
以下过程在命令行中进行(win+R,输入cmd)
1.进入装有scrapy的磁盘中
2.

scrapy  shell  要爬取的网址
from scrapy.linkextractors import LinkExtractor
link = LinkExtractor(allow=r'/book/1222_\d+\.html')
link.extract_links(response)

在这里插入图片描述
3.

link1=LinkExtractor(restrict_xpaths=r'//div[@class="pages"]/a[@href]')
link1.extract_links(response)

在这里插入图片描述


版权声明:本文为qq_56624191原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。