关于scrapy的一小部分(链接提取)
以下过程在命令行中进行(win+R,输入cmd)
1.进入装有scrapy的磁盘中
2.
scrapy shell 要爬取的网址
from scrapy.linkextractors import LinkExtractor
link = LinkExtractor(allow=r'/book/1222_\d+\.html')
link.extract_links(response)

3.
link1=LinkExtractor(restrict_xpaths=r'//div[@class="pages"]/a[@href]')
link1.extract_links(response)

版权声明:本文为qq_56624191原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。