我的scrapy履带式打印机一直无法正常工作 .
我从网上商店中删除了一些类别,其中包含每个类别页面中的分页但有时它不包含链接分页,因为只有一个页面
我的规则只有在链接分页在我选择的页面内但我不知道如何在类别的根页面是唯一的时候使其工作时才有效 .
这是我的规则 .
rules = [
Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)
任何想法如何使它刮去不包含我目标的分页链接的页面 .
注意:
我使用由mysqlDB填充的启动URL启动爬网蜘蛛,例如,其中arg表用于选择我的链接表,其中使用了启动URL .
scrapy crawl mg_bot_crawler -a table=mini_four
谢谢你的帮助
1 回答
只需将您的回调更改为parse_start_url并覆盖它,请参阅此答案Scrapy CrawlSpider doesn't crawl the first landing page