首页 文章

如何仅使用特定类别的scrapy抓取链接,并忽略产品页面上的链接?

提问于
浏览
1

我想从一个类别抓取产品,但我不希望蜘蛛遵循产品页面本身上找到的链接(相关产品来自同一品牌但不同类型 - 例如,我想要的产品是香水,它作为相关产品有口红) .

该类别的网址为 site.com/category_name/ ,产品网址为 site.com/brand_name/product-name-here/ . 我该如何定义抓取规则?

1 回答

  • 0

    您可以使用规则来定义此类行为 .

    Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
    callback='your_callback', follow=False)
    

    这将使用您的回调抓取类别页面,这将跟随指向产品页面的链接,而不是来自那里的链接 . 您只需要一些模式来识别网址的类别部分 .

相关问题