我想从一个类别抓取产品,但我不希望蜘蛛遵循产品页面本身上找到的链接(相关产品来自同一品牌但不同类型 - 例如,我想要的产品是香水,它作为相关产品有口红) .
该类别的网址为 site.com/category_name/ ,产品网址为 site.com/brand_name/product-name-here/ . 我该如何定义抓取规则?
site.com/category_name/
site.com/brand_name/product-name-here/
您可以使用规则来定义此类行为 .
Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)), callback='your_callback', follow=False)
这将使用您的回调抓取类别页面,这将跟随指向产品页面的链接,而不是来自那里的链接 . 您只需要一些模式来识别网址的类别部分 .
1 回答
您可以使用规则来定义此类行为 .
这将使用您的回调抓取类别页面,这将跟随指向产品页面的链接,而不是来自那里的链接 . 您只需要一些模式来识别网址的类别部分 .