scrapy CrawlSpider：抓取策略/队列问题-Java 学习之路

我几天前开始使用scrapy，学习了抓取特定网站，即dmoz.org示例;到目前为止它很好，我喜欢它 . 由于我想学习搜索引擎开发，我的目标是为任何“颜色”和内容的大量网站构建一个爬虫（以及存储，索引器等） .

到目前为止，我还尝试了深度优先顺序和bredth-first-order爬行 .

我现在只使用一条规则，我设置了一些跳过的路径和一些域 .

Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True),

我有一个管道，一个mysql存储器来存储下载页面的URL，正文和 Headers ，通过带有这些字段的 PageItem 完成 .

我现在的问题是：

还有许多其他问题，如存储，但我想我停在这里，只是一个更常见的搜索引擎问题

1 回答