Scrapy无尽的爬行-Java 学习之路

我在经销商网站上使用Python Scrapy构建了一个爬行蜘蛛 . 我只是想收集该域下的所有URL以及每个页面，该页面下列出了哪些URL . 然后我可能想用Gephi来可视化该域的网络连接 .

（1） How is the crawled URL stored(memory or disk) and what will be the crawl limit? 但是，我认为爬虫已经运行了4天，它已经爬了大约700K页 . 我知道Scrapy不会抓取它已经抓取过的页面，但我想知道：随着页面数量的增加，Scrapy会有一个限制，它已经抓取了哪个页面？＃1462699_被抓取的URL将保留在内存中，或者这背后的机制是什么？

（2） Will there always be an end to crawl a single domain? What if not? 顺便说一句，我现在应该停止爬行，因为我不知道他们是否有可能拥有一些动态页面所以"domain crawling"实际上是一项无穷无尽的任务....例如，他们有一些参数搜索框和这些搜索的所有组合将导致新的页面（javascript调用）但实际上......导致巨大的冗余..

在我了解Scrapy之前，我首先尝试在URL中找出模式，然后填充所有URL，然后转到每个URL并使用urllib2 bs4进行刮擦 . 所以我不太确定这种“盲目”爬行实际上是可控制的 .

这里可能存在一些“哲学”问题而不是具体问题，但......欣赏任何想法或想法 .

Scrapy无尽的爬行

相关问题