我在经销商网站上使用Python Scrapy构建了一个爬行蜘蛛 . 我只是想收集该域下的所有URL以及每个页面,该页面下列出了哪些URL . 然后我可能想用Gephi来可视化该域的网络连接 .

(1) How is the crawled URL stored(memory or disk) and what will be the crawl limit? 但是,我认为爬虫已经运行了4天,它已经爬了大约700K页 . 我知道Scrapy不会抓取它已经抓取过的页面,但我想知道:随着页面数量的增加,Scrapy会有一个限制,它已经抓取了哪个页面?#1462699_被抓取的URL将保留在内存中,或者这背后的机制是什么?

(2) Will there always be an end to crawl a single domain? What if not? 顺便说一句,我现在应该停止爬行,因为我不知道他们是否有可能拥有一些动态页面所以"domain crawling"实际上是一项无穷无尽的任务....例如,他们有一些参数搜索框和这些搜索的所有组合将导致新的页面(javascript调用)但实际上......导致巨大的冗余..

在我了解Scrapy之前,我首先尝试在URL中找出模式,然后填充所有URL,然后转到每个URL并使用urllib2 bs4进行刮擦 . 所以我不太确定这种“盲目”爬行实际上是可控制的 .

这里可能存在一些“哲学”问题而不是具体问题,但......欣赏任何想法或想法 .