首页 文章

动态数据的新鲜爬行

提问于
浏览
0

我正在尝试编写一个爬虫来抓取包含大约15 GB数据的网站的信息 . 我抓取信息并将其存储在我的数据库中 . 现在,新页面每周都会继续添加到网站,同时旧页面也会更新 . 这是否意味着我必须重新抓取整个15 GB的数据,并在每次进行某些编辑时再次构建我的数据库 . 处理这个问题最简单的方法是什么? Google新闻如何运作,因为他们面临着类似的全球信息更新问题?到目前为止,我已经找到了关于这个主题的以下研究论文:

http://oak.cs.ucla.edu/~cho/papers/cho-tods03.pdf

是否始终需要为此目的编写自定义爬网程序?我不能使用Scrapy或Nutch吗?

1 回答

  • 1

    您在Nutch中可以做的是使用AdaptiveFetchSchedule,如here所述 . 它让Nutch重新抓取一个页面,检测它是否在此期间被更改,并使计划更频繁地重新抓取更频繁更改的页面,反之亦然 . 当然,您可以检查Last-Modified标头是否存在并且是否可信,如果日期在最后一次爬网之前,则不会重新爬网 . 不确定在检测到更改时是否已在Nutch中实现,或者是否使用了某些基于散列的解决方案,但如果需要,手动操作并不难 .

相关问题