首页 文章

负责任的时间延迟 - 网络爬行

提问于
浏览
1

放入仅爬网一个根页的网络爬虫的负责任/道德时间延迟是多少?

我在以下调用之间使用time.sleep(#)
requests.get(URL)

我正在寻找一个关于什么时间尺度的粗略想法:1 . 方式太保守2.标准3.会引起问题/让你注意到

我想触摸符合某些标准的每一页(至少20,000,可能更多) . 这在合理的时间范围内是否可行?

编辑
这个问题不是关于避免被阻止(尽管任何相关信息都会受到赞赏),而是什么时间延迟不会给主机网站/服务器带来问题 . 如果我过于谨慎,我有一个线索 .

1 回答

  • 0

    我检查他们的robots.txt . 如果它列出了爬行延迟,请使用它!如果没有,请尝试合理的事情(这取决于页面的大小) . 如果它是一个大页面,请尝试2秒/秒 . 如果它是一个简单的.txt文件,10 /秒应该没问题 .

    如果所有其他方法都失败了,请与网站所有者联系,了解他们能够很好地处理的问题 .

    (我假设这是一个带宽最小的业余服务器)

相关问题