Java 学习之路

1 votes

answers

views

负责任的时间延迟 - 网络爬行

放入仅爬网一个根页的网络爬虫的负责任/道德时间延迟是多少？我在以下调用之间使用time.sleep（＃）requests.get（URL）我正在寻找一个关于什么时间尺度的粗略想法：1 . 方式太保守2.标准3.会引起问题/让你注意到我想触摸符合某些标准的每一页（至少20,000，可能更多） . 这在合理的时间范围内是否可行？编辑这个问题不是关于避免被阻止（尽管任何相关信息都会受到赞赏），而...

python web-crawler delay responsibility

热门问题