我为某个网页编写了一个抓取工具 . 这个网页有一个robots.txt,如下所示:
User-Agent: * Crawl-delay: 30
所以它只允许每30秒爬一次网站(对吗?) . 但子页面怎么样?例如 . 我可以在不延迟30秒的情况下抓取以下网站,因为它们是不同的子网页:
www.mysite.com www.mysite.com/category_1 www.mysite.com/category_2
我需要在这些请求之间休息30秒吗?
谢谢,托马斯 .
爬网延迟告诉机器人有关连续请求到同一服务器之间等待的秒数 .
1 回答
爬网延迟告诉机器人有关连续请求到同一服务器之间等待的秒数 .