首页 文章

robots.txt也是针对子页面的爬行延迟吗?

提问于
浏览
1

我为某个网页编写了一个抓取工具 . 这个网页有一个robots.txt,如下所示:

User-Agent: * 
Crawl-delay: 30

所以它只允许每30秒爬一次网站(对吗?) . 但子页面怎么样?例如 . 我可以在不延迟30秒的情况下抓取以下网站,因为它们是不同的子网页:

www.mysite.com
www.mysite.com/category_1 
www.mysite.com/category_2

我需要在这些请求之间休息30秒吗?

谢谢,托马斯 .

1 回答

  • 2

    爬网延迟告诉机器人有关连续请求到同一服务器之间等待的秒数 .

相关问题