我想从一个robots.txt文件包含这个的网站上抓一些数据,这是不是意味着我可以从wp-admin的任何地方刮掉?还有其他任何方式,我可以知道该网站允许抓取/爬行没有任何阻止?对于抓取,我使用Python Scrapy Framework .
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
在较新版本的Scrapy中,引入了新的设置变量 robotstxt_obey - 如果启用,将严格遵循机器人txt
robotstxt_obey
bu默认它有值 True
True
正如在评论中提到的,doc确实说默认值是 False 但是这个行为在最新版本的scrapy中已经更改,现在默认为 True
False
Closed PR - Changed ROBOTSTXT_OBEY default from False to True
Open PR for change in Doc for the same
Link To scrapy docs - robotstxt-obey
1 回答
在较新版本的Scrapy中,引入了新的设置变量
robotstxt_obey
- 如果启用,将严格遵循机器人txtbu默认它有值
True
正如在评论中提到的,doc确实说默认值是
False
但是这个行为在最新版本的scrapy中已经更改,现在默认为True
Closed PR - Changed ROBOTSTXT_OBEY default from False to True
Open PR for change in Doc for the same
Link To scrapy docs - robotstxt-obey