robots.txt在这一行中意味着什么？

提问于 2024-05-06T05:33:09+08:00

浏览次

-4

我想从一个robots.txt文件包含这个的网站上抓一些数据，这是不是意味着我可以从wp-admin的任何地方刮掉？还有其他任何方式，我可以知道该网站允许抓取/爬行没有任何阻止？对于抓取，我使用Python Scrapy Framework .

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

1 回答

1
在较新版本的Scrapy中，引入了新的设置变量 robotstxt_obey - 如果启用，将严格遵循机器人txt

bu默认它有值 True

正如在评论中提到的，doc确实说默认值是 False 但是这个行为在最新版本的scrapy中已经更改，现在默认为 True
回复于 2024-05-06T05:33:09+08:00

相关问题