Robots.txt并允许？-Java 学习之路

所以我是网络抓取的新手，我无法理解特定的robots.txt文件 . 在这种情况下，这就是网站的内容：

User-agent: *

Allow: /

Sitemap: sitemapURLHere

所以我查了一下 / here，发现它适用于任何路径 . 那么这是否意味着该网站允许抓取所有页面？但是，当我尝试使用scrapy对sitemap.xml（或其他站点URL）链接进行基本爬网时，即

scrapy shell siteURL

我得到一个 403 HTTP 响应，我假设从this链接意味着该网站没有't want you to scrape... so what exactly does this site' s robots.txt 是什么意思？

EDIT 我正在谈论的文件是here

1 回答