所以我是网络抓取的新手,我无法理解特定的robots.txt文件 . 在这种情况下,这就是网站的内容:
User-agent: *
Allow: /
Sitemap: sitemapURLHere
所以我查了一下 /
here,发现它适用于任何路径 . 那么这是否意味着该网站允许抓取所有页面?但是,当我尝试使用scrapy对sitemap.xml(或其他站点URL)链接进行基本爬网时,即
scrapy shell siteURL
我得到一个 403 HTTP
响应,我假设从this链接意味着该网站没有't want you to scrape... so what exactly does this site' s robots.txt
是什么意思?
EDIT 我正在谈论的文件是here
1 回答
这意味着"any user agent (bots) can access all content"并且“在
robots.txt
所在的目录中有一个名为sitemapURLHere的站点 Map ” .REM: a
robots.txt
只是一组指示,而不是强制执行访问限制的手段 . 如果你不能废弃,那不是因为robots.txt
本身 .