首页 文章

Robots.txt并允许?

提问于
浏览
1

所以我是网络抓取的新手,我无法理解特定的robots.txt文件 . 在这种情况下,这就是网站的内容:

User-agent: *

Allow: /

Sitemap: sitemapURLHere

所以我查了一下 / here,发现它适用于任何路径 . 那么这是否意味着该网站允许抓取所有页面?但是,当我尝试使用scrapy对sitemap.xml(或其他站点URL)链接进行基本爬网时,即

scrapy shell siteURL

我得到一个 403 HTTP 响应,我假设从this链接意味着该网站没有't want you to scrape... so what exactly does this site' s robots.txt 是什么意思?

EDIT 我正在谈论的文件是here

1 回答

  • 0

    这意味着"any user agent (bots) can access all content"并且“在 robots.txt 所在的目录中有一个名为sitemapURLHere的站点 Map ” .

    REM: a robots.txt 只是一组指示,而不是强制执行访问限制的手段 . 如果你不能废弃,那不是因为 robots.txt 本身 .

相关问题