首页 文章

robots.tx禁止所有爬行延迟

提问于
浏览
1

我想从某个网站获取信息,并检查我是否被允许抓取它 . robots.txt文件考虑了15个不同的用户代理,然后是其他所有用户代理 . 我的困惑来自其他人的声明(包括我在内) . 它是

User-agent: *                  
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*

如果我正确读到这个,该网站要求没有未经授权的用户代理抓取它 . 然而,他们包括爬行延迟的事实似乎很奇怪 . 如果我不被允许抓取它,为什么还会有爬行延迟考虑?为什么他们需要包含任何特定目录?或者,也许我读错了“Disallow:/”?

1 回答

  • 1

    是的,如果减少到这个记录,那么这个记录意味着相同:

    User-agent: *
    Disallow: /
    

    与此记录匹配的僵尸程序不允许抓取此主机上的任何内容(不需要 Crawl-delay 不会更改此内容) .

相关问题