首页 文章

robots.txt会忽略所有文件夹,但会抓取root中的所有文件

提问于
浏览
1

我应该这样做

用户代理: *

不允许: /

它就这么简单吗?或者不会抓取根目录中的文件?

基本上就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹,或者我必须明确指定每个文件夹..即

不允许:/ admin

不允许:/这个

等等

谢谢

NAT

1 回答

  • 2

    您的示例将阻止root中的所有文件 .

    没有明确指定每个文件夹的方法,没有一种方法可以轻松地执行您想要的操作 .

    但是有些爬虫可以让你进行模式匹配 . 您可以禁止所有不支持模式匹配的机器人,但允许那些支持模式匹配的机器人 .

    例如

    # disallow all robots
    User-agent: *
    Disallow: /
    
    # let google read html and files
    User-agent: Googlebot
    Allow: /*.html
    Allow: /*.pdf
    Disallow: /
    

相关问题