robots.txt会忽略所有文件夹，但会抓取root中的所有文件

提问于 2024-05-04T07:19:37+08:00

浏览次

1

我应该这样做

用户代理： *

不允许： /

它就这么简单吗？或者不会抓取根目录中的文件？

基本上就是我所追求的 - 抓取根目录中的所有文件/页面，但根本不抓取任何文件夹，或者我必须明确指定每个文件夹..即

不允许：/ admin

不允许：/这个

等等

谢谢

NAT

1 回答

2
您的示例将阻止root中的所有文件 .

没有明确指定每个文件夹的方法，没有一种方法可以轻松地执行您想要的操作 .

但是有些爬虫可以让你进行模式匹配 . 您可以禁止所有不支持模式匹配的机器人，但允许那些支持模式匹配的机器人 .

例如
```
# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /
```
回复于 2024-05-04T07:19:37+08:00

相关问题