我应该这样做
用户代理: *
不允许: /
它就这么简单吗?或者不会抓取根目录中的文件?
基本上就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹,或者我必须明确指定每个文件夹..即
不允许:/ admin
不允许:/这个
等等
谢谢
NAT
您的示例将阻止root中的所有文件 .
没有明确指定每个文件夹的方法,没有一种方法可以轻松地执行您想要的操作 .
但是有些爬虫可以让你进行模式匹配 . 您可以禁止所有不支持模式匹配的机器人,但允许那些支持模式匹配的机器人 .
例如
# disallow all robots User-agent: * Disallow: / # let google read html and files User-agent: Googlebot Allow: /*.html Allow: /*.pdf Disallow: /
1 回答
您的示例将阻止root中的所有文件 .
没有明确指定每个文件夹的方法,没有一种方法可以轻松地执行您想要的操作 .
但是有些爬虫可以让你进行模式匹配 . 您可以禁止所有不支持模式匹配的机器人,但允许那些支持模式匹配的机器人 .
例如