我在我的网站上有各种各样的分页,我想停止谷歌和其他搜索引擎抓取我的分页索引 .
已爬网页面的示例:
http://www.mydomain.com/explore/recently-updated/index/12
我如何使用robots.txt拒绝机器人抓取任何包含/ index /?的网页?
Disallow: /*?page= Disallow: /*&page=
我相信如果您使用以下内容在根网站目录中创建robots.txt文件:
User-agent: * Disallow: /explore/recently-updated/index/
尝试一下,然后使用某人(可能是谷歌的)机器人检查器来确保它被停止 .
2 回答
我相信如果您使用以下内容在根网站目录中创建robots.txt文件:
尝试一下,然后使用某人(可能是谷歌的)机器人检查器来确保它被停止 .