我曾尝试过访问facebook.com网页 . 该网站向我显示一个错误,它无法保存页面,因为该网站robots.txt /
任何人都可以告诉robots.txt中的哪些语句使web.archive.org无法访问该站点我想这是因为这里提到的#permission语句(http://facebook.com/robots.txt)
有没有其他方法我可以为我的网站这样做 .
我也不想要woorank.com或builtwith.com来分析我的网站 .
注意:如果我向robots.txt添加一些语句以获得上述结果,搜索引擎机器人在抓取我的网站时应该没有问题并将其编入索引 .
1 回答
Internet Archive(archive.org)爬网程序使用User-Agent值
ia_archiver
(请参阅their documentation) .因此,如果您想在robots.txt中定位此机器人,请使用
这正是what Facebook does in its robots.txt: