首页 文章

停止web.archive.org以保存网站页面

提问于
浏览
0

我曾尝试过访问facebook.com网页 . 该网站向我显示一个错误,它无法保存页面,因为该网站robots.txt /

任何人都可以告诉robots.txt中的哪些语句使web.archive.org无法访问该站点我想这是因为这里提到的#permission语句(http://facebook.com/robots.txt

有没有其他方法我可以为我的网站这样做 .

我也不想要woorank.com或builtwith.com来分析我的网站 .

注意:如果我向robots.txt添加一些语句以获得上述结果,搜索引擎机器人在抓取我的网站时应该没有问题并将其编入索引 .

1 回答

  • 3

    Internet Archive(archive.org)爬网程序使用User-Agent值 ia_archiver (请参阅their documentation) .

    因此,如果您想在robots.txt中定位此机器人,请使用

    User-agent: ia_archiver
    

    这正是what Facebook does in its robots.txt

    用户代理:ia_archiver
    允许:/ about / privacy
    允许:/ full_data_use_policy
    允许:/ legal / terms
    允许:/policy.php
    不允许: /

相关问题