我希望googlebot将动态添加到我的站点 Map 的网址编入索引 . 我添加的网址是用于 Profiles ( example.com/username ),博客等...我使用反应路由器进行服务器端渲染,一些组件对 api.example.com/... 进行 api 调用 . 阅读有关抓取和 robots.txt 的文档后 . 我理解googlebot在抓取页面时向链接发出请求 . 因此,服务器从 googlebot.com 获取请求, googlebot 也在进程中与 robots.txt 进行交互 .

好吧,我不希望谷歌抓取我的api或链接到它的人 . 这会使服务器过载 . 和Instagram完全一样https://instagram.com/robots.txt

User-agent: *
Disallow: /api/

由于我的理解,我有点困惑谷歌如何抓取公共配置文件的页面(谷歌“凯利斯莱特instagram”) .

此外,https://developer.android.com/training/app-indexing/enabling-app-indexing.html#robots(最后一段 - 页面底部)说我需要允许谷歌向 /api/ 发出请求 .

问题

  • 因为 /api/ 被屏蔽了,google如何抓取Instagram页面?是否等待来自服务器的响应并忽略 robots.txt ,因为它是来自另一个页面的间接请求?

  • 网络抓取是否与应用抓取不同?我是否需要启用 /api/ 以使我未来的Android应用程序可抓取?

  • 我也注意到Instagram的 robots.txt 中没有 Sitemap: ... 字段 . 他们是否使用 google ping 之类的搜索引擎的apis提交他们的站点 Map ?