首页 文章

为什么我的robots.txt会阻止Google抓取网页?

提问于
浏览
1

我对Google抓取的网页数量有一个“双重”问题,这可能与可能重复内容(或没有)的关系以及对SEO的影响有关 .

Facts on my number of pages and pages crawled by Google

我两个月前推出了一个新网站 . 今天,它有近150页(它每天都在增加) . 无论如何,这是我的站点 Map 中的页数 .

如果我在Google网站管理员中查看"Crawl stats",我可以看到Google每天抓取的网页数量要大得多(见下图) .
Google crawled up to 903 pages in a day

我不确定它实际上是好的,因为它不仅使我的服务器更繁忙(一天中903页下载5,6 MB),但我害怕它也会产生一些重复的内容 .

我已经检查了谷歌(网站:mysite.com)并且它给了我1290页(但是只显示了191页,除非我点击“重复搜索并包含省略的结果” . 假设我的站点 Map 中的191个是(我认为我有大约40页的重复内容的问题,但我只是更新网站) .

Facts on my robots.txt

我使用robots.txt文件禁止所有抓取引擎转到包含参数的页面(请参阅下面的漫游器)以及“标签” .

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

最重要的一个是标签 . 它们在我的网址中如下:

www.mysite.com/tags/Advertising/writing

它被robots.txt阻止(我已经与谷歌网站管理员核实),但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果 . ”)

我不希望抓取这些页面,因为它是重复内容(这是对关键字的一种搜索),这就是我将它们放入robots.txt的原因

Finaly, my questions are:

为什么Google会抓取我在robots.txt中屏蔽的网页?

为什么谷歌索引页面已被阻止?这些网页是否被Google视为重复内容?如果是的话,我猜这对SEO来说很糟糕 .

编辑:我不是问如何删除谷歌索引的页面(我已经知道了答案) .

1 回答

  • 1

    为什么google会抓取我在robots.txt中屏蔽的网页?为什么google会将我阻止的网页编入索引?

    他们可能在您阻止它之前抓取它 . 您必须等到他们读取更新的robots.txt文件,然后相应地更新其索引 . 没有固定的时间表,但对于较新的网站,通常会更长 .

    这些页面是否被视为重复内容?

    你告诉我们 . 重复的内容是两个页面在两个或多个页面上具有相同或几乎相同的内容时 . 这是在您的网站上发生的吗?

    阻止重复内容是 not 解决该问题的方法 . 你应该使用canonical URLs . 阻止页面意味着您链接到您网站中的"black holes",这会损害您的SEO工作 . 规范URL阻止了这一点,并为规范URL提供了相关术语的全部功劳,以及所有重复页面的所有链接 .

相关问题