Java 学习之路

4 votes

answers

views

获取robots.txt以阻止在“？”字符之后访问网站上的网址但索引页面本身

我有一个小的magento站点，其中包含页面URL，例如： http://www.mysite.com/contact-us.html http://www.mysite.com/customer/account/login/ 但是我也有包含过滤器（例如价格和颜色）的页面，一旦这样的例子是： http://www.mysite.com/products.html?price=1%2C1000 ...

html seo robots.txt
1 votes

answers

views

避免在Google中重复搜索页面

我有一个网站搜索它有4个下拉菜单 . 这些下拉中的每一个都会重定向回相关页面，但使用url参数告诉它如何对结果进行排序 . 第一个下拉列表有13个选项，其他三个下拉列表各有4个选项 . 当然谷歌看到了重复的内容，并为它吃了我的搜索引擎优化 . 由于包含13个选项的下拉列表是一个类别排序器，所以我已经能够将重复的内容放下一点，因此我使用它来更改每个页面上的 Headers 以帮助停止整个重复的内容，...

seo robots.txt sitemap
-2 votes

answers

views

谷歌索引

我有一个关于谷歌索引的新手问题 . 我们在LAMP堆栈上创建了一个Web应用程序，其中app和wordpress登录页面共享同一台服务器 . 我的问题是：在为着陆页编制索引时，Google机器人会通过登录链接开始索引应用和用户帐户吗？因为我们不希望这样 . 我问，因为我认为如果我们使用robots.text文件，则可能意味着网站中最活跃且最重要的部分将不会被视为Google，而是每个进入着陆页并点...

wordpress indexing seo lamp robots.txt
0 votes

answers

views

防止机器人索引受限访问子域

我有一个子域设置，我为其他所有IP返回403 . 我还想避免网站被搜索引擎编入索引，这就是我将robots.txt添加到子域根目录的原因 . 但是，由于我在每个请求返回403该子域时，爬虫在请求robots.txt文件时也会收到403 . 根据google，如果是机器人，txt返回403，它仍会尝试抓取该网站 . 有没有办法解决？热衷于倾听您的想法 .

indexing web-crawler subdomain http-status-code-403 robots.txt
1 votes

answers

views

SEO改变从Wordpress网站中更改robots.txt文件

我最近使用wordpress插件在我的网站上编辑了robots.txt文件 . 但是，由于我这样做，谷歌似乎已从他们的搜索页面删除了我的网站 . 如果我能得到关于为什么会这样，以及可能的解决方案的专家意见，我将不胜感激 . 我最初是通过限制谷歌访问的页面来增加我的搜索排名 . 这是我在wordpress中的robots.txt文件： User-agent: * Disallow: /cgi-bin...

wordpress plugins seo robots.txt
6 votes

answers

views

在robots.txt中列出站点 Map 和站点 Map 索引文件？

我的网站由3个主要部分组成：评论，论坛和博客 . 我有论坛和博客的插件，可以自动为他们生成站点 Map . 论坛插件生成指向多个索引的站点 Map INDEX文件，博客插件生成包含我所有博客内容的常规站点 Map 文件 . 以下是robots.txt中的条目： Sitemap: http://www.datesphere.com/forum/sitemap-index.xml Sitemap: ...

sitemap robots.txt
0 votes

answers

views

如何使用robots.txt停止机器人爬行分页？

我在我的网站上有各种各样的分页，我想停止谷歌和其他搜索引擎抓取我的分页索引 . 已爬网页面的示例： http://www.mydomain.com/explore/recently-updated/index/12 我如何使用robots.txt拒绝机器人抓取任何包含/ index /？的网页？

seo pagination robots.txt
0 votes

answers

views

noindex跟随Robots.txt

我有一个已在搜索引擎中编入索引的wordpress网站 . 我编辑了Robots.txt以禁止搜索索引中的某些目录和网页 . 我只知道如何使用allow和disallow，但不知道如何在Robots.txt文件中使用follow和nofollow . 我在谷歌搜索的时候在某个地方看到我可以拥有不会在谷歌中编入索引的网页，但会被抓取以进行网页浏览 . 这可以通过禁止Robots.txt中的网页来实现...

indexing search-engine robots.txt robot nofollow
0 votes

answers

views

使用robots.txt只抓取我的站点 Map

我想阻止谷歌抓取我的整个网站 - 除了站点 Map ，我可以用来告诉谷歌优先级和最后更改等等 . 这是一个坏主意吗？我如何在robots.txt中执行此操作？

seo robots.txt
0 votes

answers

views

Google网站管理员中的robots.txt消息阻止了网址

我在root域中有一个wordpress站点 . 现在，我在子文件夹中添加了一个论坛作为mydomain / forum，它创建了一个站点 Map 如下：mydomain / forum / sitemap_index.xml . 将该站点 Map 提交给谷歌，听起来谷歌无法使用“由robots.txt阻止的网址”的消息访问子站点 Map - 值：mydomain / forum / sitem...

robots.txt
0 votes

answers

views

如何使用robots.txt文件禁止登陆页面？

我想在营销广告系列中开始使用特定的目标网页 . 在谷歌上快速搜索显示如何使用robots.txt文件禁止特定页面和/或目录 . （link）如果我不希望搜索引擎索引这些登录页面，我应该在robot.txt文件中放入单个页面条目，还是应该将它们放在特定目录中并禁止该目录？我担心的是，任何人都可以阅读robots.txt文件，如果实际的页面名称在robots.txt文件中可见，则会失败 .

seo robots.txt
1 votes

answers

views

禁止从robots.txt获取谷歌机器人并列出站点 Map

我使用付费地理定位脚本将用户定向到基于国家/地区的特定网站 . 但是，由于机器人不断抓取我的大型网站的每一页，我收取了很多费用 . 如果我在robots.txt中禁止使用google并在robots.txt中提供站点 Map ，谷歌仍会将我的网页编入索引而不会抓取？例 User-agent: * Disallow: / Sitemap: sitemap.xml

html sitemap robots.txt
0 votes

answers

views

如何自定义DNN robots.txt以允许搜索引擎抓取模块特定的站点 Map ？

我在我们的DNN网站上使用EasyDNN新闻模块用于博客，新闻文章等 . 核心DNN站点 Map 不包含此模块生成的文章，但模块会创建自己的站点 Map . 例如：domain.com/blog/mid/1005/ctl/sitemap 当我尝试将此站点 Map 提交给Google时，它说我的Robots.txt文件阻止了它 . 查看DNN附带的Robots.txt文件，我注意到Slurp和Go...

seo dotnetnuke robots.txt googlebot
3 votes

answers

views

htaccess从https中排除sitemap.xml和robots.txt

嘿堆栈Overflowers . 我被困住了，无法理解这一点，我只想在根目录中排除两个文件，从https中删除robots.txt和sitemap.xml . 网站的其余部分超过https，没问题 . 我懂了： # Forcing HTTPS # RewriteCond %{SERVER_PORT} !^443$ # RewriteCond %{REQUEST_URI} !^sitemap.x...

.htaccess ssl robots.txt sitemap.xml
4 votes

answers

views

可以防止搜索引擎蜘蛛无限爬行搜索结果上的分页链接？

我们的SEO团队希望向蜘蛛打开我们的主要动态搜索结果页面，并从元标记中删除'nofollow' . 通过允许robots.txt中的路径，蜘蛛目前可以访问它，但在元标记中使用'nofollow'子句可以防止蜘蛛超出第一页 . <meta name="robots" content="index,nofollow"> 我担心如果我们删除'nofol...

seo web-crawler robots.txt nofollow
1 votes

answers

views

如何在网络爬行期间保持网络礼貌（避免被禁止）？

一个web-bot抓取您的网站并使用bandwdith资源 . 机器人很多，用于许多目的，从自制，大学研究，刮板，新创业公司到已 Build 的搜索引擎（可能还有更多类别）除了可能会将流量发送到网站的大型搜索引擎之外，为什么网站管理员还允许其他机器人立刻不知道？网站管理员允许这些机器人的动机是什么？第二个问题是：如果在Internet上具有多个抓取节点的分布式爬网程序，则为每个代...

user-agent web-crawler robots.txt
4 votes

answers

views

我可以阻止蜘蛛访问具有某些GET参数的页面吗？

我们有一个页面，可以选择将ID作为GET参数 . 如果提供了无效的ID，该页面将抛出错误并发出通知，表明某人正在错误地访问该页面 . 为火灾添加燃料是ID可以有效一段时间，然后到期 . 我们遇到了一个问题，即搜索引擎机器人正在使用旧的过期ID访问该页面 . 这意味着每次我们获得蜘蛛时，我们都会得到一堆“误报”警报 . 我希望能有一些方法告诉机器人继续抓取页面，但不要使用GET参数 - 只需索引无参...

java servlets seo robots.txt googlebot
1 votes

answers

views

Mediawiki Sitemap网址受robots.txt限制

我在我的网站上安装了mediawiki，如下所示： www.mysite.com/w/index.php 我使用短网址方法将网址更改为 mysite.com/wiki 之后，我将其放在robots.txt中以禁止机器人关注链接到 /w/ ： # prevent spiders from indexing non-article pages User-agent: * Disallow: /w/ ...

web-crawler mediawiki sitemap bots robots.txt
0 votes

answers

views

停止web.archive.org以保存网站页面

我曾尝试过访问facebook.com网页 . 该网站向我显示一个错误，它无法保存页面，因为该网站robots.txt / 任何人都可以告诉robots.txt中的哪些语句使web.archive.org无法访问该站点我想这是因为这里提到的#permission语句（http://facebook.com/robots.txt）有没有其他方法我可以为我的网站这样做 . 我也不想要woorank....

robots.txt
1 votes

answers

views

robots.txt会忽略所有文件夹，但会抓取root中的所有文件

我应该这样做用户代理： * 不允许： / 它就这么简单吗？或者不会抓取根目录中的文件？基本上就是我所追求的 - 抓取根目录中的所有文件/页面，但根本不抓取任何文件夹，或者我必须明确指定每个文件夹..即不允许：/ admin 不允许：/这个等等谢谢 NAT

apache robots.txt
34 votes

answers

views

多个站点 Map ：robots.txt中的条目？

我一直在搜索谷歌，但我找不到这个问题的答案 . robots.txt文件可以包含以下行： Sitemap: http://www.mysite.com/sitemapindex.xml 但是是否可以在robots.txt中指定多个站点 Map 索引文件并让搜索引擎识别并抓取每个站点 Map 索引文件中引用的所有站点 Map ？例如，这会工作： Sitemap: http://www.mysite...

sitemap robots.txt
0 votes

answers

views

robots.txt的内容

noindex是robots.txt文件中的可选指令，还是用户代理，禁止，允许和抓取延迟的唯一选项？例如，这对robots.txt文件的内容有效吗？：用户代理： *不允许： /noindex：/

robots.txt
0 votes

answers

views

这个Robots.txt文件是否正确？

我最近在我的服务器上遇到了很多CPU峰值，不知何故我认为这不是真正的流量，或者它的某些部分并不真实 . 所以我想现在只允许谷歌机器人，MSN和雅虎 . 如果以下robots.txt文件符合我的要求，请指导我 . User-agent: Googlebot User-agent: Slurp User-agent: msnbot User-agent: Mediapartners-Google* ...

yahoo robots.txt googlebot msn
8 votes

answers

views

如何修复“Googlebot无法访问您的网站”问题？

我只是不断收到消息 “在过去的24小时内，Googlebot在尝试访问您的robots.txt时遇到了1个错误 . 为了确保我们没有抓取该文件中列出的任何网页，我们推迟了抓取 . 您的网站的整体robots.txt错误率为100.0 ％ . 您可以在网站站长工具中查看有关这些错误的更多详细信息 . “ 我搜索了它并告诉我在我的网站上添加robots.txt 当我在Google网站管理员工具上测试r...

search gwt robots.txt
1 votes

answers

views

robots.tx禁止所有爬行延迟

我想从某个网站获取信息，并检查我是否被允许抓取它 . robots.txt文件考虑了15个不同的用户代理，然后是其他所有用户代理 . 我的困惑来自其他人的声明（包括我在内） . 它是 User-agent: * Crawl-delay: 5 Disallow: / Disallow: /sbe_2020/pdfs/ Disallow: /sbe/sbe_202...

robots.txt
0 votes

answers

views

禁止使用某些图像文件夹

我正在制作我的robots.txt文件 . 但我对如何禁止Googlebot-Image有点不安全 . 我想允许谷歌机器人抓取我的网站，除了我在下面做的不允许 . 这就是我所做的： User-agent: Googlebot Disallow: Disallow: /courses/ Disallow: /portfolio/portfolio-template.php/ User-agent...

seo web-crawler robots.txt
1 votes

answers

views

Google Sitemap和Robots.txt问题

我们在我们的网站上有一个站点 Map ，http://www.gamezebo.com/sitemap.xml 站点 Map 中的部分网址在网站管理员中心报告为被我们的robots.txt阻止，请参阅，gamezebo.com/robots.txt！虽然这些网址在Robots.txt中不被禁止 . 还有其他这样的网址，例如，gamezebo.com/gamelinks存在于我们的站点 Map 中，...

sitemap robots.txt
5 votes

answers

views

使用mechanize检索robots.txt的HTTP 403错误

这个shell命令成功 $ curl -A "Mozilla/5.0 (X11; Linux x86_64; rv:18.0) Gecko/20100101 Firefox/18.0 (compatible;)" http://fifa-infinity.com/robots.txt 并打印robots.txt . 省略user-agent选项会导致服务器出现403错误 . ...

python mechanize robots.txt http-status-code-403
5 votes

answers

views

美元符号在robots.txt中意味着什么

我对一个网站感到好奇，并希望在 /s 路径上进行一些网络爬行 . Its robots.txt： User-Agent: * Allow: /$ Allow: /debug/ Allow: /qa/ Allow: /wiki/ Allow: /cgi-bin/loginpage Disallow: / 我的问题是：在这种情况下，美元符号意味着什么？是否适合抓取网址 /s ？关于ro...

web-crawler robots.txt
1 votes

answers

views

robots.txt文件有哪些规则？

我正在尝试构建一个robots.txt解析器，我想到了一个简单的问题：robots.txt文件的规则是什么？我开始搜索它，并且在robotstxt.org我发现了1996年的一个document，它为robots.txt文件定义了一些规则 . 本文档明确定义了User-agent，Allow和Disallow的所有规则 . 正在寻找robots.txt的一些示例，我找到了标记，例如Sitemap...

robots.txt

热门问题