Java 学习之路

16 votes

answers

views

如何提高单页面应用的SEO

我们已经 Build 了一个空缺的搜索引擎 . 出于速度和良好用户体验的原因，我们使用了“单页应用程序”（SPA）的体系结构 . 我们知道对于SPA架构而言，启用SEO是一项挑战，因此我们进行了大量优化以实现SEO . 虽然Google正在为我们的网页编制索引，但我们在Google上的排名非常差，我们正在寻求改善这一点的建议 . 我们遵循Google’s recommendations，但没有满意...

knockout.js seo web-crawler single-page-application pushstate
0 votes

answers

views

使用蜘蛛爬虫的蜘蛛__init__中的参数

我正在尝试使用蜘蛛爬虫代码来获取一些房地产数据 . 但它一直给我这个错误：回溯（最近一次调用最后一次）：文件“//anaconda/lib/python2.7/site-packages/twisted/internet/defer.py”，第1301行，在_inlineCallbacks中结果= g.send（结果）文件“/ /anaconda/lib/python2.7/site-pack...

python-2.7 scrapy web-crawler scrapy-spider scrapyd
0 votes

answers

views

Scrapyd Deploy错误：EOFError：读取一行时的EOF

我有2台，PC A没有错误，爬虫已成功部署，但在PC B上，错误发生 . 我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时，会发生这些错误 . {"status"："error"，"message"：回溯（最近通话最后一个）：\ n文件\ "/usr/lib/python2.7/runpy.py"，线162，...

python ubuntu scrapy web-crawler scrapyd
0 votes

answers

views

Clojure程序运行后无法完成

我的问题是执行我的clojure程序出乎意料的情况 . 我使用Ubuntu 14.04 x64，Lein和Clojure（都是最新版本） . 我已经完成了我的小项目（网络爬虫，只是为了学习clojure） . 它确实有用，我敢肯定（'因为我在repl中运行它） . 好的，我正在尝试用终端中的lein运行它（看截图） . 它工作正常，然后打印经过的时间 . 但是，它正在等待一些事情 . 那就是问题所...

ubuntu clojure terminal web-crawler leiningen
0 votes

answers

views

为什么Facebook不正确地解析Twitter网址？

我在挠头拿一个（新）推特网址，例如 . [http://twitter.com/#!/NASA]（注意“＃！”）将此链接粘贴到您的Facebook墙上或“您有什么想法？”主Facebook页面上的输入框 . 在抓取链接后，查看此解析链接的链接 . 这不是正确的推特网址 . 昨晚它解决了[http://twitter.com/#!/d3nidhint]现在它正在解决[http://twitte...

ajax facebook url twitter web-crawler
1 votes

answers

views

Python3中的简单Web爬虫不生成输出 . 这是怎么回事？

我在运行此处列出的示例代码时遇到问题：https://dev.to/pranay749254/build-a-simple-python-web-crawler . 这是我试图运行的代码： import requests from bs4 import BeautifulSoup def web(page,WebUrl): if(page>0): url = WebU...

python python-3.x web-scraping beautifulsoup web-crawler
1 votes

answers

views

WebScraping＆python：在html中渲染javascript？

我正在尝试构建一个webcrawler来从tsx页面获取趋势股票 . 我目前得到了所有趋势链接，现在我正试图抓取各个页面上的信息 . 基于我的代码，当我尝试在getStockDetails（）中输出“quote_wrapper”时，它返回一个空列表 . 我怀疑是因为JavaScript尚未在页面上呈现？不确定这是不是一件事 . 无论如何，我试图输出页面上的所有html进行调试，我也没有看到它 . ...

python selenium web-scraping web-crawler
1 votes

answers

views

如何处理大规模的网络抓取请求

当我们的网页被许多客户刮掉时，我们的服务器承受着巨大的压力 . 有时我们的网页正在从许多不同的IP地址中搜集，这些IP地址不属于Google，Bing这样的着名蜘蛛 . 所以我们基于IP地址的防御策略是没有用的 . 我们希望我们的一些网页能够被具有适当频率的普通蜘蛛抓取，但我们反对任何可能对我们的服务器造成损害的人 . 缓存可能是一种选择 . 但是我们有很多关于seo的网址 . 例如，我们有一些具...

java web caching architecture web-crawler
2 votes

answers

views

Scrapy Crawler没有关注链接

我正在编写一个Scrapy爬虫来从属性网站抓取信息， https://www.iproperty.com.sg/sale/?page=1 ， https://www.iproperty.com.sg/sale/?page=2 等 . 这个想法是，对于每一行，从该行获取信息并向该行的链接发出请求以获取更多信息 . 一旦处理了该页面上的所有行，请转到下一页并重复： import scrapy from...

python scrapy web-crawler
2 votes

answers

views

Robots.txt Crawl-Delay是否可以使用这种Anti-Scraping技术？

我想阻止网络抓取者在我的网站上积极地抓取1,000,000页 . 我'd like to do this by returning a 325627 HTTP error code to bots that access an abnormal number of pages per minute. I'没有使用表单垃圾邮件发送者，只有使用scraper . 我不希望搜索引擎蜘蛛收到错误 . ...

web-scraping web-crawler robots.txt
15 votes

answers

views

Robots.txt - 多个用户代理的抓取延迟的正确格式是什么？

下面是一个示例 robots.txt 文件，允许 multiple user agents 与 multiple crawl delays 为每个用户代理 . 爬网延迟值仅用于说明目的，并且在真实的robots.txt文件中会有所不同 . 我已经在网上搜索了正确的答案，但找不到一个 . 有太多混合的建议，我不知道哪个是正确/正确的方法 . Questions: （1）每个用户代理都可以拥有自己的抓...

format web-crawler robots.txt agents
1 votes

answers

views

robots.txt也是针对子页面的爬行延迟吗？

我为某个网页编写了一个抓取工具 . 这个网页有一个robots.txt，如下所示： User-Agent: * Crawl-delay: 30 所以它只允许每30秒爬一次网站（对吗？） . 但子页面怎么样？例如 . 我可以在不延迟30秒的情况下抓取以下网站，因为它们是不同的子网页： www.mysite.com www.mysite.com/category_1 www.mysite.com...

python web-crawler robots.txt
1 votes

answers

views

Robots.txt并允许？

所以我是网络抓取的新手，我无法理解特定的robots.txt文件 . 在这种情况下，这就是网站的内容： User-agent: * Allow: / Sitemap: sitemapURLHere 所以我查了一下 / here，发现它适用于任何路径 . 那么这是否意味着该网站允许抓取所有页面？但是，当我尝试使用scrapy对sitemap.xml（或其他站点URL）链接进行基本爬网时，即 ...

python scrapy web-crawler robots.txt scrapy-shell
0 votes

answers

views

使用scrapy抓取并废弃一个完整的网站

import scrapy from scrapy import Request #scrapy crawl jobs9 -o jobs9.csv -t csv class JobsSpider(scrapy.Spider): name = "jobs9" allowed_domains = ["vapedonia.com"] start_urls = [...

python web-scraping scrapy web-crawler
1 votes

answers

views

apache nutch不要爬网站

我已经安装了apache nutch用于网络爬行 . 我想抓取一个包含以下 robots.txt 的网站： User-Agent: * Disallow: / 有没有办法用apache nutch抓取这个网站？

solr web-crawler nutch
-3 votes

answers

views

如何对某些网站进行网页抓取[关闭]

我正在开始一个新的爬网站项目，使用Web服务在内部检索和存储数据 . 我查了一些信息，发现了Scrapy和Beevolve的网页抓取服务 . 我的问题是，最好只创建我自己的没有经验的爬虫或租用网页抓取服务？我遇到的一个问题是，一些网站在获取任何数据之前需要登录 .

web-crawler
0 votes

answers

views

simple_html_dom抓取整个网站[关闭]

我想抓取整个网站 . 我使用Simple_html_dom进行解析，但问题是它一次只需要一个网页链接 . 我想只提供开始（主页）链接，它应该自动抓取并解析该网站的所有网页 . 有什么建议怎么做？

parsing simple-html-dom web-crawler
0 votes

answers

views

NodeJs网络爬虫文件扩展名处理

我正在开发nodejs中的网络爬虫 . 我在网站爬行体中创建了一个唯一的网址列表 . 但其中一些有像jpg，mp3，mpeg这样的扩展...我想避免抓取那些有扩展名的人 . 有没有简单的方法呢？

node.js web-crawler file-extension
0 votes

answers

views

NodeJS Web爬网使用节点爬虫或简单抓取工具

我是网络爬行的新手，我需要一些关于这两个Node JS抓取工具的指针 . 目标：我的目标是抓取网站并仅获取该域内的内部（本地）URL . 我对任何页面数据或抓取都不感兴趣 . 只是URL . 我的困惑：当使用node-crawler或simplecrawler时，他们是否必须在返回响应之前下载整个页面？有没有办法只找到一个URL，ping可能会执行一些get请求，如果200响应，只需继续下一个链接...

node.js web-crawler
2 votes

answers

views

Python - 使用BeautifulSoup在页面中抓取多个类

我正在尝试 grab Agoda的多种房型的每日酒店价格以及其他信息，例如促销信息，早餐条件以及预订现在付款的后期规定 . 我的代码如下： import requests import math from bs4 import BeautifulSoup url = "http://www.agoda.com/ambassador-hotel-taipei/hotel/taipei-t...

python beautifulsoup web-crawler
0 votes

answers

views

Web爬网程序无法打印

我正在研究我的第一个网络爬虫，我无法弄清楚如何打印结果 . 没有错误，但没有显示任何内容 . 来自bs4导入BeautifulSoup导入urllib3 def extract_links（）： http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-hour-chicago.html...

python html web-crawler crawler4j
0 votes

answers

views

如何使用R从特定关键字中删除网络数据？

我需要通过一些特定的关键字来可视化网页中的数据 . 我使用R编程来从网站上删除整个数据，但我需要特定关键字的数据 .

r web-scraping web-crawler
0 votes

answers

views

编写网络爬虫 - 如何模仿Google在看到＃时所做的事情！在URL中？

我正在编写一个网络抓取工具，并希望在Google检索到的网页中遇到 #! 网址时执行该操作 . 如果URL没有＃！谷歌将它添加到它最终将获取和索引的页面列表中，但它在看到＃时会做一些特别的事情！如Google's "Getting started with Ajax crawling" document.所述当Google看到包含 #! 的URL时，它会修改URL，为修改后的...

web-crawler google-search hashbang
1 votes

answers

views

单元测试时出现Symfony 2服务错误

我用Symfony 2和phpunit做了一些功能测试 . 但我在使用服务时遇到了一些麻烦 . 让我解释 . 在我的运行测试期间，我想使用应用程序使用的一些服务 . 所以我juste设置我的setUp函数来设置内核： static::$kernel = static::createKernel(); static::$kernel->boot(); $this->obj...

symfony service phpunit symfony-2.1 web-crawler
-2 votes

answers

views

使用NodeJs抓取网页以查找使用prestashop构建的网站[暂停]

我想使用Nodejs构建一个工具，该工具为使用prestashop构建的网站抓取网页并将其导出到csv文件中 . 有任何想法吗？问候

node.js web-crawler prestashop
0 votes

answers

views

Webbot通过php cURL自动提交表单

我只是想通过php和cURL自动登录登录表单我有： <?php # get url to form $url = "http://thesite.com/login.php"; $ch = curl_init($url); # initialize that form #run value of $_POST variable in form fields from ...

php curl web-crawler bots
0 votes

answers

views

PHP CURL检索部分页面

我有以下CURL代码： $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); if ($postParameters != '') { curl_setopt($ch, CURLOPT_POST, TRUE); curl_setopt($ch, CURLOPT_POSTFIELDS, $postParameters); }...

php html curl web-crawler
106 votes

answers

views

检测'stealth'网络抓取工具

有哪些选项可以检测不希望被检测到的网页抓取工具？（我知道列表检测技术将允许智能隐形爬虫程序员制作更好的蜘蛛，但我认为我们无论如何都无法阻止智能隐形爬行器，只会出现错误 . ）我不是在谈论像googlebot和Yahoo!这样漂亮的抓取工具 . 啜食 . 我认为机器人很好，如果它：将自己标识为用户代理字符串中的机器人读取robots.txt（并遵守它）我在谈论坏的爬虫，躲在普通...

web-crawler
1 votes

answers

views

Web爬虫的问题，不知道如何解决这个问题

我正在创建一个网络爬虫，我遇到了一个问题 . 我的脚本所做的是抓取链接的第一页，然后抓取它找到的页面上的链接 . 我似乎遇到的问题是在第一组链接被抓取后，它会从第一次抓取中抓取网页的链接，但是似乎有一个问题链接正在使用TLD（http://example.com vs / about for例） . 我已经尝试分解这些链接并添加一些过滤来捕获和记录它们，我已经尝试运行我自己的命令来过滤掉完整的UR...

python web-crawler bs4
3 votes

answers

views

Google网站管理员工具AngularJS问题

我用AngularJS框架制作了一个单页网站 . 我配置了我的服务器（nginx）以将抓取工具重定向到静态HTML页面 . 我用https://prerender.io，我的JS加了！在我的网址中的＃之后，我还添加了元 <meta name="fragment" content="!"> . 所以我的网站URL看起来像这样：example.co...

angularjs nginx web-crawler google-webmaster-tools

热门问题