首页 文章
  • 16 votes
     answers
     views

    如何提高单页面应用的SEO

    我们已经 Build 了一个空缺的搜索引擎 . 出于速度和良好用户体验的原因,我们使用了“单页应用程序”(SPA)的体系结构 . 我们知道对于SPA架构而言,启用SEO是一项挑战,因此我们进行了大量优化以实现SEO . 虽然Google正在为我们的网页编制索引,但我们在Google上的排名非常差,我们正在寻求改善这一点的建议 . 我们遵循Google’s recommendations,但没有满意...
  • 0 votes
     answers
     views

    使用蜘蛛爬虫的蜘蛛__init__中的参数

    我正在尝试使用蜘蛛爬虫代码来获取一些房地产数据 . 但它一直给我这个错误: 回溯(最近一次调用最后一次):文件“//anaconda/lib/python2.7/site-packages/twisted/internet/defer.py”,第1301行,在_inlineCallbacks中结果= g.send(结果)文件“/ /anaconda/lib/python2.7/site-pack...
  • 0 votes
     answers
     views

    Scrapyd Deploy错误:EOFError:读取一行时的EOF

    我有2台,PC A没有错误,爬虫已成功部署,但在PC B上,错误发生 . 我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时,会发生这些错误 . {"status":"error","message":回溯(最近通话最后一个):\ n文件\ "/usr/lib/python2.7/runpy.py",线162,...
  • 0 votes
     answers
     views

    Clojure程序运行后无法完成

    我的问题是执行我的clojure程序出乎意料的情况 . 我使用Ubuntu 14.04 x64,Lein和Clojure(都是最新版本) . 我已经完成了我的小项目(网络爬虫,只是为了学习clojure) . 它确实有用,我敢肯定('因为我在repl中运行它) . 好的,我正在尝试用终端中的lein运行它(看截图) . 它工作正常,然后打印经过的时间 . 但是,它正在等待一些事情 . 那就是问题所...
  • 0 votes
     answers
     views

    为什么Facebook不正确地解析Twitter网址?

    我在挠头 拿一个(新)推特网址,例如 . [http://twitter.com/#!/NASA](注意“#!”) 将此链接粘贴到您的Facebook墙上或“您有什么想法?”主Facebook页面上的输入框 . 在抓取链接后,查看此解析链接的链接 . 这不是正确的推特网址 . 昨晚它解决了[http://twitter.com/#!/d3nidhint]现在它正在解决[http://twitte...
  • 1 votes
     answers
     views

    Python3中的简单Web爬虫不生成输出 . 这是怎么回事?

    我在运行此处列出的示例代码时遇到问题:https://dev.to/pranay749254/build-a-simple-python-web-crawler . 这是我试图运行的代码: import requests from bs4 import BeautifulSoup def web(page,WebUrl): if(page>0): url = WebU...
  • 1 votes
     answers
     views

    WebScraping&python:在html中渲染javascript?

    我正在尝试构建一个webcrawler来从tsx页面获取趋势股票 . 我目前得到了所有趋势链接,现在我正试图抓取各个页面上的信息 . 基于我的代码,当我尝试在getStockDetails()中输出“quote_wrapper”时,它返回一个空列表 . 我怀疑是因为JavaScript尚未在页面上呈现?不确定这是不是一件事 . 无论如何,我试图输出页面上的所有html进行调试,我也没有看到它 . ...
  • 1 votes
     answers
     views

    如何处理大规模的网络抓取请求

    当我们的网页被许多客户刮掉时,我们的服务器承受着巨大的压力 . 有时我们的网页正在从许多不同的IP地址中搜集,这些IP地址不属于Google,Bing这样的着名蜘蛛 . 所以我们基于IP地址的防御策略是没有用的 . 我们希望我们的一些网页能够被具有适当频率的普通蜘蛛抓取,但我们反对任何可能对我们的服务器造成损害的人 . 缓存可能是一种选择 . 但是我们有很多关于seo的网址 . 例如,我们有一些具...
  • 2 votes
     answers
     views

    Scrapy Crawler没有关注链接

    我正在编写一个Scrapy爬虫来从属性网站抓取信息, https://www.iproperty.com.sg/sale/?page=1 , https://www.iproperty.com.sg/sale/?page=2 等 . 这个想法是,对于每一行,从该行获取信息并向该行的链接发出请求以获取更多信息 . 一旦处理了该页面上的所有行,请转到下一页并重复: import scrapy from...
  • 2 votes
     answers
     views

    Robots.txt Crawl-Delay是否可以使用这种Anti-Scraping技术?

    我想阻止网络抓取者在我的网站上积极地抓取1,000,000页 . 我'd like to do this by returning a 325627 HTTP error code to bots that access an abnormal number of pages per minute. I'没有使用表单垃圾邮件发送者,只有使用scraper . 我不希望搜索引擎蜘蛛收到错误 . ...
  • 15 votes
     answers
     views

    Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

    下面是一个示例 robots.txt 文件,允许 multiple user agents 与 multiple crawl delays 为每个用户代理 . 爬网延迟值仅用于说明目的,并且在真实的robots.txt文件中会有所不同 . 我已经在网上搜索了正确的答案,但找不到一个 . 有太多混合的建议,我不知道哪个是正确/正确的方法 . Questions: (1)每个用户代理都可以拥有自己的抓...
  • 1 votes
     answers
     views

    robots.txt也是针对子页面的爬行延迟吗?

    我为某个网页编写了一个抓取工具 . 这个网页有一个robots.txt,如下所示: User-Agent: * Crawl-delay: 30 所以它只允许每30秒爬一次网站(对吗?) . 但子页面怎么样?例如 . 我可以在不延迟30秒的情况下抓取以下网站,因为它们是不同的子网页: www.mysite.com www.mysite.com/category_1 www.mysite.com...
  • 1 votes
     answers
     views

    Robots.txt并允许?

    所以我是网络抓取的新手,我无法理解特定的robots.txt文件 . 在这种情况下,这就是网站的内容: User-agent: * Allow: / Sitemap: sitemapURLHere 所以我查了一下 / here,发现它适用于任何路径 . 那么这是否意味着该网站允许抓取所有页面?但是,当我尝试使用scrapy对sitemap.xml(或其他站点URL)链接进行基本爬网时,即 ...
  • 0 votes
     answers
     views

    使用scrapy抓取并废弃一个完整的网站

    import scrapy from scrapy import Request #scrapy crawl jobs9 -o jobs9.csv -t csv class JobsSpider(scrapy.Spider): name = "jobs9" allowed_domains = ["vapedonia.com"] start_urls = [...
  • 1 votes
     answers
     views

    apache nutch不要爬网站

    我已经安装了apache nutch用于网络爬行 . 我想抓取一个包含以下 robots.txt 的网站: User-Agent: * Disallow: / 有没有办法用apache nutch抓取这个网站?
  • -3 votes
     answers
     views

    如何对某些网站进行网页抓取[关闭]

    我正在开始一个新的爬网站项目,使用Web服务在内部检索和存储数据 . 我查了一些信息,发现了Scrapy和Beevolve的网页抓取服务 . 我的问题是,最好只创建我自己的没有经验的爬虫或租用网页抓取服务? 我遇到的一个问题是,一些网站在获取任何数据之前需要登录 .
  • 0 votes
     answers
     views

    simple_html_dom抓取整个网站[关闭]

    我想抓取整个网站 . 我使用Simple_html_dom进行解析,但问题是它一次只需要一个网页链接 . 我想只提供开始(主页)链接,它应该自动抓取并解析该网站的所有网页 . 有什么建议怎么做?
  • 0 votes
     answers
     views

    NodeJs网络爬虫文件扩展名处理

    我正在开发nodejs中的网络爬虫 . 我在网站爬行体中创建了一个唯一的网址列表 . 但其中一些有像jpg,mp3,mpeg这样的扩展...我想避免抓取那些有扩展名的人 . 有没有简单的方法呢?
  • 0 votes
     answers
     views

    NodeJS Web爬网使用节点爬虫或简单抓取工具

    我是网络爬行的新手,我需要一些关于这两个Node JS抓取工具的指针 . 目标:我的目标是抓取网站并仅获取该域内的内部(本地)URL . 我对任何页面数据或抓取都不感兴趣 . 只是URL . 我的困惑:当使用node-crawler或simplecrawler时,他们是否必须在返回响应之前下载整个页面?有没有办法只找到一个URL,ping可能会执行一些get请求,如果200响应,只需继续下一个链接...
  • 2 votes
     answers
     views

    Python - 使用BeautifulSoup在页面中抓取多个类

    我正在尝试 grab Agoda的多种房型的每日酒店价格以及其他信息,例如促销信息,早餐条件以及预订现在付款的后期规定 . 我的代码如下: import requests import math from bs4 import BeautifulSoup url = "http://www.agoda.com/ambassador-hotel-taipei/hotel/taipei-t...
  • 0 votes
     answers
     views

    Web爬网程序无法打印

    我正在研究我的第一个网络爬虫,我无法弄清楚如何打印结果 . 没有错误,但没有显示任何内容 . 来自bs4导入BeautifulSoup导入urllib3 def extract_links(): http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-hour-chicago.html...
  • 0 votes
     answers
     views

    如何使用R从特定关键字中删除网络数据?

    我需要通过一些特定的关键字来可视化网页中的数据 . 我使用R编程来从网站上删除整个数据,但我需要特定关键字的数据 .
  • 0 votes
     answers
     views

    编写网络爬虫 - 如何模仿Google在看到#时所做的事情!在URL中?

    我正在编写一个网络抓取工具,并希望在Google检索到的网页中遇到 #! 网址时执行该操作 . 如果URL没有#!谷歌将它添加到它最终将获取和索引的页面列表中,但它在看到#时会做一些特别的事情!如Google's "Getting started with Ajax crawling" document.所述 当Google看到包含 #! 的URL时,它会修改URL,为修改后的...
  • 1 votes
     answers
     views

    单元测试时出现Symfony 2服务错误

    我用Symfony 2和phpunit做了一些功能测试 . 但我在使用服务时遇到了一些麻烦 . 让我解释 . 在我的运行测试期间,我想使用应用程序使用的一些服务 . 所以我juste设置我的setUp函数来设置内核: static::$kernel = static::createKernel(); static::$kernel->boot(); $this->obj...
  • -2 votes
     answers
     views

    使用NodeJs抓取网页以查找使用prestashop构建的网站[暂停]

    我想使用Nodejs构建一个工具,该工具为使用prestashop构建的网站抓取网页并将其导出到csv文件中 . 有任何想法吗? 问候
  • 0 votes
     answers
     views

    Webbot通过php cURL自动提交表单

    我只是想通过php和cURL自动登录登录表单 我有: <?php # get url to form $url = "http://thesite.com/login.php"; $ch = curl_init($url); # initialize that form #run value of $_POST variable in form fields from ...
  • 0 votes
     answers
     views

    PHP CURL检索部分页面

    我有以下CURL代码: $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); if ($postParameters != '') { curl_setopt($ch, CURLOPT_POST, TRUE); curl_setopt($ch, CURLOPT_POSTFIELDS, $postParameters); }...
  • 106 votes
     answers
     views

    检测'stealth'网络抓取工具

    有哪些选项可以检测不希望被检测到的网页抓取工具? (我知道列表检测技术将允许智能隐形爬虫程序员制作更好的蜘蛛,但我认为我们无论如何都无法阻止智能隐形爬行器,只会出现错误 . ) 我不是在谈论像googlebot和Yahoo!这样漂亮的抓取工具 . 啜食 . 我认为机器人很好,如果它: 将自己标识为用户代理字符串中的机器人 读取robots.txt(并遵守它) 我在谈论坏的爬虫,躲在普通...
  • 1 votes
     answers
     views

    Web爬虫的问题,不知道如何解决这个问题

    我正在创建一个网络爬虫,我遇到了一个问题 . 我的脚本所做的是抓取链接的第一页,然后抓取它找到的页面上的链接 . 我似乎遇到的问题是在第一组链接被抓取后,它会从第一次抓取中抓取网页的链接,但是似乎有一个问题链接正在使用TLD(http://example.com vs / about for例) . 我已经尝试分解这些链接并添加一些过滤来捕获和记录它们,我已经尝试运行我自己的命令来过滤掉完整的UR...
  • 3 votes
     answers
     views

    Google网站管理员工具AngularJS问题

    我用AngularJS框架制作了一个单页网站 . 我配置了我的服务器(nginx)以将抓取工具重定向到静态HTML页面 . 我用https://prerender.io,我的JS加了!在我的网址中的#之后,我还添加了元 <meta name="fragment" content="!"> . 所以我的网站URL看起来像这样:example.co...

热门问题