首页 文章
  • 0 votes
     answers
     views

    使用蜘蛛爬虫的蜘蛛__init__中的参数

    我正在尝试使用蜘蛛爬虫代码来获取一些房地产数据 . 但它一直给我这个错误: 回溯(最近一次调用最后一次):文件“//anaconda/lib/python2.7/site-packages/twisted/internet/defer.py”,第1301行,在_inlineCallbacks中结果= g.send(结果)文件“/ /anaconda/lib/python2.7/site-pack...
  • 0 votes
     answers
     views

    Scrapyd Deploy错误:EOFError:读取一行时的EOF

    我有2台,PC A没有错误,爬虫已成功部署,但在PC B上,错误发生 . 我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时,会发生这些错误 . {"status":"error","message":回溯(最近通话最后一个):\ n文件\ "/usr/lib/python2.7/runpy.py",线162,...
  • 3 votes
     answers
     views

    如何使用scrapy爬网多个域

    我有一个项目,我必须抓取大量不同的网站 . 所有这些网站爬行都可以使用相同的蜘蛛,因为我不需要从其正文页面中提取项目 . 我想的方法是在蜘蛛文件中对要爬网的域进行参数化,并调用scrapy crawl命令将域和起始URL作为参数传递,这样我就可以避免为每个站点生成一个蜘蛛(站点列表会增加时间) . 我的想法是将它部署到运行scrapyd的服务器上,因此有几个问题出现在我面前: 这是我能采取的最...
  • 0 votes
     answers
     views

    如果网站因robots.txt而未抓取,请获取回复

    我正在尝试抓取用户定义的网站,但无法抓取robots.txt阻止抓取的网站 . 这很好,但我希望得到响应,我可以向用户显示“您输入的网站由于robots.txt而不允许抓取” . 还有其他3种类型的预防,我得到了相应的代码和处理,但只有这个例外(即robots.txt预防)我无法处理 . 所以,如果有任何办法处理案件并显示相应的错误消息,请告诉我 . 我正在使用Python 3.5.2和Scrap...
  • 1 votes
     answers
     views

    在2个本地Ubuntu实例上运行2个RabbitMQ worker和2个Scrapyd守护进程,其中一个rabbitmq worker不工作

    我目前正致力于构建"Scrapy spiders control panel",我正在测试[分布式多用户Scrapy蜘蛛控制面板] https://github.com/aaldaber/Distributed-Multi-User-Scrapy-System-with-a-Web-UI上提供的现有解决方案 . 我试图在我的本地Ubuntu开发机器上运行它,但有 scrapd ...

热门问题