Java 学习之路

0 votes

answers

views

使用蜘蛛爬虫的蜘蛛__init__中的参数

我正在尝试使用蜘蛛爬虫代码来获取一些房地产数据 . 但它一直给我这个错误：回溯（最近一次调用最后一次）：文件“//anaconda/lib/python2.7/site-packages/twisted/internet/defer.py”，第1301行，在_inlineCallbacks中结果= g.send（结果）文件“/ /anaconda/lib/python2.7/site-pack...

python-2.7 scrapy web-crawler scrapy-spider scrapyd
0 votes

answers

views

Scrapyd Deploy错误：EOFError：读取一行时的EOF

我有2台，PC A没有错误，爬虫已成功部署，但在PC B上，错误发生 . 我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时，会发生这些错误 . {"status"："error"，"message"：回溯（最近通话最后一个）：\ n文件\ "/usr/lib/python2.7/runpy.py"，线162，...

python ubuntu scrapy web-crawler scrapyd
3 votes

answers

views

如何使用scrapy爬网多个域

我有一个项目，我必须抓取大量不同的网站 . 所有这些网站爬行都可以使用相同的蜘蛛，因为我不需要从其正文页面中提取项目 . 我想的方法是在蜘蛛文件中对要爬网的域进行参数化，并调用scrapy crawl命令将域和起始URL作为参数传递，这样我就可以避免为每个站点生成一个蜘蛛（站点列表会增加时间） . 我的想法是将它部署到运行scrapyd的服务器上，因此有几个问题出现在我面前：这是我能采取的最...

scrapy scrapyd scrapy-spider
0 votes

answers

views

如果网站因robots.txt而未抓取，请获取回复

我正在尝试抓取用户定义的网站，但无法抓取robots.txt阻止抓取的网站 . 这很好，但我希望得到响应，我可以向用户显示“您输入的网站由于robots.txt而不允许抓取” . 还有其他3种类型的预防，我得到了相应的代码和处理，但只有这个例外（即robots.txt预防）我无法处理 . 所以，如果有任何办法处理案件并显示相应的错误消息，请告诉我 . 我正在使用Python 3.5.2和Scrap...

python scrapy scrapy-spider scrapyd
1 votes

answers

views

在2个本地Ubuntu实例上运行2个RabbitMQ worker和2个Scrapyd守护进程，其中一个rabbitmq worker不工作

我目前正致力于构建"Scrapy spiders control panel"，我正在测试[分布式多用户Scrapy蜘蛛控制面板] https://github.com/aaldaber/Distributed-Multi-User-Scrapy-System-with-a-Web-UI上提供的现有解决方案 . 我试图在我的本地Ubuntu开发机器上运行它，但有 scrapd ...

django scrapy rabbitmq scrapyd

使用蜘蛛爬虫的蜘蛛__init__中的参数

Scrapyd Deploy错误：EOFError：读取一行时的EOF

如何使用scrapy爬网多个域

如果网站因robots.txt而未抓取，请获取回复

在2个本地Ubuntu实例上运行2个RabbitMQ worker和2个Scrapyd守护进程，其中一个rabbitmq worker不工作

热门问题

使用蜘蛛爬虫的蜘蛛init中的参数