首页 文章
  • 0 votes
     answers
     views

    当蜘蛛使用代理中间件时,Scrapy在Deferred中抛出TWISTED Unhandled错误

    我在scrapy中使用ProxyMiddleware,并且它抛出了无法跟踪的错误 . 这是Traceback: 延期中未处理的错误: [twisted] CRITICAL:延迟中未处理的错误: [twisted]关键: 回溯(最近的呼叫最后): 文件“/usr/local/lib/python3.5/dist-packages/twisted/internet/defer.py”,第1418行,在...
  • 1 votes
     answers
     views

    如何仅使用特定类别的scrapy抓取链接,并忽略产品页面上的链接?

    我想从一个类别抓取产品,但我不希望蜘蛛遵循产品页面本身上找到的链接(相关产品来自同一品牌但不同类型 - 例如,我想要的产品是香水,它作为相关产品有口红) . 该类别的网址为 site.com/category_name/ ,产品网址为 site.com/brand_name/product-name-here/ . 我该如何定义抓取规则?
  • 2 votes
     answers
     views

    Scrapy抓取简历不会爬行任何东西,只是完成

    我使用CrawlSpider Derived类开始爬行,并使用Ctrl C暂停它 . 当我再次执行命令以恢复它时,它不会继续 . 我的开始和恢复命令: scrapy crawl mycrawler -s JOBDIR=crawls/test5_mycrawl Scrapy创建文件夹 . 权限是777 . 当我恢复爬行时,它只输出: /home/adminuser/.virtualenvs/rg_...
  • 3 votes
     answers
     views

    scrapy没有爬行所有链接

    我想从http://community.sellfree.co.kr/中提取数据 . Scrapy正在运行,但它似乎只是刮掉了 start_urls ,并且没有抓取任何链接 . 我希望蜘蛛爬行整个网站 . 以下是我的代码: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from...
  • -1 votes
     answers
     views

    将域传递给Scrapy Web爬虫

    我正在构建一个Web爬虫,用户将URL输入到他们首先运行的脚本中,然后所述脚本运行带有输入域的爬虫 . 我有一些清洁要做,但我需要得到原型 . 我已经制作了代码,发生的事情是爬虫脚本一直在询问URL . 我已经尝试使用终端命令输入它,但我不认为我的代码与之兼容 . 是否有更好的方法来传递最终用户从其他脚本输入的域名? # First script import os def userInput(...
  • 0 votes
     answers
     views

    启动Scrapy项目时出错[关闭]

    当我试图开始scrapy时,我得到了这个错误 . 为什么会出现? $ scrapy startproject tutorial Traceback(最近一次调用最后一次):文件“/ Applications / anaconda / bin / scrapy”,第5行,来自pkg_resources import load_entry_point文件“/Applications/anaconda...
  • 0 votes
     answers
     views

    使用蜘蛛爬虫的蜘蛛__init__中的参数

    我正在尝试使用蜘蛛爬虫代码来获取一些房地产数据 . 但它一直给我这个错误: 回溯(最近一次调用最后一次):文件“//anaconda/lib/python2.7/site-packages/twisted/internet/defer.py”,第1301行,在_inlineCallbacks中结果= g.send(结果)文件“/ /anaconda/lib/python2.7/site-pack...
  • 0 votes
     answers
     views

    scrapy:为什么不使用parse_item函数

    这是我的蜘蛛: import scrapy import urlparse from scrapy.http import Request class BasicSpider(scrapy.Spider): name = "basic2" allowed_domains = ["cnblogs"] start_urls = ( ...
  • 0 votes
     answers
     views

    如何使用Scrapy从多个链接页面抓取和抓取一组数据

    我想要做的是抓取公司信息(thisisavailable.eu.pn/company.html)并添加到董事会,将所有董事会成员与来自不同页面的各自数据联系起来 . 理想情况下,我从示例页面获取的数据将是: { "company": "Mycompany Ltd", "code": "3241234",...
  • 0 votes
     answers
     views

    Scrapy CrawlSpider没有加入

    我一直在这里阅读很多关于scrapy的网站,我无法解决这个问题所以我问你:P希望有人可以帮助我 . 我想验证主客户端页面中的登录,然后解析所有类别,然后解析所有产品,并保存产品的 Headers ,类别,数量和价格 . 我的代码: # -*- coding: utf-8 -*- import scrapy from scrapy.item import Item, Field from scra...
  • 0 votes
     answers
     views

    完成网刮后,Scrapy蜘蛛无法终止

    我正在使用Scrapy运行蜘蛛,但在完成爬行后它似乎无法终止 . 日志统计信息只是递归地报告它正在以0页/分钟的速度进行抓取 . 当我尝试使用Ctrl-C退出时,它无法正常关闭,我必须再次使用Ctrl-C强行退出 . 有什么线索发生了什么? 完成刮擦后,我得到这样的输出: 2017-08-24 11:13:45 [scrapy.extensions.logstats]信息:抓取60页(0页/分)...
  • 1 votes
     answers
     views

    Scrapy - 了解CrawlSpider和LinkExtractor

    所以我正在尝试使用CrawlSpider并理解_1410722中的以下示例: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(CrawlSpider): name = 'example.com'...
  • 3 votes
     answers
     views

    如何使用scrapy爬网多个域

    我有一个项目,我必须抓取大量不同的网站 . 所有这些网站爬行都可以使用相同的蜘蛛,因为我不需要从其正文页面中提取项目 . 我想的方法是在蜘蛛文件中对要爬网的域进行参数化,并调用scrapy crawl命令将域和起始URL作为参数传递,这样我就可以避免为每个站点生成一个蜘蛛(站点列表会增加时间) . 我的想法是将它部署到运行scrapyd的服务器上,因此有几个问题出现在我面前: 这是我能采取的最...
  • 0 votes
     answers
     views

    当根页面上没有链接分页时,Scrapy Crawler不起作用

    我的scrapy履带式打印机一直无法正常工作 . 我从网上商店中删除了一些类别,其中包含每个类别页面中的分页但有时它不包含链接分页,因为只有一个页面 我的规则只有在链接分页在我选择的页面内但我不知道如何在类别的根页面是唯一的时候使其工作时才有效 . 这是我的规则 . rules = [ Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@c...
  • 0 votes
     answers
     views

    如果网站因robots.txt而未抓取,请获取回复

    我正在尝试抓取用户定义的网站,但无法抓取robots.txt阻止抓取的网站 . 这很好,但我希望得到响应,我可以向用户显示“您输入的网站由于robots.txt而不允许抓取” . 还有其他3种类型的预防,我得到了相应的代码和处理,但只有这个例外(即robots.txt预防)我无法处理 . 所以,如果有任何办法处理案件并显示相应的错误消息,请告诉我 . 我正在使用Python 3.5.2和Scrap...
  • 1 votes
     answers
     views

    如何使用Scrapy在页面的第二级抓取数据

    我想使用scrapy spider从以下网站的所有帖子中获取数据(问题 Headers 内容和答案): https://forums.att.com/t5/custom/page/page-id/latest-activity/category-id/Customer_Care/page/1?page-type=latest-solutions-topics 问题是我只是不知道如何首先按照帖子的链...
  • 0 votes
     answers
     views

    强迫蜘蛛在scrapy停止

    我在一个项目中有20个蜘蛛,每个蜘蛛都有不同的任务和要爬网的URL(但是数据类似,我正在使用共享的 items.py 和 pipelines.py ),顺便说一下,如果满足某些条件我想要的管道类指定蜘蛛停止爬行 . 我正在测试 raise DropItem("terminated by me") 和 raise CloseSpider('terminate by me') ...
  • 0 votes
     answers
     views

    scrapy xpath无法获取值

    我有一个网站,我想保存两个span元素值 . 这是我的HTML代码的相关部分: <div class="box-search-product-filter-row"> <span class="result-numbers" sth-bind="model.navigationSettings.showFilter&qu...
  • 3 votes
     answers
     views

    Scrapy DEBUG:抓取(200)

    我正在尝试使用Scrapy和XPath选择器来抓取网页 . 我已经使用chrome测试了我的XPath选择器 . 看来我的蜘蛛爬行零页并刮掉0个项目 . 我该怎么做才能纠正它?我从抓取中获得以下输出: $ scrapy crawl stack 2015-08-24 21:11:55 [scrapy] INFO: Scrapy 1.0.3 started (bot: stack) 2015-08-2...
  • 1 votes
     answers
     views

    scrapy xpath选择器在浏览器中工作,但不在crawl或shell中工作

    我正在抓取以下页面:http://www.worldfootball.net/all_matches/eng-premier-league-2015-2016/ 第一个解析通过,应该得到所有带分数的链接作为文本 . 我首先遍历所有匹配行: for sel in response.xpath('(//table[@class="standard_tabelle"])[1]/tr'...
  • 0 votes
     answers
     views

    Scrapy - Xpath在shell中工作但不在代码中工作

    我正在尝试抓取一个网站(我获得了他们的授权),我的代码在scrapy shell中返回了我想要的东西,但我的蜘蛛里什么都没有 . 我还检查了所有类似于此之前的所有问题,但没有任何成功,例如,网站不在主页中使用javascript来加载我需要的元素 . import scrapy class MySpider(scrapy.Spider): name = 'MySpider' ...

热门问题